🥁 Juhu, es ist wieder DMEXCO - Digital Marketing Expo & Conference. Meine Vorbereitung mündete im Kern in der Reflexion einiger Diskussionen der letzten Wochen (also auch irgendwie der Vorahnung zu den Diskussionen auf der DMEXCO). Hier also als Impuls meine Überlegungen zu diesen Diskussionen und irgendwie eine Klarstellung zum Thema, was diese KI, was LLMs und Datenräume denn nun sind, was sie leisten und wo ihre Grenzen sind. 🥁
Wir werden immer wieder gefragt, was wir/ was AIlon denn nun besser könnte als LLMs (ChatGPT, Co-Pilot etc.). Die Antwort auf diese Frage ist recht einfach und folgt etwas weiter unten.
Mehr als diese Antwort interessiert mich allerdings die Gegenfrage, was denn nun eigentlich die Vorstellungen zu einem LLM, der eigentlichen Leistung des LLM und vor allem der Datengrundlage eines LLMs ist. Damit ist auch – mehr als zwischen den Zeilen - die Frage danach verbunden, wie die Vorstellung zu dem aussieht, was denn so eine KI überhaupt ist und kann.
Die unterschiedlichsten Antworten, die ich zu dieser Gegenfrage erhalte, bringen mich zu diesem Text.
Es muss zwischen LLM (eigentlich ja nur eine Art Interface) und der zu recherchierenden Datenstruktur (Datenbank) unterschieden werden.
Zunächst – und das war uns bei AIlon hinsichtlich der bei uns eingehenden Fragen zunächst gar nicht klar – muss ganz deutlich zwischen dem LLM (eigentlich ja nur eine Art Interface) und der zu recherchierenden Datenstruktur (Datenbank) unterschieden werden. Das ist nicht ein und dasselbe.
Bei ChatGPT ist sehr schön zu sehen, wie diese beiden Systeme zusammenarbeiten (und dass es zwei unterschiedliche Systeme sind). Durch den Prompt angestoßen, werden diverse Quellen durchsucht, was entsprechend durch kleine Icons angezeigt wird. Das „alte“, klassische Google macht und machte nichts anders (ja, in anderer Qualität. Siehe auch die Diskussion um Pay-Per-Crawl). Die Darreichungsform unterscheidet sich nun immens. Trefferlisten Vs. Text, der zusammengefasst, interpretiert und – wenn gewollt – kommentiert ist. Das ist die Leistung des LLMs.
Der Raum an Daten, auf den das LLM zugreift, ist hierbei theoretisch unendlich und dadurch auch nicht kontrollierbar. Hier entstehen die berühmten Halluzinationen. Entweder durch die Verarbeitung von falschen Informationen oder eben, weil keine Informationen vorhanden sind. In diesem Fall – es wurde einmal gefragt, warum ChatGPT eigentlich ein Schleimer sei – ist ein LLM freundlich genug, eigentlich immer eine Antwort zu liefern. Sie muss ja nicht stimmen. Zwingt man ein LLM dazu, nur „richtigen“ und belegbaren Output zu liefern, kommt man – zwar mit einigem Aufwand – an den Punkt, an dem das LLM zurückgibt: „Hierzu liegen mir nicht genügend Informationen vor“.
Einen Schritt weiter: Nehmen wir an, der Datenraum ist verlässlich und sicher/korrekt. Die Daten sind also richtig, dann wird ja zumeist nicht nur eine Datenquelle befragt. Bsp.: Ich habe Kassen und Footfall-Daten, dazu eine Market-Media-Studie sowie eigene Befragungen zu Marken und Produkten (Bekanntheitswerte, Nutzungsmotivationen etc.).
Diese Daten liegen für das LLM in Silos vor, nebeneinander und unverbunden. Aus Mustern kann das LLM bis zu einem gewissen Grad Verbindungen und Relationen zu vereinzelten Daten unterschiedlicher Quellen herstellen. Aber eben nicht immer, nicht vollumfänglich und vor allem nicht mit Sicherheit richtig. Keine Sorge, das hier wird kein LLM Bashing 😊
Es wird nun lediglich klar, dass die herausragenden Leistungen eines LLMs in ihrer Output-Qualität zu 100% von der Qualität des befragten und analysierten Datensatzes abhängt.
Nur auf Basis dieser Voraussetzungen – insbesondere der richtigen Verknüpfung von Datensätzen – erzeugt ein LLM verlässliche Ergebnisse.
Also: Der Datensatz bzw. die Verknüpfungen von Datensätzen stehen im Zentrum. Ein LLM ist so gesehen (ein sehr intelligentes) Interface für diesen Datensatz. So, wie ein klickbares Dashboard eben auch ein Interface ist.
Für AIlon bedeutet das: Wir liefern zu Zielgruppen, Marken, Konsum und Medien eben genau diesen korrekten und sicheren Datenraum. AIlon ist kein geschlossenes System, hier können weitere Daten (Kassendaten, Geo-Daten, Brand-Trackings etc.) in die Vollerhebung von AIlon eingebunden werden. Welches Interface dann genutzt wird, um AIlon zu befragen, ist eigentlich egal. Aktuell erfolgt die Abfrage durch ein Dashboard, aber wir arbeiten schon daran, AIlon auch durch ein LLM steuern zu können. (🥁Prototyp ist schon fertig. Beta kommt in Q4🥁). BTW.: Supportive Outputs in Richtung Bild und Text sind sofort anknüpfbar.
Apropos: Befrage ich ChatGPT selbst nach den hier sezierten Unterschieden zwischen LLM und Datenbasis sowie den jeweils kontribuierten Leistungen, kommt folgendes heraus:
Frage: Wie würdest du den Unterschied zwischen einem LLM, wie du eines (oder Co-Pilot) bist und einer Anwendung beschreiben, die aus einer geschlossenen Datenbank und einem Interface (klickbares Dashboard, oder LLM) besteht. Die Datenbank beinhaltet bevölkerungsrepräsentative Daten zu Zielgruppen, Medien- und Konsumverhalten, Soziodemographie, Persönlichkeitsprofilen, geographischen Daten etc. Die Datenbank besteht aus vielen unterschiedlichen Datensätzen, die wechselseitig (bevölkerungsrepräsentativ) miteinander verbunden sind.
Antwort:
Sehr gute Frage – der Unterschied liegt im Charakter des Systems und seiner Fähigkeit zum Umgang mit Wissen. Ich würde es in etwa so strukturieren:
1. LLM (z. B. ich oder Copilot)
2. Geschlossene Datenbank + Interface/Dashboard
3. Kombination (LLM + Datenbank/Interface)
Das eigentlich Spannende ist die Hybridisierung:
👉 Kurzformel:
Geht doch 😊
Besser hätte man es doch selber nicht schreiben können. Das bedeutet aber auch, hierzu wurde vermutlich schon einiges geschrieben (Asche auf mein Haupt), woraus ChatGPT diese sehr gute Zusammenfassung kompiliert hat.
Ich freue mich auf zwei volle und inspirierende Tage auf der DMEXCO. 🍾