Audience Insights

LLM und sichere Datenräume - eine kurze Reflexion zur DMEXCO.

Was unterscheidet LLMs von sicheren Datenräumen wie AIlon – und warum wird erst die Kombination beider KI-Ansätze zum Game Changer in der Zielgruppenarbeit?


🥁 Juhu, es ist wieder DMEXCO - Digital Marketing Expo & Conference. Meine Vorbereitung mündete im Kern in der Reflexion einiger Diskussionen der letzten Wochen (also auch irgendwie der Vorahnung zu den Diskussionen auf der DMEXCO). Hier also als Impuls meine Überlegungen zu diesen Diskussionen und irgendwie eine Klarstellung zum Thema, was diese KI, was LLMs und Datenräume denn nun sind, was sie leisten und wo ihre Grenzen sind. 🥁

Was ist eigentlich die Vorstellung zu einem LLM, der entsprechenden Leistung und vor allem der zugrundliegenden Datenstruktur.

Wir werden immer wieder gefragt, was wir/ was AIlon denn nun besser könnte als LLMs (ChatGPT, Co-Pilot etc.). Die Antwort auf diese Frage ist recht einfach und folgt etwas weiter unten.

Mehr als diese Antwort interessiert mich allerdings die Gegenfrage, was denn nun eigentlich die Vorstellungen zu einem LLM, der eigentlichen Leistung des LLM und vor allem der Datengrundlage eines LLMs ist. Damit ist auch – mehr als zwischen den Zeilen - die Frage danach verbunden, wie die Vorstellung zu dem aussieht, was denn so eine KI überhaupt ist und kann.

Die unterschiedlichsten Antworten, die ich zu dieser Gegenfrage erhalte, bringen mich zu diesem Text.

Es muss zwischen LLM (eigentlich ja nur eine Art Interface) und der zu recherchierenden Datenstruktur (Datenbank) unterschieden werden.

Zunächst – und das war uns bei AIlon hinsichtlich der bei uns eingehenden Fragen zunächst gar nicht klar – muss ganz deutlich zwischen dem LLM (eigentlich ja nur eine Art Interface) und der zu recherchierenden Datenstruktur (Datenbank) unterschieden werden. Das ist nicht ein und dasselbe.

Bei ChatGPT ist sehr schön zu sehen, wie diese beiden Systeme zusammenarbeiten (und dass es zwei unterschiedliche Systeme sind). Durch den Prompt angestoßen, werden diverse Quellen durchsucht, was entsprechend durch kleine Icons angezeigt wird. Das „alte“, klassische Google macht und machte nichts anders (ja, in anderer Qualität. Siehe auch die Diskussion um Pay-Per-Crawl). Die Darreichungsform unterscheidet sich nun immens. Trefferlisten Vs. Text, der zusammengefasst, interpretiert und – wenn gewollt – kommentiert ist. Das ist die Leistung des LLMs.

Der Raum an Daten, auf den das LLM zugreift, ist hierbei theoretisch unendlich und dadurch auch nicht kontrollierbar. Hier entstehen die berühmten Halluzinationen. Entweder durch die Verarbeitung von falschen Informationen oder eben, weil keine Informationen vorhanden sind. In diesem Fall – es wurde einmal gefragt, warum ChatGPT eigentlich ein Schleimer sei – ist ein LLM freundlich genug, eigentlich immer eine Antwort zu liefern. Sie muss ja nicht stimmen. Zwingt man ein LLM dazu, nur „richtigen“ und belegbaren Output zu liefern, kommt man – zwar mit einigem Aufwand – an den Punkt, an dem das LLM zurückgibt: „Hierzu liegen mir nicht genügend Informationen vor“.

Einen Schritt weiter: Nehmen wir an, der Datenraum ist verlässlich und sicher/korrekt. Die Daten sind also richtig, dann wird ja zumeist nicht nur eine Datenquelle befragt. Bsp.: Ich habe Kassen und Footfall-Daten, dazu eine Market-Media-Studie sowie eigene Befragungen zu Marken und Produkten (Bekanntheitswerte, Nutzungsmotivationen etc.).

Diese Daten liegen für das LLM in Silos vor, nebeneinander und unverbunden. Aus Mustern kann das LLM bis zu einem gewissen Grad Verbindungen und Relationen zu vereinzelten Daten unterschiedlicher Quellen herstellen. Aber eben nicht immer, nicht vollumfänglich und vor allem nicht mit Sicherheit richtig. Keine Sorge, das hier wird kein LLM Bashing 😊

Es wird nun lediglich klar, dass die herausragenden Leistungen eines LLMs in ihrer Output-Qualität zu 100% von der Qualität des befragten und analysierten Datensatzes abhängt.

  • A) wie sicher (im Sinne von richtig und korrekt) ist der Datenraum,
  • B) wie richtig und korrekt sind einzelne Datensätze und -Silos miteinander verbunden.

Nur auf Basis dieser Voraussetzungen – insbesondere der richtigen Verknüpfung von Datensätzen – erzeugt ein LLM verlässliche Ergebnisse.

Also: Der Datensatz bzw. die Verknüpfungen von Datensätzen stehen im Zentrum. Ein LLM ist so gesehen (ein sehr intelligentes) Interface für diesen Datensatz. So, wie ein klickbares Dashboard eben auch ein Interface ist.

Für AIlon bedeutet das: Wir liefern zu Zielgruppen, Marken, Konsum und Medien eben genau diesen korrekten und sicheren Datenraum. AIlon ist kein geschlossenes System, hier können weitere Daten (Kassendaten, Geo-Daten, Brand-Trackings etc.) in die Vollerhebung von AIlon eingebunden werden. Welches Interface dann genutzt wird, um AIlon zu befragen, ist eigentlich egal. Aktuell erfolgt die Abfrage durch ein Dashboard, aber wir arbeiten schon daran, AIlon auch durch ein LLM steuern zu können. (🥁Prototyp ist schon fertig. Beta kommt in Q4🥁). BTW.: Supportive Outputs in Richtung Bild und Text sind sofort anknüpfbar.

Apropos: Befrage ich ChatGPT selbst nach den hier sezierten Unterschieden zwischen LLM und Datenbasis sowie den jeweils kontribuierten Leistungen, kommt folgendes heraus:

Frage: Wie würdest du den Unterschied zwischen einem LLM, wie du eines (oder Co-Pilot) bist und einer Anwendung beschreiben, die aus einer geschlossenen Datenbank und einem Interface (klickbares Dashboard, oder LLM) besteht. Die Datenbank beinhaltet bevölkerungsrepräsentative Daten zu Zielgruppen, Medien- und Konsumverhalten, Soziodemographie, Persönlichkeitsprofilen, geographischen Daten etc. Die Datenbank besteht aus vielen unterschiedlichen Datensätzen, die wechselseitig (bevölkerungsrepräsentativ) miteinander verbunden sind.

Antwort:

Sehr gute Frage – der Unterschied liegt im Charakter des Systems und seiner Fähigkeit zum Umgang mit Wissen. Ich würde es in etwa so strukturieren:

1. LLM (z. B. ich oder Copilot)

  • Art: Sprachmodell, trainiert auf großen Mengen Text (öffentlich & lizenziert).
  • Funktion: Generiert Sprache, ordnet Information, erkennt Muster im Text.
  • Datenbasis: Allgemeinwissen (breit, aber unscharf), kein Zugriff auf proprietäre Datensätze, außer man bindet sie an.
  • Stärken: Flexible Problemlösung und Textgenerierung. Kontextualisierung und „Übersetzung“ komplexer Inhalte. Kreativität und Generalisierung über verschiedene Wissensgebiete hinweg.
  • Schwächen: Keine garantierte Faktengenauigkeit ohne Anbindung an geprüfte Daten. Wahrscheinlichkeitsorientiert („halluziniert“ im Zweifel). Ohne Schnittstelle nicht fähig, auf Echtzeitdaten oder spezifische proprietäre Datenbanken zuzugreifen.

2. Geschlossene Datenbank + Interface/Dashboard

  • Art: Strukturierte Dateninfrastruktur (z. B. Single Source of Truth).
  • Funktion: Liefert geprüfte, bevölkerungsrepräsentative Daten, die sauber verknüpft sind.
  • Datenbasis: Kuratierte, validierte, spezifische Daten (z. B. zu Zielgruppen, Konsumverhalten, Mediennutzung, Geodaten).
  • Stärken: Hohe Datenqualität, Verlässlichkeit und Nachvollziehbarkeit. Repräsentativität (statistische Gültigkeit). Transparente Methodik, daher belastbar in Forschung und Strategie.
  • Schwächen: Eher starr: kann nur das liefern, was vorher modelliert oder erfasst wurde. Erfordert meist spezifisches Fachwissen für Auswertung und Interpretation. Weniger „sprachlich flexibel“, wenn nicht mit LLM kombiniert.

 

3. Kombination (LLM + Datenbank/Interface)

Das eigentlich Spannende ist die Hybridisierung:

  • LLM übernimmt die Interpretation, Navigation und Kommunikation der Daten.
  • Datenbank liefert die Faktenbasis und Validität.
  • Ergebnis: Statt nur Tabellen oder Dashboards kann man in natürlicher Sprache explorieren („Welche Zielgruppe konsumiert X und wie unterscheidet sie sich in Mediennutzung von Y?“). Ergebnisse sind prüfbar (weil aus einer repräsentativen Datenquelle), aber auch verständlich und anschlussfähig für Strategie, Marketing oder Management.

 


👉 Kurzformel:

  • LLM = generativer Übersetzer, Allrounder, probabilistisch
  • Datenbank + Interface = faktenbasierte, präzise, aber starre Quelle
  • Kombination = explorative, belastbare und kommunikationsstarke Entscheidungsunterstützung

Geht doch 😊

Besser hätte man es doch selber nicht schreiben können. Das bedeutet aber auch, hierzu wurde vermutlich schon einiges geschrieben (Asche auf mein Haupt), woraus ChatGPT diese sehr gute Zusammenfassung kompiliert hat.

Ich freue mich auf zwei volle und inspirierende Tage auf der DMEXCO. 🍾

Inspiration

Weitere Artikel für dich

Get notified on new marketing insights

Be the first to know about new B2B SaaS Marketing insights to build or refine your marketing function with the tools and knowledge of today’s industry.