Python – Noel Schmitt

Eine webbasierte Plattform für automatisierte Marktforschung durch KI-gestützte Persona-Agents. Nutzer erstellen Fragebögen über ein Next.js-Frontend und erhalten Feedback von 500 individualisierten KI-Personas anstelle realer Testpersonen.

Die Herausforderung dahinter ist grundlegend: Traditionelle Marktforschung kostet Zeit und Geld – oft zu viel für frühe Produktphasen, in denen schnelle Iterationszyklen entscheidend sind. Genau hier setzt die Plattform an: Sie ermöglicht es, Produktideen, Features oder Messaging innerhalb von Minuten statt Wochen mit verschiedenen Zielgruppen zu validieren.

Funktionsweise

Der Nutzer definiert über einen strukturierten Fragebogen seine Forschungsfragen. Nach Absenden werden im Backend LangGraph-Agents aktiviert, die auf Basis ihrer zugewiesenen Persona-Profile antworten. Jeder Agent setzt sich individuell mit dem Produkt und Briefing auseinander und liefert entweder Freitextantworten oder skalierte Bewertungen.

Der entscheidende Unterschied zu statischen Templates oder einfachen Prompt-Variationen: Jede Persona reagiert tatsächlich kontextbezogen auf die spezifische Fragestellung. Ein 28-jähriger Tech-Enthusiast aus dem urbanen Milieu antwortet anders auf die gleiche Produktfrage als eine 52-jährige Mutter aus dem ländlichen Raum – nicht weil unterschiedliche Prompts verwendet werden, sondern weil die zugrundeliegenden Persona-Profile diese Unterschiede in Wertesystemen, Lebenssituationen und Konsumverhalten bereits enthalten.

Persona-System und Datenmanagement

Das Herzstück der Plattform bilden 500 individualisierte Personas, die verschiedene Alters-, Milieu- und Geschlechtergruppen abdecken. Hier liegt eine der größten technischen und konzeptionellen Herausforderungen des Projekts: Wie erschafft man Personas, die glaubwürdig und konsistent antworten?

Wissenschaftlich fundierte Milieu-Segmentierung

Die Erstellung erfolgte über einen mehrstufigen, KI-gestützten Prozess, der auf etablierten deutschen Milieustudien basiert. Zunächst wurden neue Milieugruppen generiert, die aktuelle gesellschaftliche Strukturen abbilden. Jede Milieugruppe erhielt eine statistische Verteilung nach Geschlecht und Alter – beispielsweise 100 Personen in Milieu 1, davon 70% männlich, 30% weiblich, mit spezifischen Altersverteilungen pro Geschlecht.

Intelligente Namensgebung und Migrationshintergrund

Die Komplexität zeigt sich bereits bei einem scheinbar simplen Detail: den Namen. Bei der Generierung wurde berücksichtigt, welches Geschlecht die Person hat, in welchem Jahr sie geboren wurde (um zeitgemäße Namen zu wählen) und ob sie einen Migrationshintergrund besitzt. Das führte zu einer generationenspezifischen Namensgebung: In der Gen Z sind beispielsweise türkische Namen inkludiert, während in der Silent Generation (alles vor den 90ern) eher griechische, italienische oder polnische Namen dominieren – ein Abbild der deutschen Migrationsgeschichte.

Datenverarbeitung mit n8n

Die Verarbeitung dieser komplexen Datenmengen erfolgte über n8n als Workflow-Automation-Tool. Der initiale Generierungsprozess war nur der erste Schritt. Danach folgte die Validierung auf Konsistenz – widersprechen sich Datenpunkte innerhalb einer Persona? Ist die Verteilung über verschiedene Milieus realistisch? Gibt es ungewollte Bias in der Altersverteilung oder Geschlechterrepräsentation? Diese Fragen mussten systematisch beantwortet werden, bevor die Personas produktiv eingesetzt werden konnten.

Jede Persona verfügt über ein detailliertes Profil mit 25 Spalten, die jeweils multiple Datenpunkte enthalten. Es reicht nicht, einfach „weiblich, 35 Jahre, verheiratet“ zu definieren. Erst die Kombination aus demografischen Daten, Wertesystemen, Konsumverhalten, Mediennutzung, politischen Einstellungen und konkreter Lebenssituation macht eine Persona glaubwürdig und differenziert genug, um auf unterschiedliche Fragestellungen authentisch zu reagieren.

Flexible Zielgruppen-Segmentierung

Bei der Umfrageerstellung können spezifische Zielgruppen definiert werden – etwa nach Geschlecht, Familienstand oder anderen demografischen Merkmalen. Umfragen lassen sich mit unterschiedlichen Personagruppen wiederholen, um verschiedene Zielgruppensegmente zu validieren. Das macht iteratives Testing möglich: Einmal den Fragebogen erstellt, mehrmals mit verschiedenen Zielgruppen getestet. Die Architektur erlaubt es, eine Produktidee erst mit Tech-Early-Adopters zu testen, dann mit preisbewussten Familien, dann mit Senioren – alles innerhalb weniger Stunden statt Wochen.

Backend-Architektur: FastAPI und Supabase

Das technische Fundament der Plattform besteht aus zwei zentralen Komponenten: einem individuell entwickelten Python-Backend mit FastAPI und Supabase als Backend as a Service.

FastAPI als strategische Architekturentscheidung

Die Entscheidung für FastAPI war strategisch: Alle Funktionen, die momentan vom Frontend abgerufen werden, sind bereits API-ready. Das bedeutet, dass die gesamte Marktforschungs-Logik perspektivisch als Schnittstelle in andere Systeme integriert oder für andere Kunden verfügbar gemacht werden kann. Ein SaaS-Produkt zu bauen war von Anfang an mitgedacht – nicht als nachträgliche Anpassung, sondern als Teil der Grundarchitektur.

Das FastAPI-Backend übernimmt das gesamte Handling von LangGraph, die Orchestrierung der Agent-Chains und die Kommunikation mit den verschiedenen Services. Die asynchrone Natur von FastAPI ist hier besonders wertvoll: Wenn 50 Personas parallel auf einen Fragebogen antworten sollen, laufen diese Prozesse non-blocking ab.

Strukturierte Responses mit Validation Layer

Ein kritischer Aspekt der Architektur ist die Sicherstellung der Datenqualität. Die LLM-Agents werden zu strukturierten JSON-Antworten gezwungen. Wenn eine JSON-Antwort nicht korrekt formatiert vom LLM zurückgegeben wird, greift ein Validation Layer: Die Antwort wird abgelehnt und ein automatisches Retesting findet statt. Diese Fehlerbehandlung auf mehreren Ebenen stellt sicher, dass nur valide, verarbeitbare Daten in die Datenbank gelangen.

Supabase für Authentication und Database

Supabase übernimmt die Datenbankverwaltung für Personas, Umfragen und Ergebnisse sowie das komplette User-Authentication-System. Jeder Nutzer verfügt über einen individuellen Login-Bereich, in dem ausschließlich die eigenen Projekte und Umfragen angezeigt werden.

Der entscheidende Vorteil dieser Architektur liegt in der PostgreSQL-Basis von Supabase. Es ist keine „Black Box“ wie bei vielen anderen Backend-as-a-Service-Lösungen. Row Level Security ermöglicht granulare Zugriffskontrolle direkt auf Datenbankebene. Nutzer können technisch gar nicht auf fremde Umfragen zugreifen – nicht weil die Application-Logik das verhindert, sondern weil die Datenbank es nicht zulässt. Diese Sicherheitsebene direkt in der Datenbank zu haben, statt sie nur in der Application-Layer zu implementieren, reduziert das Risiko von Sicherheitslücken erheblich.

LLM-Integration und Modellauswahl

OpenRouter: Eine API für alle Modelle

Als LLM-Provider kommt OpenRouter zum Einsatz. Die Entscheidung für OpenRouter statt direkter Integration einzelner Anbieter bietet einen strategischen Vorteil: maximale Flexibilität in der Modellauswahl ohne Vendor Lock-in. Eine API für alle Provider bedeutet konkret, dass man innerhalb von Minuten auf neue, bessere Modelle von OpenAI, Anthropic, Google oder anderen Anbietern wechseln kann. In einem Feld, das sich so schnell entwickelt wie Large Language Models, ist diese Flexibilität entscheidend.

Iterative Modellevaluation

In einer initialen Testphase wurden verschiedene Language Models auf ihr Preis-Leistungs-Verhältnis und ihre Output-Qualität hin getestet. Schnell zeigte sich: Teurere Modelle liefern nicht automatisch bessere Ergebnisse – es kommt auf den spezifischen Use Case an. Für strukturierte Umfrageantworten mit klaren Persona-Vorgaben benötigt man nicht unbedingt die höchste Reasoning-Kapazität der teuersten Modelle. Wichtiger sind Konsistenz, Zuverlässigkeit und die Fähigkeit, Instruktionen präzise zu befolgen.

Die Balance zwischen Kosten und Qualität ist kritisch: Bei 500 Personas und potenziell dutzenden Fragen pro Umfrage summieren sich die API-Kosten schnell. Ein Modell, das 30% teurer ist aber nur 10% bessere Ergebnisse liefert, ist wirtschaftlich nicht tragfähig. Die Tests führten zur Auswahl eines Modells, das sowohl wirtschaftlich als auch qualitativ optimale Ergebnisse für diesen konkreten Anwendungsfall liefert.

Langfuse: Zentrales Prompt-Management und Observability

Jede Agent-Antwort wird über Langfuse als LLM Observability Tool getrackt. Langfuse übernimmt dabei mehrere zentrale Funktionen: Es ermöglicht versionierte Prompts mit vollständiger Historie und macht es möglich, verschiedene Prompt-Varianten zu testen und zu vergleichen.

Das Besondere: Langfuse wird für alle KI-Funktionen in der App genutzt – sowohl bei der initialen Persona-Generierung als auch für System-Prompts, Persona-Prompts, Summary-Prompts und alle weiteren KI-gestützten Features. Alles läuft zentral über dieses System, und es ist selbst gehostet, was zusätzliche Flexibilität bietet.

Die gesammelten Daten dienen mehreren Zwecken: Sie ermöglichen kontinuierliches Monitoring der Agent-Performance – welche Personas antworten konsistent? Wo gibt es Ausreißer? Welche Fragen führen zu qualitativ hochwertigen Antworten? Gleichzeitig sind die gespeicherten Daten bereits so vorstrukturiert, dass sie später sehr einfach in ein klassisches Frage-Antwort-Format für das Training spezialisierter Large oder Small Language Models überführt werden können. Je mehr Umfragen durchgeführt werden, desto mehr Daten über erfolgreiche Persona-Antworten sammeln sich an – ein wachsendes Asset für zukünftige Modell-Optimierungen.

Custom Token Management System

Für die Nutzungsverwaltung wurde ein maßgeschneidertes Token-System entwickelt. Die Token-Berechnung basiert auf zwei Faktoren: der Anzahl der Fragen im Fragebogen und der Anzahl der ausgewählten Personas. Beispielrechnung: Bei einem Fragebogen mit 8 Fragen und 50 befragten Personas werden 400 Tokens verbraucht (8 × 50 = 400).

Warum ein Custom System statt einer Standard-Lösung? Die spezifische Berechnungslogik reflektiert die tatsächlichen Kosten und den Wert der Plattform. Jede Frage an jede Persona verursacht einen LLM-API-Call – das Token-System bildet also direkt die dahinterliegende Ressourcennutzung ab. Standard-Lösungen wie „Credits pro Umfrage“ oder „Flatrate für X Umfragen“ hätten diese Granularität nicht bieten können.

Das System beinhaltet eine automatische Token-Regeneration: Alle 30 Tage werden die Tokens des jeweiligen Nutzers wieder aufgefüllt. Diese Mechanik fördert regelmäßige Nutzung ohne dass sich Nutzer Gedanken über „verschwendete“ Tokens machen müssen. Die gesamte Token-Verwaltung – Verbrauch, Tracking und Regeneration – läuft über die Supabase-Datenbank und wurde vollständig individuell entwickelt, von der Berechnungslogik bis zur automatischen Cronjob-Ausführung für die monatliche Regeneration.

Ergebnisaufbereitung mit Mehrwert

Das Frontend bereitet die Agent-Antworten in einem übersichtlichen Bericht auf. Der Fokus liegt dabei nicht nur auf Darstellung, sondern auf echtem Erkenntnisgewinn: Die automatische Zusammenfassung von Meinungsbildern priorisiert bereits in welche Richtung es geht und liefert konkrete Key Takeaways.

Statt nur zu schreiben „Die meisten Personas fanden das Produkt interessant“, werden spezifische Handlungsempfehlungen generiert: „47 von 50 Personas haben den Preis als zu hoch kritisiert, besonders in der Altersgruppe 25-35. Gleichzeitig wurde die Funktionalität X von 38 Personas positiv hervorgehoben. Handlungsempfehlung: Preis überdenken oder zusätzliche Features kommunizieren, die den Preis rechtfertigen.“

Zusätzlich ermöglichen Visualisierungsfunktionen die Darstellung der Umfrageergebnisse in Diagrammform. Die Balance zwischen Überblick und Detail ist entscheidend – zu oberflächlich, und die Ergebnisse wirken nicht vertrauenswürdig; zu detailliert, und niemand wird sich durch hunderte Einzelantworten arbeiten. Die Plattform bietet beides: Schnelle Erfassbarkeit der wichtigsten Erkenntnisse in wenigen Minuten, aber gleichzeitig die Möglichkeit, bei Bedarf tief in die Einzelantworten einzutauchen.

Validierung und Weiterentwicklung: Die SSR-Methode

Erste Tests haben gezeigt, dass das System grundlegend funktioniert. Die entscheidende Frage bleibt jedoch: Sind die Ergebnisse valide? Antworten KI-Personas tatsächlich so, wie echte Menschen es tun würden?

Das Problem der „generischen Mitte“

Hier zeigt sich eine bekannte Problematik von LLM-basierten Umfragen: die sogenannte „generische Mitte“. Wenn ein Language Model auf einer Skala von 1 bis 7 bewerten soll, wählt es überproportional häufig mittlere Werte – ein Verhalten, das menschliche Antwortmuster nicht authentisch abbildet. Menschen sind polarisierter, emotionaler, weniger „ausgeglichen“ in ihren Bewertungen. Sie tendieren zu den Extremen, besonders wenn sie starke Meinungen haben.

Semantic Similarity Rating: Wissenschaftlich validierte Lösung

Eine vielversprechende Lösung bietet die kürzlich veröffentlichte Semantic Similarity Rating (SSR) Methode (Maier et al., 2025: „LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings“). Die Studie basiert auf 57 Consumer-Research-Surveys mit über 9.300 realen Teilnehmern und zeigt wissenschaftlich fundiert, dass LLMs mit der richtigen Methodik valide Marktforschungsergebnisse liefern können.

Der Ansatz dreht das Problem elegant um: Statt die KI direkt eine Zahl wählen zu lassen, lässt man sie tun, was sie am besten kann – natürliche Sprache generieren. Die KI gibt zunächst eine Freitextantwort, beispielsweise „Ich könnte mir vorstellen, das Produkt zu kaufen“. Diese Antwort wird anschließend vektorisiert und mit vordefinierten Musterantworten für jede Skalenstufe semantisch abgeglichen. Das System vergibt dann basierend auf der höchsten semantischen Übereinstimmung das Rating – nicht die KI selbst.

Beeindruckende Validierungsergebnisse

Die Studie zeigt beeindruckende Ergebnisse: SSR erreicht 90% der menschlichen Test-Retest-Reliabilität bei gleichzeitig realistischen Antwortverteilungen (KS-Similarity > 0.85). Dieser Umweg über die Vektorsuche umgeht die Tendenz zur generischen Mitte und führt zu authentischeren Antwortverteilungen. Die KI bleibt in ihrer Komfortzone (Textgenerierung), während das Rating systemseitig erfolgt. Es ist ein Beispiel dafür, wie man die Stärken von LLMs nutzt und gleichzeitig ihre Schwächen umgeht, statt gegen sie anzukämpfen.

Integration als nächster Schritt

Die Integration dieser Methode ist ein logischer nächster Schritt, um die Validität der Umfrageergebnisse wissenschaftlich fundiert zu erhöhen und das System näher an reale Marktforschungsstandards heranzuführen. Die technische Infrastruktur dafür ist bereits vorhanden – Vektorisierung und semantische Suche sind etablierte Technologien. Die Herausforderung liegt in der Erstellung und Kalibrierung der Musterantworten für jede Skalenstufe, aber die wissenschaftliche Evidenz aus der Studie liefert klare Richtlinien für die Implementation.

Schlagwort: Python

Mira: Market Intelligence Research Agents