Schlagwort: Authentication

  • Wie ich der KI beibrachte, bessere Markennamen zu finden als wir

    Du sitzt in der vierten Stunde eines Naming-Workshops. Fünf Personen, ein leeres Flipchart, und irgendwer schlägt wieder „Brandify“ vor. Bei einem White-Label-Unternehmen mit 30 neuen Produkten pro Quartal ist das nicht skalierbar – es ist ein Burnout-Generator. Also habe ich gebaut, was fehlte: ein internes Tool, das kreative Prozesse nicht ersetzt, sondern intelligent strukturiert.

    Das Problem: Kreativität braucht Grenzen

    Naming ist ein seltsames Handwerk. Es ist gleichzeitig künstlerisch und datengetrieben, intuitiv und methodisch. Der klassische Prozess sieht so aus: Briefingrunde, Brainstorming, manuelle Domain-Checks, parallele Markenrecherche, Diskussionen, Überarbeitungen. Bei großen Unternehmen mit mehreren Produktlinien wird das zur Zeitfalle.

    Das Kernproblem war nicht die fehlende Kreativität im Team. Das Problem war die Struktur: Weder hatten wir klare Kriterien, noch konnten wir schnell iterieren. Jede neue Ideenrunde war ein Neustart statt eine Verfeinerung.

    Dann kam die Frage: Was, wenn wir diesen Prozess strukturieren und in einen Vorgang mit intuitiver UI gießen könnten?

    Entscheidung: Parameter statt Freitext-Prompts

    Ich hätte zwei Wege gehen können. Der erste: Ein einfaches Interface, bei dem jede Person direkt einen Prompt schreiben kann – „gib mir kreative Tech-Namen“. Das wäre schnell gebaut, aber würde das Problem nicht lösen.

    Der zweite Weg war aufwendiger, aber konzeptionell sauberer: Vor der KI-Generierung zwingt das System den Nutzende, sich selbst klar zu werden. Was genau wird benannt? Welche Werte soll der Name transportieren? Wie abstrakt darf es sein?

    Ich entschied mich für den zweiten Weg – nicht weil es weniger Arbeit ist (das Gegenteil ist der Fall), sondern weil er das eigentliche Problem adressiert: schlechtes Briefing führt zu schlechten Namen, nicht mangelnde KI-Qualität.

    Die Parameter wurden damit zur Struktur:

    Produktbeschreibung: Was ist das Produkt wirklich? Bei „Heizungsservice für Ältere“ ist das anders als bei „Tech-Startup für Gebäudeautomation“ – obwohl beide mit Heizung zu tun haben.

    Kreativitätslevel: Slider von „Kunstname“ (Zalando, Spotify – komplett abstrakt) bis „beschreibend“ (heizung24.de – funktional). Das gibt dem System vor, wie weit es abstrahieren soll.

    Namenslänge: Ein Wort? Wortkombination? Diese Entscheidung hat massive Auswirkungen auf Merkbarkeit und spätere Domain-Verfügbarkeit.

    Das Gegenstück zu dieser Struktur war: Keine freie Texteingabe. Kein „gib mir mal was Cooles“. Nur klare, parametrische Vorgaben.

    Technische Umsetzung: Struktur trifft Iteration

    Der Kern ist ein ausgeklügelter System-Prompt für die Claude API. Dieser Prompt ist nicht einfach eine Eingabe – er ist selbst das Produkt von 20+ Iterationen. Er enthält explizite Regeln für Namensgenerierung: phonetische Eigenschaften, kulturelle Kontexte, Suchmaschinen-Optimierung im Hinterkopf.

    Das Interface ist absichtlich simpel. Nicht weil es leicht zu bauen war, sondern weil Komplexität nirgends hin sollte außer in die intelligente Parameter-Verarbeitung dahinter.

    Der Workflow in der Praxis:

    Nach der Generierung einer Namen-Liste kommt der entscheidende Moment: das Favoriten-System. Der Nutzende markiert Namen, die in die richtige Richtung gehen. Startet er eine neue Iteration, erhält die KI nicht nur die ursprünglichen Parameter zurück, sondern auch die Information „das waren die bisherigen Favoriten“.

    Das System lernt Pattern. Es merkt sich: „Okay, wir bevorzugen konkrete Anker-Wörter“ oder „keine Kunstwörter unter drei Silben“. Die nächste Iteration wird präziser. Und die nächste noch mehr.

    So entsteht ein fokussierter Arbeitsbereich, statt jedes Mal in der Breite zu generieren. Das ist der entscheidende Unterschied zu einzelnen KI-Anfragen.

    Domain-Intelligenz als zweiter Layer:

    Ein Name ist nur so gut wie seine Verfügbarkeit. Also wurde ein Domain-Check direkt in den Workflow integriert – nicht als Nachgedanke, sondern als gleichwertiger Prüfschritt neben der Kreativität.

    Der Trick dabei: Das System erkennt den Kontext. Endet ein Name zufällig auf „-io“, wird auch die „.io“-Domain geprüft. Ist der Produktname regional bezogen, könnten „.berlin“ oder „.hamburg“ sinnvoller sein als „.com“. Diese Logik ist hard-coded – nicht weil KI-Prompts das nicht könnten, sondern weil dedizierter Code zuverlässiger ist.

    So sieht ein Nutzender auf einen Blick: Welche Namen sind nicht nur kreativ stark, sondern auch praktisch verfügbar?

    Kosten- und Nutzungs-Tracking:

    Bei internen Tools ist einer der unterschätzten Aspekte: Transparenz über Kosten. Das System trackt Token-Verbrauch und Generierungen pro Person, pro Team, pro Monat. Das dient nicht der Kontrolle, sondern der Orientierung: Rentiert sich dieses Tool? Welche Teams nutzen es? Wo skaliert es?

    Diese Daten sind für die Weiterentwicklung essentiell. Sie zeigen, ob die Parameter-Struktur tatsächlich Zeit spart oder ob Teams trotzdem zu viele Iterationen brauchen.

    Was nicht funktioniert hat (und was ich gelernt habe)

    Fehler 1: Zu viele Parameter am Start

    Mein ursprünglicher Prompt für die Namensgenerierung war überambitioniert. Ich wollte, dass die KI gleichzeitig auf Phonetik, kulturelle Sensibilität und Markenverfügbarkeit achtet. Das Ergebnis: generische Namen, weil der Prompt zu viel zu gleichzeitig verarbeiten musste.

    Die Lösung war, den Prompt zu reduzieren und einzelne Anforderungen in separate Layer zu verschieben – Domain-Check ist Automatisierung, nicht KI-Prompt. Das hat Qualität und Geschwindigkeit sofort verbessert.

    Fehler 2: UX-Komplexität nach oben gedacht statt nach unten

    Ich dachte: „Wenn ich alle Parameter visuell elegant gestalte, nutzen auch Nicht-Tech-Personen das Tool.“ Das ist naive gewesen. Was tatsächlich funktionierte, waren mehrere Dinge:

    Sinnvolle Defaults (Namenslänge=mittel war für 80% der Cases richtig). Kontextuelle Hinweise direkt im Interface („Warum fragst du das?“). Und ein Tutorial, das nicht peinlich wirkt, sondern die erste Nutzung zeigt.

    Fehler 3: Zu viel Automatisierung

    Mein Plan war: Alles automatisieren, auch die Markenschecks. Die Realität: Markenrecherche ist rechtlich komplex. Die Integration der DPMA-API ist sinnvoll, aber sie ersetzt keine menschliche Prüfung – sie bereitet sie vor. Diese Unterscheidung habe ich zu spät verstanden.

    Das Tool sollte Recherchezeit sparen, nicht rechtliche Prüfung ersetzen.

    Was das Projekt zeigt

    Es ist leicht, „ein Naming-Tool mit KI“ zu beschreiben. Es ist deutlich schwerer, eines zu bauen, das schneller ist als Brainstorming und bessere Ergebnisse liefert.

    Der Schlüssel war nicht die KI-Integration. Der Schlüssel war: Kreative Prozesse brauchen Struktur, um skalierbar zu werden. Parameter erzwingen klares Denken. Iteratives Feedback macht Vagueness unmöglich. Automatisierte Recherche spart die echte Arbeitszeit.

    Wenn ich das Projekt heute neu starten würde, würde ich nicht anders vorgehen – das Konzept funktioniert – aber ich würde drei Dinge von Anfang an einplanen:

    Markenrecherche als Feature, nicht als Gimmick. Die DPMA-Integration sollte Teil des MVPs sein, nicht eine „nice-to-have“ für später.Bessere Fehlertoleranz in Prompts. Der Claude-Prompt brauchte zwei Überarbeitungen, bis er konsistent gute Namen generierte. Das hätte durch frühere QA vermieden werden können.

    Das Tool ist heute in Nutzung, spart geschätzten 20-30 Stunden pro Monat bei der Naming-Recherche ein und hat sich innerhalb von drei Monaten selbst finanziert. Aber der echte Wert liegt nicht in der KI-Integration – er liegt darin, dass Menschen jetzt strukturiert kreativ sein können statt unstrukturiert zu brainstormen.

  • Wie befähigt man eine Marketingabteilung zur Nutzung von KI in Zeiten der Compliance und DSGVO?

    Du sitzst gemeinsam mit dem Kunden in einem Meeting und hörst zum hundertsten Mal: „Wir können keine KI einsetzen. ChatGPT ist nicht freigegeben.“ Nebenan kämpft die Marketing-Abteilung mit generischen Social-Media-Posts, weil niemand Zeit für Prompt-Engineering hat. Das war die Realität in den meisten Unternehmen (mittlerweile haben die meisten es ja geschafft, Lösungen zu finden) – KI-Potenzial trifft auf berechtigte Angst vor Kontrollverlust.

    Was wenn es einen dritten Weg gäbe? Nicht ChatGPT für alle (unmöglich), nicht KI-Verzicht (rückständig), sondern eine maßgeschneiderte Plattform, die KI-Power mit Enterprise-Sicherheit verbindet.

    Das echte Problem: Flexibilität ohne Leitplanken führt zu Mittelmäßigkeit

    Die klassischen Chat-Interfaces sind für die Daily Driver oder Prompt Experten gebaut. Du brauchst KI-Intuition, um gute Prompts zu schreiben. Du musst wissen, welche Parameter wichtig sind, welche Ton-Variationen funktionieren, welche Struktur zum Output führt. Für den Rest der Organisation ist das eine hohe Hürde.

    Gleichzeitig waren offene Zugänge zu ChatGPT oder Claude in regulierten Unternehmen oft ein No-Go. Die Angst vor Datenlecks ist nicht paranoid – sie ist berechnet. Mitarbeitende, die unachtsam ein Geschäftsgeheimnis in die falsche KI eingibt, kann erheblichen Schaden anrichten.

    Das Ergebnis ist eine paradoxe Situation: KI wird als transformativ gepriesen, aber in der Realität schleppend adoptiert. Und wenn sie genutzt wird, oft ohne klare Leitplanken – die Outputs sind mittelmäßig, weil die Nutzenden nicht wissen, wie man KI richtig brieft.

    Der Ansatz: Spezialisierte Tools statt generischer Chat

    Das Konzept ist einfach: Jeder Use Case bekommt sein eigenes Interface. Jedes Tool hat vordefinierte Felder, hinter denen ein optimierter Systemprompt arbeitet. Die Nutzer beantworten Fragen aus Formularen. Am anderen Ende kommt hochwertiger, passender Inhalt heraus.

    Das funktioniert, weil die Arbeit am Aufbau der Architektur schon erledigt ist. Statt dass 500 Mitarbeitende einzeln lernen, wie man einen Social-Media-Post optimal strukturiert, haben drei Fachleute einmal den perfekten Ablauf definiert und in ein Tool übertragen.

    Tool 1: Social Media Creator – Multichannel aus einer Quelle

    Stell dir vor, du hast einen wertvollen Blogartikel geschrieben. Das hätte LinkedIn, Instagram und Twitter gut getan. Aber jeder Kanal muss anders sein.

    Der Social Media Creator fragt systematisch ab: Welche Kanäle? LinkedIn, Twitter, Instagram oder alle drei? Welche Tonalität soll es sein? Ist da ein Aufruf zum Handeln? Ein konkretes Angebot?

    Die KI macht das nicht. Sie erstellt nicht einfach die gleiche Botschaft in drei Varianten. Sie passt sich intelligent an: Die LinkedIn-Version wird tiefer, die Twitter-Version knackig und provokativ, die Instagram-Version visuell und emotional. Jede Version klingt anders, weil sie für ihre Plattform optimiert ist.

    Der Nutzer kopiert, was er braucht, und bespielet seine Kanäle. Kein Trial-and-Error, keine Prompt-Engineering-Sessions. Und immer mit der Sprache des Unternehmens abgestimmt.

    Tool 2: Podcast Processing Pipeline – Die Content-Kette

    Das Podcast-Tool zeigt das beste Konzept der ganzen Suite: die Verzahnung von Tools.

    Ein Podcast wird aufgenommen und transkribiert. Dann wird das Transkript in den Social Media Creator überführt. Dort werden drei LinkedIn-Posts mit den wichtigsten Erkenntnissen, Instagram Stories mit den wichtigsten Aussagen und ein Tweet-Thread mit den besten Zitaten des Gastes erstellt. Gleichzeitig wird eine optimierte Beschreibung für Podcasts erstellt. Diese enthält Keywords für SEO.

    Das ist keine automatische Textkopie. Das ist intelligente Format-Transformation. Ein Podcast-Transkript wird einmal erstellt und dann in fünf verschiedenen Formaten veröffentlicht. Diese sind aber nicht identisch, sondern passen zum Kontext.

    Man spart viel Zeit. Normalerweise kostet es einen halben Tag, einen Podcast zu erstellen. Hier geht es nur wenige Minuten. Die Qualität bleibt gleich, weil alle Ausdrucke aus den gleichen optimierten Systemprompts kommen.

    Tool 3: Brand Voice Checker – Deine Sprachpolizei

    Hier sitzt die unsichtbare Intelligenz der Plattform. Der Brand Voice Checker stellt sicher, dass nichts, was deine Organisation verlässt, an den Corporate Guidelines vorbeischleicht.

    Du hinterlegst die Regeln einmal: Anrede Du oder Sie? Wie heißt dein Produkt korrekt? Aktive oder passive Sprache? Welche Tonalität ist gewünscht? Was sind absolute No-Gos?

    Jeder generierte Text läuft durch diese Prüfung – entweder automatisch oder manuell. Das System prüft nicht starr. Es versteht Kontext: Ein interner Slack-Post hat andere Standards als eine Pressemitteilung. Eine Kundenansprache unterscheidet sich von einer Geschäftspartner-Kommunikation.

    Die Ergebnisse werden in einer Ampel visualisiert. Grün: alles in Ordnung. Gelb: Verbesserungsvorschläge. Rot: kritische Abweichungen. So erkennst du auf einen Blick, wo du handeln musst.

    Geplant ist eine automatische Adaptionsfunktion: Du clickst „Änderung übernehmen“, und der Text wird sofort korrigiert. Kein manuelles Umschreiben nötig.

    Optional: Humanisierung durch ZeroGPT Integration

    Ein zusätzliches Sicherheitsnetz ist in Planung – die Integration der ZeroGPT API zur „Humanisierung“ von Texten. Falls ein Text zu sehr nach KI klingt, kann er hier noch einen letzten Schliff bekommen.

    Das ist bewusst optional. Wenn die Tools richtig genutzt werden, sollte dieser Schritt nicht nötig sein. Aber als Auffangnetz für unachtsame Nutzende hat es seinen Wert.

    Die technische Realität: Pragmatismus statt Purismus

    Phase 1: OpenAI API für schnelle Validierung

    Aktuell läuft die Plattform über die Standard-OpenAI-API. Das war die richtige Entscheidung für den Anfang. Schnelle Entwicklung, funktionierender Proof of Concept, beweist den Business Value. Das ist klassisches pragmatisches Bootstrapping.

    Phase 2: Azure OpenAI für Datenschutz-Puristen

    Die nächste Stufe ist die Migration zu Azure OpenAI. Das ist kein Marketing-Fluff – das ist ein fundamentaler Unterschied in regulierten Industrien.

    Mit Azure OpenAI Service bleiben deine Daten in europäischen Rechenzentren. GDPR-Compliance ist nicht optional, sie ist garantiert. Microsoft bietet Enterprise-Grade-SLAs. Du hast Kontrolle über deine Infrastruktur. Das macht die Plattform für Finance, Pharma und andere stark regulierte Sektoren erst diskussionsfähig.

    Phase 3: Self-Hosted für maximale Kontrolle

    Langfristig ist eine vollständig selbst gehostete Lösung (über zum Beispiel Ollama) geplant. Keine externen APIs, keine Cloud-Abhängigkeiten, maximale Kontrolle. Das ist allerdings ein erheblicher Investment-Schritt – in Hardware, in Betriebskompetenz, in Infrastruktur.

    Der pragmatische Pfad: Erst validieren mit OpenAI, dann zu Azure migrieren für besseren Datenschutz, erst dann in Self-Hosting investieren. So wird sichergestellt, dass die Investition sich tatsächlich lohnt, bevor man die Komplexität einer eigenen Infrastruktur auf sich nimmt.

    Warum das für regulierte Unternehmen funktioniert

    Kontrolle statt Shadow-AI: Statt Mitarbeitende mit freiem Zugang zu ChatGPT auszustatten (wo sie alles eingeben können, inklusive sensibler Daten), gibt es eine kontrollierte Plattform mit spezifischen, vordefininierten Use Cases.

    Qualität durch Architektur: Die Systemprompts sind nicht von Hand geschrieben, sondern iterativ optimiert worden. Nutzer müssen keine Prompt-Experten sein – sie beantworten Fragen und bekommen guten Content.

    Was dieses Projekt wirklich zeigt

    An der Oberfläche ist es eine Content-Creation-Suite. Darunter liegt ein System, das die echten Herausforderungen regulierter Unternehmen adressiert: Compliance-Anforderungen, Qualitätssicherung, niedrige Einstiegshürden, intelligente Automatisierung.

    Die zentrale Herausforderung war nicht, ChatGPT zu wrappen. Die Herausforderung war, KI so zu designen, dass sie jeder nutzen kann – unabhängig von technischem Know-how – und gleichzeitig sicherzustellen, dass alle Outputs den Unternehmensstandards entsprechen.

    Das ist nicht „ein paar Custom GPTs basteln“. Das ist ein durchdachtes Ökosystem: spezialisierte Tools, intelligente Verzahnung, automatisierte Qualitätssicherung, progessive Datenschutz-Architektur.

    Was ich anders machen würde

    Die Azure-OpenAI-Migration hätte früher stattfinden sollen. Es ist ein enormer Wettbewerbsvorteil für regulierte Industrien, und der Proof of Concept hätte auf dieser Foundation gebaut werden können statt später zu migrieren. Der initiale Trade-off zwischen schneller Entwicklung und Datenschutz-Puritanismus war pragmatisch, aber im Nachhinein wäre es besser gewesen, beide Anforderungen von Start an zu ernst zu nehmen.

    Auch hätte die Brand Voice Checker Komplexität unterschätzt werden können. Kontextbasierte Prüfung ist knifflig – jede neue Industrie, jedes neue Unternehmen hat andere Anforderungen. Das zu generalisieren ist schwieriger als gedacht.

    Die Key Learnings

    Tools schlagen Plattformen für Enterprise-Adoption: Ein großes, flexibles System verliert gegen spezialisierte, strukturierte Tools. Menschen nutzen lieber etwas, das ihnen genau sagt, was sie eingeben sollen.

    Prompt-Architektur ist ein Produkt-Feature: Gute Systemprompts sind nicht kostenlos. Sie erfordern tiefe Domain-Expertise und iterative Optimierung. Das ist aber genau der Value, den die Plattform bieten kann.

    Content-Verzahnung skaliert Linear: Die Effizienzgewinne entstehen nicht aus einzelnen Tools, sondern aus intelligenter Workflow-Automation zwischen ihnen. Ein Podcast generiert fünf Content-Formate – das ist nicht dreimal so viel Aufwand, sondern 20% Mehraufwand.

  • Meine ersten Gehversuche mit der OpenAI-API

    Du sitzt vor der API-Dokumentation von OpenAI, hast gerade deinen ersten API-Key generiert und fragst dich: „Okay, was baue ich jetzt damit?“ Das war der Moment, in dem ich beschloss, nicht groß zu philosophieren, sondern einfach ein Tool zu schreiben – ein Social-Media-Post-Generator. Simpel, aber ausreichend komplex, um zu verstehen, wie die API tatsächlich funktioniert. Und nebenbei lernte ich etwas über Authentication, das mir später bei größeren Projekten ersparte, vorher reinzurechnen.

    Das Problem: Posts ohne Prompt-Engineering

    Die meisten Chat-Tools funktionieren nach dem gleichen Prinzip: Du schreibst einen möglichst präzisen Prompt, schickst ihn los und hoffst auf ein brauchbares Ergebnis. Das ist mächtig, aber auch fehleranfällig. Wer nicht weiß, wie man gute Prompts schreibt, bekommt schlechte Ergebnisse. Und wenn deine Nutzenden später Posts für LinkedIn, Instagram und Twitter schreiben sollen – das sind völlig unterschiedliche Anforderungen an Länge, Tonalität und Format.

    Meine Idee war eine Ebene Abstraktion dazwischen: Der Nutzende beschreibt nur, was der Post kommunizieren soll. Alles andere – Plattform, Medium, Tonalität – wird über Formulareingaben gesteuert. Die App übersetzt das intern in einen strukturierten Prompt. So wurde ein komplexes Problem auf einmal zugänglich.

    Die Architektur: Parameter statt Freiheit

    Das Interface ist bewusst minimalistisch. Vier Eingabefelder, vier Selects, fertig. Hier die Logik dahinter:

    Was der Nutzende einfach macht:

    • Beschreibung eingeben (was soll der Post aussagen?)
    • Plattform wählen (LinkedIn? Instagram? Twitter?)
    • Medium definieren (einzelner Post, Story, Carousel?)
    • Vibe festlegen (professionell, locker, inspirierend, aktivierend?)

    Was die App intern macht:

    Diese Parameter landen in einem strukturierten Prompt-Template. Statt „Schreib was über unser neues Feature“ wird das zu: „Schreib einen Instagram Carousel Post (3 Slides) mit inspirierendem Vibe über unser neues Feature. Fokus: User Benefits, max. 80 Zeichen pro Slide, Emoji-freundlich.“

    Die OpenAI-API bekommt diese strukturierte Anfrage, nicht das vage Original. Die Qualität der Outputs stieg damit um ein Vielfaches.

    Intern nutzte ich einen einfachen Prompt-Builder, der die Parameter zusammensetzt. Nichts Komplexes – nur String-Konkatenation mit intelligenten Defaults. Aber dieser einfache Mechanismus war der Schlüssel, warum das Tool für nicht-technische Nutzende überhaupt sinnvoll war.

    Der erste Kontakt mit einem Auth-Provider: Clerk

    Hier kam der zweite wichtige Lernpunkt: Authentifizierung. Mein erstes Projekt hatte ich noch selbst mit Sessions und Cookies gebastelt – das funktionierte, war aber fragil. Diesmal wollte ich es richtig machen.

    Clerk war meine erste Wahl. Und das war eine großartig pragmatische Entscheidung. Statt selbst OAuth-Flows zu implementieren, User-Sessions zu managen und Sicherheit zu überdenken, integrierte ich Clerk als Drop-in-Lösung.

    Was Clerk für mich erledigte:

    • Sign-up und Login mit vorgefertigten UI-Komponenten
    • Session-Management im Backend (signierte JWTs)
    • User-Datenverwaltung (ID, E-Mail, Metadaten)
    • Das sichere Weitergeben der User-ID an meine API

    Das klingt vielleicht banal, aber es war ein wichtiger Moment für mich. Ich erkannte, dass es nicht immer schlau ist, wenn man nicht jede Schicht der Infrastruktur selbst bauen kann. Clerk war gut dokumentiert, sicher und ich konnte mich auf die AI-Features konzentrieren.

    Die Integration war simpel: Clerk-Middleware im Backend, Clerk-Components im Frontend, und jeder API-Request konnte die User-ID aus dem Token extrahieren. Keine selbstgebauten Sicherheitslöcher, keine Session-Bugs.

    Herausforderungen, die ich unterschätzt habe

    Konsistente Outputs bei variablen Inputs

    Ein LLM ist nicht deterministisch. Zwei identische Requests können unterschiedliche Ergebnisse liefern. Das war ein Problem, wenn ich die gleiche Anfrage zweimal in Tests gestellt habe und unterschiedliche Outputs erwartete. Die Lösung: Temperature auf 0.7 runterfahren, damit es konsistent bleibt, aber nicht roboterhaft wirkt.

    Plattform-spezifische Constraints

    Twitter hat 280 Zeichen, LinkedIn ist ausführlich, Instagram ist visuell. Das LLM musste diese Unterschiede wirklich verstehen. Twitter Posts sind schneller geschrieben, aber getrickst man bei der Zeichenkontrolle, passt der Post nicht. Ich musste das Template mehrfach justieren, bis die Outputs konsistent passten.

    Meine Leasings aus dem kleinen Projekt

    Auf der Oberfläche: ein simpler Social-Media-Generator. Tatsächlich war es ein Crash-Kurs in drei Dingen.

    1. Wie man generative KI wirklich nutzt. Nicht als Blackbox, sondern als Werkzeug mit Eingabe-Output-Logik. Struktur in die Prompts bringen, Parameter nutzen, den Output evaluieren. Das unterscheidet ein brauchbares Tool von Spielerei.
    2. Abstraktionsebenen bauen. Nicht die volle Komplexität den Nutzenden geben. Sie wollen ihre Posts generiert bekommen, nicht Prompt-Engineering lernen. Je simpler das Interface, desto besser die UX – aber dafür braucht es saubere interne Logik.
    3. Professional Dependencies einbauen. Clerk zeigte mir, dass ich nicht alles selbst bauen muss. Auth ist kritisch für Sicherheit – warum das Risiko eingehen, wenn es erprobte Lösungen gibt? Das war ein Paradigmenwechsel: „Build vs. Buy“ intelligent entscheiden.

    Direkter Einfluss auf spätere Projekte

    Meine ersten Ansätze einer KI-Suite (an der ich später arbeitete) ist konzeptionell ein direkter Nachfahre dieses kleinen Tools. Statt freier Prompts wird die Generierung durch Parameter gesteuert. Deshalb. Wie wichtig sind strukturierte Anleitungen für gute Ergebnisse? Hier habe ich etwas gelernt. Vertrauen Sie professionellen Lösungen zur Authentifizierung? Auch hier.

    Manche halten dieses Projekt für eine „Spielerei“. Ich sehe es anders: Es war eine Lernschleife. Bauen, um zu lernen, nicht lernen, um zu bauen. Das ist der Unterschied zwischen Theorie und Praxis.

  • Mein persönliche Finanz-Dashboard: Warum ich meine Bankdaten lieber selbst verwalte

    Du öffnest deine Banking-App, willst schnell sehen, wo dein Geld landet – und landest in drei verschiedenen Menüs, ohne echte Übersicht zu haben. Apps wie Finanzguru versprechen Rettung, aber dafür sollen deine Finanzdaten irgendwohin hochgeladen werden, wo du nicht siehst, was damit passiert. Das war für mich der Moment, eine Entscheidung zu treffen: Entweder ich akzeptiere diese Kompromisse, oder ich baue mir das selbst.

    Also habe ich angefangen zubauen. Ein Dashboard mit vollständiger Datenhoheit, automatischer Kategorisierung und einem Desktop-First-Ansatz, der nicht auf Mobile-Kompromisse setzt. Was als Projekt für mein erstes größeres Laravel-System anfing, wurde zur Auseinandersetzung mit echten FinTech-Problemen: chaotische Bankdaten, Datensicherheit und Automatisierung ohne externe APIs.

    Das Problem mit fremden Lösungen

    Jede Banking-App zeigt Umsätze, aber keine von ihnen bietet das, was ich brauchte: eine Gesamtübersicht über mehrere Konten (Giro, Kreditkarte, Sparkonten) an einer Stelle. Und das mit dem Detail-Level, den nur ein größerer Bildschirm ermöglicht. Desktop-Analysen zu Finanzzielen sind einfach anders als auf 5 Zoll zu schwenken und zu scrollen.

    Hinzu kam der Datenschutz-Aspekt. Wer meine Transaktionen bekommt, was damit gemacht wird, welche Analysen laufen – keine dieser Apps macht das transparent. Also habe ich die radikalere Frage gestellt: Was brauche ich technisch, um das selbst zu kontrollieren?

    Die Architektur-Entscheidungen

    Tech-Stack:

    • Laravel (Backend, Geschäftslogik, Verschlüsselung)
    • React (Frontend, interaktive Analysen)
    • SQL-Datenbank (strukturierte Transaktionsdaten)

    Die Kombination war bewusst gewählt: Laravel bringt built-in Sicherheitsfeatures mit (Verschlüsselung, Validierung, Middleware), React ermöglicht die komplexen Visualisierungen ohne Seitenneuladen. Externe Tools wie n8n für Workflow-Automatisierung habe ich bewusst nicht gewählt – nicht aus Purismus, sondern aus praktischem Grund: Sobald sensible Finanzdaten die App verlassen, wird Datenschutz zum Problem. Eine API dafür zu bauen wäre ein zusätzliches Sicherheitsrisiko gewesen.

    Die CSV-Import-Hölle

    Der erste echte Problemfall: Die Daten. Jede Bank exportiert ihr CSV-Format selbst. Sparkasse nutzt anderes Format als Tomorrow Bank. Dezimaltrennzeichen: manchmal Komma, manchmal Punkt. Datumsformat: DD.MM.YYYY oder YYYY-MM-DD? Und wie wird eine Ausgabe gekennzeichnet – mit Minuszeichen oder in einer separaten „Soll“-Spalte?

    Manuell jede Bank mappen wäre möglich, aber nicht skalierbar. Also entstand eine intelligente Importstrecke.

    Automatische Schema-Erkennung statt manuelles Chaos

    Das System analysiert die hochgeladene CSV und vergleicht sie mit hinterlegten Bank-Schemata. Für Sparkasse und Tomorrow sind Templates definiert – erkennt das System eines davon, lädt es die richtige Konfiguration.

    Falls keine Übereinstimmung existiert, greift der manuelle Modus: Nutzer mappen Spalten zu Datenfeldern (Datum, Empfänger, Betrag, Beschreibung). Eine Vorschau zeigt, wie die Daten später aussehen. Erst dann werden sie in die Datenbank geschrieben. Das bedeutet: Nach dem ersten Import einer neuen Bank speichert das System deren Schema, künftige Importe laufen vollautomatisch.

    Datensicherheit als fundamentales Feature

    Wir sprechen hier über Kontostände, IBAN, Transaktionspartner – Informationen, die extremen Schutz benötigen. Meine Lösung: AES-256-CBC Verschlüsselung für alle sensiblen Felder.

    Das ist nicht optional und nicht nur auf die Datenbank angewendet – die Verschlüsselung läuft transparent über Laravels Encryption Facade. Der Vorteil: Entwickler müssen nicht selbst Kryptographie implementieren (Fehlerquelle!), stattdessen wird Verschlüsselung und Fehlerbehandlung vom Framework übernommen.

    Verschlüsselte Felder:

    • IBANs und Kontoinformationen
    • Beträge (ja, auch die)
    • Empfänger und Absender
    • Transaktionsbeschreibungen

    Ein direkter Datenbankzugriff zeigt nur Cipher-Text. Entschlüsselt werden Daten erst in der App, unmittelbar vor der Anzeige. Das bedeutet: Selbst wenn jemand die Datenbank kopiert, hat er nur verschlüsselte Strings.

    Automatische Kategorisierung – oder: Warum ich 250 Transaktionen nicht manuell mappen wollte

    Nach dem Import liegt eine große Tabelle vor: Transaktionen, aber ohne Kategorien. Wäre jede der 250 Transaktionen manuell zuzuordnen (Lebensmittel, Wohnen, Shopping, Medien, Transport), wäre das zeitlich nicht skalierbar.

    Also nächste Baustelle aufmachen.

    Die Automations-Engine

    Die Engine basiert auf einfachen, aber effektiven Regeln. Eine Regel: Wenn „Empfänger“ enthält „Edeka“, „Lidl“, „Aldi“ oder „Kaufland“, dann Kategorie „Lebensmittel“. Oder: Wenn Empfänger ist „Netflix“, „Spotify“, „Disney+“, dann „Medien“.

    Unterstützte Operatoren:

    • „ist gleich“
    • „enthält“
    • „beginnt mit“
    • „endet mit“

    Mehrere Bedingungen lassen sich kombinieren. Regeln können entweder bei jedem Import automatisch laufen oder manuell auf Knopfdruck. Der entscheidende Vorteil: Diese Integration bleibt innerhalb der App. Keine externe API, keine Datenübertragung – die Automation läuft direkt in Laravel als Background Job nach jedem Import.

    Das System kommt mit Default-Regeln für häufige Transaktionspartner. Aber Nutzende können eigene Regeln definieren. Ein neuer Lieblingsladen? Neue Regel. Nach kurzer Zeit haben sich die meisten Transaktionen selbst kategorisiert, nur noch Edge Cases brauchen Nachbearbeitung.

    Analysen: Das eigentliche Ziel

    Saubere Daten sind nur Mittel zum Zweck. Das Ziel: Verstehen, wohin das Geld wirklich fließt.

    Zeitliche Flexibilität

    Ein zentraler Datumsselektor mit Quick-Select-Optionen:

    • Gesamter verfügbarer Zeitraum
    • Letzter Monat, dieser Monat
    • Letzte 3, 6 oder 12 Monate
    • Dieses Jahr, letztes Jahr
    • Spezifisches einzelnes Datum

    Diese Flexibilität ermöglicht sowohl große Trends als auch Details zu sehen.

    Visualisierungen statt Tabellen

    Ein Donut-Diagramm zeigt die Übersicht: Gesamtausgaben, Ersparnisse, verbleibendes Budget auf einen Blick. Ein Breakdown nach Kategorien wird prozentual dargestellt – Wohnen 25,1%, Sparen und Investieren 16,8%, Shopping 12,6%, Lebensmittel 17%.

    Das Spannendste: Monatliche Vergleiche nebeneinander. Januar vs. Februar als gestapelte Balkendiagramme. Wo wurde mehr ausgegeben? Welche Kategorien sind gestiegen?

    War Shopping im Januar noch wild, im Februar aber deutlich reduziert? Sind Lebensmittelkosten konstant oder volatil? Diese visuellen Vergleiche ermöglichen datenbasierte Finanzentscheidungen – nicht Bauchgefühl.

    Was lief nicht optimal – und was ich daraus gelernt habe

    Die größten Herausforderungen waren nicht technisch, sondern konzeptionell.

    Zuerst dachte ich, dass die Datenbankstruktur das komplexeste Element ist. Tatsächlich war es die Datenharmonisierung. Jede Bank hat ihre eigenen Konventionen – das ist nicht zu unterschätzen. Der Import-Flow musste iterativ überarbeitet werden, nachdem erste Tests mit echten CSVs zeigten, dass die automatische Erkennung Edge Cases nicht abdeckte.

    Die Rule-Engine war auch nicht beim ersten Mal perfekt. Manche Transaktionen erfüllen mehrere Regeln gleichzeitig – hier musste ich eine Priorisierungslogik einbauen. Später kam die Erkenntnis, dass „Smart Defaults“ hilfreicher sind als zu viele Optionen für Nutzer.

    Bei der Verschlüsselung hätte ich früher merken sollen, dass ich zwar Laravels built-in Features nutze, aber noch nicht eingehend genug die Performance-Implikationen überprüft habe. Große Datasets mit AES-256 zu verarbeiten ist nicht instant, sondern braucht Optimierung (z.B. Selective Encryption statt alles zu verschlüsseln).

    Das Lernen aus diesen Punkten:

    Datenquellen sind chaotischer als Businesslogik. Das unterschätzen viele Entwickler. Jede externe Datenquelle hat ihre eigenen Quirks.

    Integration schlägt Orchestrierung. Externe Workflow-Tools hätten die Lösung vereinfacht, aber verschlüsselte Daten aus der App zu bringen ist die echte Komplexität. Integriert zu sein bedeutet: Die Automation läuft sicherer.

    Defaults sind mächtiger als Flexibilität. 80% der Nutzer wollen wahrscheinlich nur, dass das System automatisch funktioniert. Die restlichen 20% brauchen Custom-Rules – aber nicht alle Nutzer.

    Performance früh testen. Mit 250 Transaktionen merkt man Verschlüsselungs-Overhead nicht. Bei 5000 wird es relevant.

    Ausblick: Was noch fehlt

    Beta Tester

    Noch hat die App genau einen Nutzer: mich. Ein Deployment und anschließendes Einladen von Family & Friends wäre eine gute Gelegenheit, die UX und das UI noch weiter zu testen und zu iterieren.

    Automatische Bankanbindung

    Die FinAPI würde den nächsten Schritt bedeuten: echte API-Verbindung zu Banken, Echtzeit-Synchronisation, kein manueller CSV-Import mehr. Die Herausforderung: Das erfordert noch intensivere Auseinandersetzung mit Datensicherheit bei externen Verbindungen. Aber es wäre der logische nächste Schritt für weniger Reibung.

    KI für strukturierte Insights

    Mit den strukturierten Daten könnten konkrete KI-Analysen arbeiten. Nicht vage Vorschläge, sondern: „Du gibst im Durchschnitt 47€ pro Lebensmitteleinkauf aus. In Kategorie X könntest du 12% sparen.“ Kombiniert mit Kassenzettel-Scans wäre sogar granulares Produkt-Level-Tracking möglich.

    Haushaltskonten

    Verbinden von zwei Accounts zu einem gemeinsamen Haushaltskonto (entweder vollständig oder Granulat ausgewählt) könnte die Übersicht über mehrere Konten von mehreren Personen ermöglichen.

    Budgetplanung und Prognosen

    Auf Basis historischer Daten: Warnungen bei Budget-Überschreitungen, Prognosen für kommende Monate, vielleicht sogar Vergleiche mit anonymisierten Durchschnittswerten ähnlicher Personen.

    Fazit

    Das Projekt ist nicht einfach „ein Finanz-Dashboard“. Es ist ein Projekt mit steiler Lernlkurve in der Technologie und wie sich UX im Laufe der Zeit selbstständig weiterentwickeln kann. Und plötzlich baut man ein kleines FinTech-Systems mit intelligenter Datenspeicherung, Automatisierung und Analysen – alles unter vollständiger Kontrolle.

    Die größten Erkenntnisse liegen nicht in der Technologie selbst, sondern darin, wie man chaotische externe Daten in ein sauberes, internes System transformiert. Und dass Datensicherheit nicht später gelöst wird, sondern von Anfang an Teil der Architektur sein muss.

    Für mich ist es gleichzeitig ein Portfolio-Projekt geworden – ein Beweis, dass ich nicht nur code schreibe, sondern Systeme baue, die ein echtes Problem lösen.

  • Mira: Market Intelligence Research Agents

    Eine webbasierte Plattform für automatisierte Marktforschung durch KI-gestützte Persona-Agents. Nutzer erstellen Fragebögen über ein Next.js-Frontend und erhalten Feedback von 500 individualisierten KI-Personas anstelle realer Testpersonen.

    Die Herausforderung dahinter ist grundlegend: Traditionelle Marktforschung kostet Zeit und Geld – oft zu viel für frühe Produktphasen, in denen schnelle Iterationszyklen entscheidend sind. Genau hier setzt die Plattform an: Sie ermöglicht es, Produktideen, Features oder Messaging innerhalb von Minuten statt Wochen mit verschiedenen Zielgruppen zu validieren.

    Funktionsweise

    Der Nutzer definiert über einen strukturierten Fragebogen seine Forschungsfragen. Nach Absenden werden im Backend LangGraph-Agents aktiviert, die auf Basis ihrer zugewiesenen Persona-Profile antworten. Jeder Agent setzt sich individuell mit dem Produkt und Briefing auseinander und liefert entweder Freitextantworten oder skalierte Bewertungen.

    Der entscheidende Unterschied zu statischen Templates oder einfachen Prompt-Variationen: Jede Persona reagiert tatsächlich kontextbezogen auf die spezifische Fragestellung. Ein 28-jähriger Tech-Enthusiast aus dem urbanen Milieu antwortet anders auf die gleiche Produktfrage als eine 52-jährige Mutter aus dem ländlichen Raum – nicht weil unterschiedliche Prompts verwendet werden, sondern weil die zugrundeliegenden Persona-Profile diese Unterschiede in Wertesystemen, Lebenssituationen und Konsumverhalten bereits enthalten.

    Persona-System und Datenmanagement

    Das Herzstück der Plattform bilden 500 individualisierte Personas, die verschiedene Alters-, Milieu- und Geschlechtergruppen abdecken. Hier liegt eine der größten technischen und konzeptionellen Herausforderungen des Projekts: Wie erschafft man Personas, die glaubwürdig und konsistent antworten?

    Wissenschaftlich fundierte Milieu-Segmentierung

    Die Erstellung erfolgte über einen mehrstufigen, KI-gestützten Prozess, der auf etablierten deutschen Milieustudien basiert. Zunächst wurden neue Milieugruppen generiert, die aktuelle gesellschaftliche Strukturen abbilden. Jede Milieugruppe erhielt eine statistische Verteilung nach Geschlecht und Alter – beispielsweise 100 Personen in Milieu 1, davon 70% männlich, 30% weiblich, mit spezifischen Altersverteilungen pro Geschlecht.

    Intelligente Namensgebung und Migrationshintergrund

    Die Komplexität zeigt sich bereits bei einem scheinbar simplen Detail: den Namen. Bei der Generierung wurde berücksichtigt, welches Geschlecht die Person hat, in welchem Jahr sie geboren wurde (um zeitgemäße Namen zu wählen) und ob sie einen Migrationshintergrund besitzt. Das führte zu einer generationenspezifischen Namensgebung: In der Gen Z sind beispielsweise türkische Namen inkludiert, während in der Silent Generation (alles vor den 90ern) eher griechische, italienische oder polnische Namen dominieren – ein Abbild der deutschen Migrationsgeschichte.

    Datenverarbeitung mit n8n

    Die Verarbeitung dieser komplexen Datenmengen erfolgte über n8n als Workflow-Automation-Tool. Der initiale Generierungsprozess war nur der erste Schritt. Danach folgte die Validierung auf Konsistenz – widersprechen sich Datenpunkte innerhalb einer Persona? Ist die Verteilung über verschiedene Milieus realistisch? Gibt es ungewollte Bias in der Altersverteilung oder Geschlechterrepräsentation? Diese Fragen mussten systematisch beantwortet werden, bevor die Personas produktiv eingesetzt werden konnten.

    Jede Persona verfügt über ein detailliertes Profil mit 25 Spalten, die jeweils multiple Datenpunkte enthalten. Es reicht nicht, einfach „weiblich, 35 Jahre, verheiratet“ zu definieren. Erst die Kombination aus demografischen Daten, Wertesystemen, Konsumverhalten, Mediennutzung, politischen Einstellungen und konkreter Lebenssituation macht eine Persona glaubwürdig und differenziert genug, um auf unterschiedliche Fragestellungen authentisch zu reagieren.

    Flexible Zielgruppen-Segmentierung

    Bei der Umfrageerstellung können spezifische Zielgruppen definiert werden – etwa nach Geschlecht, Familienstand oder anderen demografischen Merkmalen. Umfragen lassen sich mit unterschiedlichen Personagruppen wiederholen, um verschiedene Zielgruppensegmente zu validieren. Das macht iteratives Testing möglich: Einmal den Fragebogen erstellt, mehrmals mit verschiedenen Zielgruppen getestet. Die Architektur erlaubt es, eine Produktidee erst mit Tech-Early-Adopters zu testen, dann mit preisbewussten Familien, dann mit Senioren – alles innerhalb weniger Stunden statt Wochen.

    Backend-Architektur: FastAPI und Supabase

    Das technische Fundament der Plattform besteht aus zwei zentralen Komponenten: einem individuell entwickelten Python-Backend mit FastAPI und Supabase als Backend as a Service.

    FastAPI als strategische Architekturentscheidung

    Die Entscheidung für FastAPI war strategisch: Alle Funktionen, die momentan vom Frontend abgerufen werden, sind bereits API-ready. Das bedeutet, dass die gesamte Marktforschungs-Logik perspektivisch als Schnittstelle in andere Systeme integriert oder für andere Kunden verfügbar gemacht werden kann. Ein SaaS-Produkt zu bauen war von Anfang an mitgedacht – nicht als nachträgliche Anpassung, sondern als Teil der Grundarchitektur.

    Das FastAPI-Backend übernimmt das gesamte Handling von LangGraph, die Orchestrierung der Agent-Chains und die Kommunikation mit den verschiedenen Services. Die asynchrone Natur von FastAPI ist hier besonders wertvoll: Wenn 50 Personas parallel auf einen Fragebogen antworten sollen, laufen diese Prozesse non-blocking ab.

    Strukturierte Responses mit Validation Layer

    Ein kritischer Aspekt der Architektur ist die Sicherstellung der Datenqualität. Die LLM-Agents werden zu strukturierten JSON-Antworten gezwungen. Wenn eine JSON-Antwort nicht korrekt formatiert vom LLM zurückgegeben wird, greift ein Validation Layer: Die Antwort wird abgelehnt und ein automatisches Retesting findet statt. Diese Fehlerbehandlung auf mehreren Ebenen stellt sicher, dass nur valide, verarbeitbare Daten in die Datenbank gelangen.

    Supabase für Authentication und Database

    Supabase übernimmt die Datenbankverwaltung für Personas, Umfragen und Ergebnisse sowie das komplette User-Authentication-System. Jeder Nutzer verfügt über einen individuellen Login-Bereich, in dem ausschließlich die eigenen Projekte und Umfragen angezeigt werden.

    Der entscheidende Vorteil dieser Architektur liegt in der PostgreSQL-Basis von Supabase. Es ist keine „Black Box“ wie bei vielen anderen Backend-as-a-Service-Lösungen. Row Level Security ermöglicht granulare Zugriffskontrolle direkt auf Datenbankebene. Nutzer können technisch gar nicht auf fremde Umfragen zugreifen – nicht weil die Application-Logik das verhindert, sondern weil die Datenbank es nicht zulässt. Diese Sicherheitsebene direkt in der Datenbank zu haben, statt sie nur in der Application-Layer zu implementieren, reduziert das Risiko von Sicherheitslücken erheblich.

    LLM-Integration und Modellauswahl

    OpenRouter: Eine API für alle Modelle

    Als LLM-Provider kommt OpenRouter zum Einsatz. Die Entscheidung für OpenRouter statt direkter Integration einzelner Anbieter bietet einen strategischen Vorteil: maximale Flexibilität in der Modellauswahl ohne Vendor Lock-in. Eine API für alle Provider bedeutet konkret, dass man innerhalb von Minuten auf neue, bessere Modelle von OpenAI, Anthropic, Google oder anderen Anbietern wechseln kann. In einem Feld, das sich so schnell entwickelt wie Large Language Models, ist diese Flexibilität entscheidend.

    Iterative Modellevaluation

    In einer initialen Testphase wurden verschiedene Language Models auf ihr Preis-Leistungs-Verhältnis und ihre Output-Qualität hin getestet. Schnell zeigte sich: Teurere Modelle liefern nicht automatisch bessere Ergebnisse – es kommt auf den spezifischen Use Case an. Für strukturierte Umfrageantworten mit klaren Persona-Vorgaben benötigt man nicht unbedingt die höchste Reasoning-Kapazität der teuersten Modelle. Wichtiger sind Konsistenz, Zuverlässigkeit und die Fähigkeit, Instruktionen präzise zu befolgen.

    Die Balance zwischen Kosten und Qualität ist kritisch: Bei 500 Personas und potenziell dutzenden Fragen pro Umfrage summieren sich die API-Kosten schnell. Ein Modell, das 30% teurer ist aber nur 10% bessere Ergebnisse liefert, ist wirtschaftlich nicht tragfähig. Die Tests führten zur Auswahl eines Modells, das sowohl wirtschaftlich als auch qualitativ optimale Ergebnisse für diesen konkreten Anwendungsfall liefert.

    Langfuse: Zentrales Prompt-Management und Observability

    Jede Agent-Antwort wird über Langfuse als LLM Observability Tool getrackt. Langfuse übernimmt dabei mehrere zentrale Funktionen: Es ermöglicht versionierte Prompts mit vollständiger Historie und macht es möglich, verschiedene Prompt-Varianten zu testen und zu vergleichen.

    Das Besondere: Langfuse wird für alle KI-Funktionen in der App genutzt – sowohl bei der initialen Persona-Generierung als auch für System-Prompts, Persona-Prompts, Summary-Prompts und alle weiteren KI-gestützten Features. Alles läuft zentral über dieses System, und es ist selbst gehostet, was zusätzliche Flexibilität bietet.

    Die gesammelten Daten dienen mehreren Zwecken: Sie ermöglichen kontinuierliches Monitoring der Agent-Performance – welche Personas antworten konsistent? Wo gibt es Ausreißer? Welche Fragen führen zu qualitativ hochwertigen Antworten? Gleichzeitig sind die gespeicherten Daten bereits so vorstrukturiert, dass sie später sehr einfach in ein klassisches Frage-Antwort-Format für das Training spezialisierter Large oder Small Language Models überführt werden können. Je mehr Umfragen durchgeführt werden, desto mehr Daten über erfolgreiche Persona-Antworten sammeln sich an – ein wachsendes Asset für zukünftige Modell-Optimierungen.

    Custom Token Management System

    Für die Nutzungsverwaltung wurde ein maßgeschneidertes Token-System entwickelt. Die Token-Berechnung basiert auf zwei Faktoren: der Anzahl der Fragen im Fragebogen und der Anzahl der ausgewählten Personas. Beispielrechnung: Bei einem Fragebogen mit 8 Fragen und 50 befragten Personas werden 400 Tokens verbraucht (8 × 50 = 400).

    Warum ein Custom System statt einer Standard-Lösung? Die spezifische Berechnungslogik reflektiert die tatsächlichen Kosten und den Wert der Plattform. Jede Frage an jede Persona verursacht einen LLM-API-Call – das Token-System bildet also direkt die dahinterliegende Ressourcennutzung ab. Standard-Lösungen wie „Credits pro Umfrage“ oder „Flatrate für X Umfragen“ hätten diese Granularität nicht bieten können.

    Das System beinhaltet eine automatische Token-Regeneration: Alle 30 Tage werden die Tokens des jeweiligen Nutzers wieder aufgefüllt. Diese Mechanik fördert regelmäßige Nutzung ohne dass sich Nutzer Gedanken über „verschwendete“ Tokens machen müssen. Die gesamte Token-Verwaltung – Verbrauch, Tracking und Regeneration – läuft über die Supabase-Datenbank und wurde vollständig individuell entwickelt, von der Berechnungslogik bis zur automatischen Cronjob-Ausführung für die monatliche Regeneration.

    Ergebnisaufbereitung mit Mehrwert

    Das Frontend bereitet die Agent-Antworten in einem übersichtlichen Bericht auf. Der Fokus liegt dabei nicht nur auf Darstellung, sondern auf echtem Erkenntnisgewinn: Die automatische Zusammenfassung von Meinungsbildern priorisiert bereits in welche Richtung es geht und liefert konkrete Key Takeaways.

    Statt nur zu schreiben „Die meisten Personas fanden das Produkt interessant“, werden spezifische Handlungsempfehlungen generiert: „47 von 50 Personas haben den Preis als zu hoch kritisiert, besonders in der Altersgruppe 25-35. Gleichzeitig wurde die Funktionalität X von 38 Personas positiv hervorgehoben. Handlungsempfehlung: Preis überdenken oder zusätzliche Features kommunizieren, die den Preis rechtfertigen.“

    Zusätzlich ermöglichen Visualisierungsfunktionen die Darstellung der Umfrageergebnisse in Diagrammform. Die Balance zwischen Überblick und Detail ist entscheidend – zu oberflächlich, und die Ergebnisse wirken nicht vertrauenswürdig; zu detailliert, und niemand wird sich durch hunderte Einzelantworten arbeiten. Die Plattform bietet beides: Schnelle Erfassbarkeit der wichtigsten Erkenntnisse in wenigen Minuten, aber gleichzeitig die Möglichkeit, bei Bedarf tief in die Einzelantworten einzutauchen.

    Validierung und Weiterentwicklung: Die SSR-Methode

    Erste Tests haben gezeigt, dass das System grundlegend funktioniert. Die entscheidende Frage bleibt jedoch: Sind die Ergebnisse valide? Antworten KI-Personas tatsächlich so, wie echte Menschen es tun würden?

    Das Problem der „generischen Mitte“

    Hier zeigt sich eine bekannte Problematik von LLM-basierten Umfragen: die sogenannte „generische Mitte“. Wenn ein Language Model auf einer Skala von 1 bis 7 bewerten soll, wählt es überproportional häufig mittlere Werte – ein Verhalten, das menschliche Antwortmuster nicht authentisch abbildet. Menschen sind polarisierter, emotionaler, weniger „ausgeglichen“ in ihren Bewertungen. Sie tendieren zu den Extremen, besonders wenn sie starke Meinungen haben.

    Semantic Similarity Rating: Wissenschaftlich validierte Lösung

    Eine vielversprechende Lösung bietet die kürzlich veröffentlichte Semantic Similarity Rating (SSR) Methode (Maier et al., 2025: „LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings“). Die Studie basiert auf 57 Consumer-Research-Surveys mit über 9.300 realen Teilnehmern und zeigt wissenschaftlich fundiert, dass LLMs mit der richtigen Methodik valide Marktforschungsergebnisse liefern können.

    Der Ansatz dreht das Problem elegant um: Statt die KI direkt eine Zahl wählen zu lassen, lässt man sie tun, was sie am besten kann – natürliche Sprache generieren. Die KI gibt zunächst eine Freitextantwort, beispielsweise „Ich könnte mir vorstellen, das Produkt zu kaufen“. Diese Antwort wird anschließend vektorisiert und mit vordefinierten Musterantworten für jede Skalenstufe semantisch abgeglichen. Das System vergibt dann basierend auf der höchsten semantischen Übereinstimmung das Rating – nicht die KI selbst.

    Beeindruckende Validierungsergebnisse

    Die Studie zeigt beeindruckende Ergebnisse: SSR erreicht 90% der menschlichen Test-Retest-Reliabilität bei gleichzeitig realistischen Antwortverteilungen (KS-Similarity > 0.85). Dieser Umweg über die Vektorsuche umgeht die Tendenz zur generischen Mitte und führt zu authentischeren Antwortverteilungen. Die KI bleibt in ihrer Komfortzone (Textgenerierung), während das Rating systemseitig erfolgt. Es ist ein Beispiel dafür, wie man die Stärken von LLMs nutzt und gleichzeitig ihre Schwächen umgeht, statt gegen sie anzukämpfen.

    Integration als nächster Schritt

    Die Integration dieser Methode ist ein logischer nächster Schritt, um die Validität der Umfrageergebnisse wissenschaftlich fundiert zu erhöhen und das System näher an reale Marktforschungsstandards heranzuführen. Die technische Infrastruktur dafür ist bereits vorhanden – Vektorisierung und semantische Suche sind etablierte Technologien. Die Herausforderung liegt in der Erstellung und Kalibrierung der Musterantworten für jede Skalenstufe, aber die wissenschaftliche Evidenz aus der Studie liefert klare Richtlinien für die Implementation.