arrow backarrow downwardarrow forwardarrow upwardbuildcalendarcheckclosecrownemailemergencyemo neutralemo sademo smileemoji objectsexpand lessexpand moreexplorefacebookfilterflag 2forumheartheart fillhomeinstagramlanguagelinkedinlive tvlocationmedalmenumoneynew releasespdfpersonphoto libraryplaypsychology altreloadremoveroom phonesearchsettingsstarstar fillstar halfsunswap horizswap vertthumb downthumb uptrashtuneuser circleuser groupworldxingyoutube
Studie liefert sehr starke Hinweise: KI-Rankings sind Zufall, KI-Sichtbarkeit nicht.
SEO/ GEO/ GAIO/ KI & ML
Ralf ZmölnigFeb. 2026

Studie liefert sehr starke Hinweise: KI-Rankings sind Zufall, KI-Sichtbarkeit nicht.

Wenn man ChatGPT, Claude oder Google AI hundertmal dieselbe Frage nach einer Markenempfehlung stellt – wie konsistent sind die Antworten?

Eine neue Studie von SparkToro-Gründer Rand Fishkin und Patrick O’Donnell (Gumshoe.ai) liefert erstmals belastbare Daten zur Konsistenz von Markenempfehlungen in ChatGPT, Claude und Google AI. Die Ergebnisse bestätigen, was wir bei ROCKITdigital seit der Einführung unseres GEO-Ansatzes vertreten: Wer in KI-Systemen sichtbar sein will, braucht keine überflüssige Diskussion über eine Ranking-Position in LLMs – sondern systematische Präsenz in den Quellen, aus denen diese Systeme schöpfen.

Die Studie: 2.961 Antworten, ein klares Bild

Fishkin und O’Donnell wollten eine Frage beantworten, die erstaunlicherweise niemand vor ihnen gestellt bzw. Evidenzgetrieben behandelt hatte:

Wenn man ChatGPT, Claude oder Google AI hundertmal dieselbe Frage nach einer Markenempfehlung stellt – wie konsistent sind die Antworten?

Das Experiment: 600 Freiwillige gaben 12 identische Prompts jeweils 60 bis 100 Mal in die drei meistgenutzten KI-Tools ein. Die Prompts deckten ein breites Spektrum ab – von Kochmessern für Hobbyköche über Kopfhörer bis hin zu Krebskliniken an der US-Westküste und Digital-Marketing-Beratungen mit E-Commerce-Expertise. Insgesamt 2.961 Antworten wurden erfasst, normalisiert und statistisch ausgewertet. Methodische Grundlage war die Carnegie-Mellon-Studie „Estimating LLM Consistency“.

Die Ergebnisse sind so eindeutig, dass sie in einem Satz zusammenzufassen sind: Nahezu jede Antwort ist ein Unikat.

Die drei Dimensionen der Inkonsistenz

Fishkins Daten zeigen, dass sich die Antworten bei wiederholter Abfrage in drei Dimensionen unterscheiden – und zwar bei jedem der drei getesteten KI-Modelle:

Erstens: Die genannten Marken wechseln. Allein bei der Frage nach Kochmessern produzierte ChatGPT über 40 verschiedene Marken- und Modellempfehlungen in der Gesamtauswertung. Bei breiteren Kategorien wie Science-Fiction-Romanen explodierten die Zahlen auf über 200 einzigartige Nennungen.

Zweitens: Die Reihenfolge ist praktisch zufällig. Die Wahrscheinlichkeit, zweimal dieselbe Reihenfolge zu erhalten, liegt bei etwa 1:1.000. Fishkins Fazit dazu ist unmissverständlich: Wer „Ranking-Positionen in KI“ trackt, misst statistisches Rauschen.

Drittens: Selbst die Anzahl der Empfehlungen schwankt unkontrolliert. Manche Antworten enthalten zwei bis drei Vorschläge, andere zehn oder mehr – bei identischem Prompt.

Die harten Zahlen: Die Wahrscheinlichkeit, dass ChatGPT oder Google AI bei zwei beliebigen Durchläufen dieselbe Markenliste zurückgibt, liegt unter 1 Prozent. Claude produziert minimal häufiger identische Listen (1,65 %), variiert dafür die Reihenfolge noch stärker (0,07 % Übereinstimmung).

Warum das für die Branche relevant ist

Diese Daten haben direkte Konsequenzen für eine gesamte Kategorie von Marketing-Tools, die in den letzten zwei Jahren entstanden ist. Fishkin schätzt, dass bereits über 100 Millionen US-Dollar jährlich für AI-Visibility-Tracking ausgegeben werden – und bislang hatte niemand empirisch geprüft, ob die zugrunde liegende Annahme überhaupt stimmt: dass KI-Antworten konsistent genug sind, um sinnvolle Metriken daraus abzuleiten.

Fishkins Warnung ist deutlich: Tools, die „Ranking-Positionen in KI“ als Metrik verkaufen, liefern statistisch bedeutungslose Daten. Er geht sogar so weit, eine Parallele zu den unseriösen SEO-Verkaufspraktiken früherer Jahrzehnte zu ziehen – unsaubere Anbieter könnten die Inkonsistenz der KI-Antworten ausnutzen, um Kunden beliebige Erfolge oder auch Misserfolge zu präsentieren.

Diese Daten bestätigen, was wir bei ROCKITdigital seit dem Aufbau unseres GEO-Ansatzes vertreten: KI-Empfehlungen sind probabilistisch, nicht deterministisch. Rankings in KI-Antworten sind Zufall. Aber die Häufigkeit, mit der eine Marke im Consideration Set der Modelle auftaucht, ist messbar und strategisch relevant.

Das Aber: Visibility-Prozente funktionieren

Fishkins Ausgangshypothese war, dass AI-Tracking grundsätzlich nutzlos sei. Diese Hypothese wurde – zu seiner eigenen Überraschung – teilweise widerlegt. Denn obwohl Listen, Reihenfolge und Umfang massiv schwanken, zeigt sich über viele Durchläufe hinweg ein stabiles Muster: Bestimmte Marken tauchen konsistent häufiger auf als andere.

Das Krankenhaus City of Hope beispielsweise erschien bei der Frage nach den besten Krebskliniken an der US-Westküste in 69 von 71 ChatGPT-Antworten – eine AI-Sichtbarkeitsrate von 97 Prozent. Aber nur in 25 dieser 71 Antworten war es auch die erstgenannte Empfehlung.

Die entscheidende Metrik ist also nicht die Position in einer einzelnen Antwort, sondern der Anteil an Antworten, in denen eine Marke überhaupt genannt wird – das, was Fishkin als „Visibility Percent“ bezeichnet. Wir ordnen unsere Auswertungen in dedizierten Kundenprojekten in AI-Visibilty-Score ein.

Ein zweiter Befund ist ebenso relevant: Die Konsistenz variiert stärker zwischen Branchen als zwischen KI-Tools. In engen Märkten – wenige Cloud-Computing-Anbieter, wenige Volvo-Händler in Los Angeles – dominieren dieselben Namen mit hoher Sichtbarkeit. In breiten Kategorien – Hunderte von Science-Fiction-Romanen, Tausende von Ernährungs-Influencern – streut das Feld massiv. Das Modell selbst (ChatGPT vs. Claude vs. Google AI) macht dabei weniger Unterschied als die Struktur des jeweiligen Marktes.

Der Prompt-Faktor: Nutzer formulieren radikal unterschiedlich

Ein oft übersehener Aspekt der Studie betrifft die Nutzerseite. Fishkin ließ 142 Teilnehmer jeweils einen eigenen Prompt für dieselbe Kaufabsicht – Kopfhörer für ein reisendes Familienmitglied – formulieren. Das Ergebnis: Kaum zwei Prompts ähnelten sich. Die semantische Ähnlichkeit lag bei 0,081 – Fishkins Metapher dafür: „wie Kung Pao Chicken und Erdnussbutter – beide enthalten Erdnüsse, aber ansonsten haben sie wenig gemeinsam.“

Trotzdem: Als diese 142 völlig unterschiedlich formulierten Prompts durch die KI-Modelle liefen, tauchten Bose, Sony, Sennheiser und Apple in 55 bis 77 Prozent der Antworten auf. Die KI-Modelle hatten die zugrundeliegende Kaufabsicht erkannt und aus einem relativ stabilen Set geschöpft – unabhängig davon, wie individuell die Frage formuliert war.

Das bestätigt: Die Visibility einer Marke im Consideration Set der KI-Modelle ist robust gegenüber Prompt-Variation. Was zählt, ist die Präsenz in den Trainingsdaten und Grounding-Quellen, nicht die exakte Formulierung einer einzelnen Anfrage.

Was das für GEO konkret bedeutet

Die SparkToro-Studie liefert die empirische Grundlage für eine Unterscheidung, die wir bei ROCKITdigital schon länger treffen: zwischen dem Tracking von KI-Sichtbarkeit und der tatsächlichen Optimierung dafür. Beides wird unter dem Begriff GEO verhandelt, aber es sind fundamental verschiedene Disziplinen.

Tracking beantwortet die Frage: Wie oft taucht meine Marke in KI-Antworten auf? Fishkins Studie zeigt, dass diese Frage prinzipiell beantwortbar ist – aber nur mit Visibility-Prozenten über viele Durchläufe, nicht mit Einzel-Rankings. Und selbst dann müssen die methodischen Fragen, die Fishkin am Ende seiner Studie formuliert, erst noch beantwortet werden: Wie viele Durchläufe braucht man für statistisch belastbare Aussagen? Bilden API-Abfragen das ab, was echte Nutzer sehen? Wie viele Prompt-Varianten sind nötig, um einen Themenraum sinnvoll abzudecken?

Optimierung beantwortet eine andere Frage: Wie sorge ich dafür, dass meine Marke häufiger im Consideration Set der KI-Modelle auftaucht? Und genau hier liegt der eigentliche Hebel. Denn was die Studie implizit zeigt, formulieren wir explizit: Nicht die Position in einer einzelnen Antwort entscheidet, sondern die systematische Präsenz in den Datenquellen, aus denen KI-Modelle ihre Empfehlungen generieren.

Das ist der Kern von Generative Engine Optimization: nicht das Ergebnis optimieren, sondern die Grundlage.

Konkret heißt das für Unternehmen:

Wer in den Quellen präsent ist, die KI-Systeme als vertrauenswürdig einstufen – redaktionelle Erwähnungen, strukturierte Daten, konsistente Entitätsinformationen, fachliche Autorität in relevanten Themenfeldern – wird häufiger im Consideration Set landen. Nicht jedes Mal, nicht an Position eins, aber mit einer messbaren und über die Zeit steigerbaren Sichtbarkeitsrate.

Wer hingegen versucht, eine „Position 1 in ChatGPT“ zu tracken oder gar zu optimieren, jagt einer Metrik hinterher, die laut Fishkins Daten schlicht nicht existiert. Und unsere Erfahrung bestätigt das.

Unsere Einordnung

Die SparkToro-Studie ist ein Meilenstein – nicht weil sie etwas fundamental Neues entdeckt, sondern weil sie etwas empirisch belegt, das die GEO-Community bislang intuitiv wusste: KI-Empfehlungen sind probabilistisch. Die Frage „Empfiehlt ChatGPT mein Produkt?“ ist die falsche Frage. Die richtige Frage lautet: „Wie wahrscheinlich ist es, dass KI-Systeme mein Produkt in ihr Consideration Set aufnehmen – und was kann ich tun, um diese Wahrscheinlichkeit zu erhöhen?“

Fishkins Arbeit verdient Respekt, nicht zuletzt weil er als erklärter Skeptiker angetreten ist und bereit war, seine eigene Hypothese zu revidieren. Die Studie ist kein Argument gegen GEO – sie ist ein Argument für den richtigen GEO-Ansatz.

Für Unternehmen, die bereits mit den Daten aus Microsofts AI Performance Dashboard arbeiten oder ihre Sichtbarkeit in generativen Systemen mit MetalYzer durchleuchten, liefert Fishkins Studie die methodische Rückendeckung: Visibility-Prozente sind eine valide Metrik. Ranking-Positionen sind es nicht.

Wer den vollständigen Forschungsbericht lesen möchte, findet ihn auf sparktoro.com. Die Rohdaten sind öffentlich einsehbar.

Wichtig ist uns noch: Die SparkToro-Studie ist ein wertvoller erster Schritt – aber sie ist explorativer Natur, kein abgeschlossenes wissenschaftliches Ergebnis. Fishkin und O’Donnell räumen das selbst ein. Das Panel aus 600 menschlichen Freiwilligen limitiert die Reproduzierbarkeit, die Stichprobengröße von 2.961 Antworten reicht für erste Muster, im Zweifel aber nicht aber für statistische Belastbarkeit in jeder Kategorie. Auch wegen der Frage der auf hervorgangenen Fragen bereits sich bildender LLM-Historie etc.
Offene Fragen bleiben auch: Wie viele Durchläufe braucht man tatsächlich für belastabare AI-Visibility-/ AI-Sichtbarketis-Werte? Und wichtig auch zu wissen: API-Abfragen bilden nicht ab, was Nutzer im Webinterface sehen. Trotzdem kann eine mit ausreichender Stichprobengröße auch hier übergreifende Evidenz erzeugt werden.
Für uns auch spannend: Wie verhält sich die Konsistenz bei KI-Plattformen jenseits der drei US-Marktführer? Da blicken wir als SEO/ GEO-Agentur bei uns sehr viel öfter u.a. auch auf EU-based Mistral <3

ROCKITdigital - Ralf Zmölnig
Ralf Zmölnig
CEO ROCKITdigital GmbH

CEO & Vollblut-Digitalmarketingstratege, strategisch und Performanceorientiert bei ROCKITdigital GmbH

Seit 11/2000 rockt das Team von ROCKITdigital und Ralf Zmölnig das (digitale) Marketing

Wir freuen uns darauf, Sie,
Ihr Unternehmen und Ihre Vision kennenzulernen.

Erzählen Sie uns, wo Sie gerade stehen – gemeinsam bringen wir Ihre Marke auf das nächste Level.

    Informationen zur Verarbeitung Ihrer Daten finden Sie in unserer Datenschutzerklärung

    Rufen Sie uns an

    +49 (0)89 12 22 30 6-12

    Alexa Zmölnig
    freut sich auf Ihren Anruf!