Wie RAG-Systeme wirklich zitieren: Drei Retrieval-Strategien und ihre Konsequenz für die GEO-Praxis
Praktische Konsequenz für die Content-Produktion
Eine häufte Fehlaussage in GEO-Audits die wir zu sehen bekommen, ist nicht zu wenig Content, sondern Content, der auf meist nur einen der Retrieval-Pfade hin optimiert wurde und am anderen scheitert. Vier Regeln adressieren das Problem strukturell.
Der Artikel Sichtbar, aber nicht wirksam hat beschrieben, was im Retrieval-Moment auf dem Spiel steht – und anhand welcher drei Dimensionen sich diagnostizieren lässt, warum eine Domain in KI-Antworten unterrepräsentiert ist: Extrahierbarkeit, Antwortdichte, Kohäsion. Offen blieb eine Frage, die technisch vorgelagert ist:
Wie entscheidet ein RAG-System überhaupt, welche Inhalte aus einem Milliarden-Dokumente-Korpus in die Antwort einfließen?
Die Antwort ist weniger exotisch, als viele GEO-Debatten vermuten lassen. RAG-Systeme nutzen Retrieval-Strategien, die teils seit Jahrzehnten etabliert sind – kombiniert mit Verfahren, die erst in den letzten Jahren produktionsreif wurden. Wer diese Mechanik versteht, erkennt, warum die Kohäsionsthese des Vorgängerartikels keine redaktionelle Empfehlung ist, sondern eine praktisch wirksame Konsequenz der Retrieval-Architektur.
Inhaltsverzeichnis
Die drei Retrieval-Strategien: eine pragmatische Einordnung
In der produktiven Anwendung werden drei Retrieval-Paradigmen unterschieden. Jedes hat einen klaren Stärke- und Schwächebereich – und jedes beantwortet eine andere Frage über Ihre Inhalte.
Sparse Retrieval: der lexikalische Pfad
Sparse Retrieval ist der methodisch älteste Ansatz. Das zugrundeliegende Konzept TF-IDF wurde in den frühen 1970er Jahren formalisiert, die heute dominante Variante BM25 Mitte der 1990er Jahre durch Robertson und Walker. Beide Verfahren haben eins gemeinsam: Sie zählen, wie häufig die Begriffe einer Suchanfrage in einem Dokument vorkommen – gewichtet nach der Seltenheit des Begriffs im Gesamtkorpus.
Sparse Retrieval ist primär lexikalisch und stark abhängig von expliziten Begriffen. Tokenisierung, Stemming und Stoppwort-Filterung fangen einen Teil der Varianz ab (etwa Singular/Plural), aber konzeptuelle Nähe erkennt ein BM25-Retriever nicht. Wer nach „Lohnfertigung CNC-Bauteile“ sucht, erhält nicht zuverlässig Treffer für eine Seite, die durchgehend von „Auftragsfertigung metallischer Präzisionsteile“ spricht – auch wenn der Inhalt exakt passt.
Der Vorteil ist technische Schlichtheit und hohe Geschwindigkeit. Stark ist Sparse Retrieval überall dort, wo Präzision entscheidend ist: bei Eigennamen, Fachbegriffen, rechtlichen Termini, Produktbezeichnungen, Versionsnummern.
Dense Retrieval: der semantische Pfad
Dense Retrieval ist der modernere Ansatz. In produktiver Anwendung hat er sich seit etwa 2019/2020 etabliert – mit Modellen wie Sentence-BERT (Reimers/Gurevych 2019) und DPR (Karpukhin et al. 2020). Die Grundidee: Sowohl Suchanfragen als auch Dokumente werden in hochdimensionale Vektorräume abgebildet. Texte mit thematisch ähnlichem Inhalt liegen in diesem Raum – in guter Näherung, abhängig von Modellqualität und Trainingsdaten – nahe beieinander, auch wenn sie unterschiedliche Worte verwenden.
„Verstehen“ ist dabei eine nützliche Metapher, aber technisch unpräzise: Ein Dense-Retriever bildet statistische Ähnlichkeiten im Embeddingraum ab. Das löst in vielen Fällen das Problem, an dem Sparse Retrieval scheitert – Synonyme, Paraphrasen, implizite Kontexte – und versagt systematisch dort, wo ein seltener Fachbegriff in den Trainingsdaten des Embedding-Modells unterrepräsentiert war.
Der Preis dieses Ansatzes: Dense Retrieval ist rechnerisch aufwendiger, hängt stark von der Qualität des Embedding-Modells ab, und zeigt bei sehr kurzen Anfragen oft ein schwaches Signal – wobei moderne Pipelines das teils durch Query Expansion oder Query Rewriting kompensieren.
Hybrid Retrieval, Re-Ranking, Query-Verarbeitung
Hybrid Retrieval adressiert die komplementären Schwächen der beiden Einzelverfahren. Beide Pfade werden parallel ausgeführt, und ihre Ergebnisse anschließend fusioniert – entweder durch eine gewichtete Summe der Scores oder durch positionsbasierte Verfahren wie Reciprocal Rank Fusion (RRF), das 2009 von Cormack, Clarke und Büttcher als einfaches, aber überraschend robustes Fusionsverfahren beschrieben wurde.
Publikationsweite Benchmarks zur Retrieval-Qualität – etwa auf Basis des BEIR-Korpus (Thakur et al. 2021) – zeigen, dass hybride Verfahren in vielen Anwendungsdomänen sowohl reines Sparse- als auch reines Dense-Retrieval schlagen. Hybrid Retrieval hat sich daher in vielen produktiven Systemen durchgesetzt; andere Architekturen bleiben verbreitet – insbesondere reines Dense-Retrieval mit nachgelagertem Cross-Encoder-Re-Ranking, das in manchen Pipelines die Rolle der Sparse-Komponente übernimmt.
Zwei weitere Komponenten sind in modernen Pipelines üblich und für die GEO-Praxis relevant:
- Query Expansion / Query Rewriting vor dem Retrieval – der ursprüngliche Prompt wird in mehrere, teils umformulierte Sub-Queries zerlegt (siehe Query Fan-Out).
- Cross-Encoder-Re-Ranking nach der Kandidatenauswahl – die Top-Kandidaten werden von einem zweiten, aufwendigeren Modell neu sortiert, bevor eine Zitationsauswahl stattfindet.
Die Pointe für die GEO-Praxis: Hybrid-Systeme bevorzugen Dokumente, die in beiden Pfaden konsistent relevant sind. RRF kann zwar sehr gute Einzelsignale belohnen, aber die stabileren Ergebnisse erzielt Content, der lexikalisch präzise und semantisch kohärent aufgestellt ist.
Welche Retrieval-Architektur steckt hinter ChatGPT, Perplexity und Google AI Mode?
Eine ehrliche Antwort: Keiner der großen Anbieter dokumentiert seine Retrieval-Architektur vollständig. Was belegbar ist, sind einige Fragmente – und diese sollten nicht (unbedingt) zu einem geschlossenen Bild überinterpretiert werden.
Perplexity hat mit pplx-embed ein eigenes Embedding-Modell entwickelt, das nach belastbarer Einordnung Late Chunking einsetzt – ein Verfahren, bei dem der thematische Kontext einer gesamten Seite in die Embedding-Berechnung einzelner Textabschnitte einfließt. Diese Einordnung ist nicht vollständig offiziell dokumentiert, stützt sich aber auf technische Hinweise und Analysen aus der Arbeit schätzter Kolleginnen und Kollegen aus unserer GEO und SEO Bubble, und ist als Arbeitsgrundlage belastbar. Das ist Dense Retrieval mit einem bewussten Kohäsionsfokus. Die HAR-Analyse des ChatGPT-Netzwerkverkehrs von Alin Radulescu zeigte zudem, dass ChatGPT bei Web-Anfragen mehrere parallele Sub-Queries auslöst – ein Muster, das zu mehrstufigen, potenziell hybriden Architekturen passt, ohne sie abschließend zu beweisen.
Entscheidend ist weniger die Frage, welches System exakt welche Methode verwendet. Entscheidend ist die Strukturlogik: Alle großen Antwortmaschinen arbeiten mehrstufig. Typischerweise werden Anfragen zunächst expandiert oder umformuliert, dann eine Kandidatenmenge über Embeddings und/oder Sparse-Scores gebildet, anschließend per Cross-Encoder oder anderer Modelle neu gerankt – und erst am Ende wird eine Auswahl zitiert. Jede dieser Stufen filtert. Jede kann Sie ausschließen.
Wer GEO-Strategie betreibt, optimiert also nicht auf eine Retrieval-Methode, sondern auf einen Filterpfad, dessen einzelne Stufen unterschiedliche Eigenschaften belohnen.
| Klassisches SEO optimiert auf einen einstufigen Output: ein Ranking. GEO adressiert einen mehrstufigen Filterprozess, in dem jede Stufe eigene Regeln hat. |
Die Brücke: drei Retrieval-Mechaniken, drei Wirksamkeitsdimensionen
Die Verbindung zwischen den drei im Vorgängerartikel beschriebenen Wirksamkeitsdimensionen und den drei Retrieval-Strategien ist keine Analogie, sondern eine operative Abbildung:
| Wirksamkeitsdimension | Sparse-Pfad | Dense-Pfad | Konsequenz im Hybrid-Retrieval |
|---|---|---|---|
| Extrahierbarkeit | Voraussetzung: ohne zuverlässig parsbaren Text kein BM25-Score | Voraussetzung: ohne Text kein Embedding | Eintrittstor für beide Pfade – ohne Zugänglichkeit und Parsbarkeit kein Retrieval |
| Antwortdichte | Exakte Begriffe, Entitäten, deklarative Formulierungen | Vollständige, in sich geschlossene Antworteinheiten | Beide Anforderungen im selben Absatz bedienen |
| Kohäsion | Indirekt – über klare thematische Zuordnung von Termen | Indirekt wirksam über Topic Coherence, Embedding-Rauschen und Chunk-Boundary-Effekte | Kohärente Seiten erzeugen typischerweise stabilere Embeddings und sauberere Chunking-Grenzen |
Zur Einordnung der Kohäsionsdimension: Die Vorstellung, ein Chunk „enthalte“ direkt den Kontext seiner gesamten Seite, gilt nur für bestimmte Architekturen mit erweiterten Chunking- oder Kontextverfahren – nicht als allgemeines Implementierungsmuster. In der Praxis arbeiten viele Systeme mit fixed-size Chunking (etwa 512 Tokens) und leichtem Overlap; globaler Seitenkontext fließt in solchen Pipelines nicht automatisch in das Embedding eines einzelnen Chunks ein.
Dennoch wirkt Kohäsion – indirekt, aber messbar in den Folgen: Thematisch sprunghafte Seiten erzeugen schwächer zuzuordnende Embeddings (Topic Drift), führen zu unglücklichen Chunk-Grenzen, an denen Fragmente ohne erkennbaren Bezug entstehen, und verringern die Wahrscheinlichkeit, dass ein Chunk eigenständig als zitierfähige Antworteinheit ausgewählt wird. Damit bleibt der zentrale Satz des Vorgängerartikels praxisrelevant, auch wenn seine technische Begründung weniger direkt ist, als eine vereinfachte Darstellung vermuten ließe:
| Fehlende interne Kohäsion öffnet das Feld für externe Inkohärenz. |
Weil Hybrid Retrieval Ergebnisse aus beiden Pfaden fusioniert, werden Dokumente bevorzugt, die auf beiden Pfaden konsistent abschneiden. Ein thematisch zerstreuter Inhalt liefert dem Dense-Pfad schwächere Signale, ein paraphrastischer Inhalt ohne klare Entitäten verliert am Sparse-Pfad. Beides gleichzeitig ist kein Grenzfall, sondern in Audits das typische Muster.
Vier Präzisierungen für den fachlich genauen Blick, bzw. die, die es genau wissen wollen
Die bisherige Darstellung folgt einer bewusst verdichteten Logik: Sparse, Dense und Hybrid als die drei Retrieval-Paradigmen, abgebildet auf die drei Wirksamkeitsdimensionen. Für die operative Arbeit ist dieses Modell tragfähig – für den fachlich genauen Blick gehören vier Differenzierungen dazu, die seine Grenzen markieren.
1. „Zitieren“ ist keine Eigenschaft des Retrieval-Systems
Streng genommen zitieren LLMs nicht. Was Nutzerinnen und Nutzer in Perplexity-Antworten oder Google-AI-Mode-Boxen als Quellenangabe sehen, ist das Ergebnis einer Kette aus drei Stufen: Das Retrieval-System wählt Dokumente in den Kontext, das Sprachmodell generiert eine Antwort unter Nutzung dieses Kontexts, und ein nachgelagerter UI-Layer blendet die verwendeten Quellen als Referenzen ein. Der Begriff „Zitation“ ist damit eine Oberflächenbeschreibung – unter der drei unabhängige Entscheidungen liegen.
Für die GEO-Praxis folgt daraus eine Nuance: Auch wenn die eigene Seite in das Kontextfenster gelangt, ist das keine Garantie für eine sichtbare Referenz. Das Sprachmodell kann Informationen aus dem Kontext nutzen, ohne sie einer bestimmten Quelle zuzuordnen, und die UI-Logik kann bestimmte Referenzen bevorzugen oder unterdrücken. Retrieval ist notwendige, aber nicht hinreichende Bedingung für sichtbare Zitierbarkeit.
2. Nach dem Retrieval kommen weitere Stufen
Die Darstellung – „jede Stufe kann Sie ausschließen“ – ist unseres Erachtens zwar richtig, aber auch unvollständig. Nach der eigentlichen Kandidatenauswahl folgen typischerweise: Re-Ranking (oft durch Cross-Encoder, die Kandidatenpaare einzeln bewerten), Prompt-Assembly (Auswahl der Top-k Dokumente und deren Anordnung im Kontextfenster) und die eigentliche Generation. Jede dieser Stufen verändert, was am Ende im Output landet.
Besonders relevant ist die Prompt-Assembly. Empirische Arbeiten – etwa Liu et al. zum sogenannten Lost-in-the-Middle-Effekt – zeigen, dass Sprachmodelle Informationen am Anfang und Ende eines Kontextfensters zuverlässiger nutzen als solche in der Mitte. Zudem können irrelevante Kontextdokumente die Antwortqualität messbar verschlechtern, auch wenn sie formal zur Kandidatenmenge gehörten. Retrieval liefert also Rohmaterial – über dessen Verarbeitung entscheidet die Pipeline hinter dem Retrieval.
3. Dense Retrieval ist Approximation, nicht Bedeutung
Die Formulierung, Dense Retrieval arbeite „semantisch“, beschreibt ein Verhalten, das die Metapher nicht vollständig verdient. Embedding-Modelle bilden statistische Regelmäßigkeiten aus ihren Trainingsdaten ab; was dabei entsteht, ist eine Approximation thematischer Nähe, keine Bedeutung im linguistischen oder philosophischen Sinn.
Typische Fehlermuster sind daher vorhersehbar: Overgeneralization (oberflächliche Ähnlichkeit schlägt echte thematische Zugehörigkeit – etwa wenn zwei Texte durch gemeinsame Kontextwörter embeddings-nah erscheinen, obwohl sie thematisch entgegengesetzt sind), Drift (das Embedding-Modell trägt Biases seiner Trainingsdaten weiter) und falsche Nähe bei seltenen Begriffen, deren Repräsentation auf wenigen Trainingsbeispielen basiert. Für Content-Strategien bedeutet das: Explizite Entitäten-Disambiguierung – klare Benennung, klare Abgrenzung – bleibt auch auf dem Dense-Pfad wichtig, gerade weil das System Bedeutung nicht versteht, sondern schätzt.
4. Hybrid Retrieval ist kein Selbstläufer
Die Aussage, Hybrid-Verfahren kombinierten die Stärken beider Einzelansätze, ist im Mittel tragfähig, im Einzelfall aber voraussetzungsabhängig. Die Gewichtung zwischen BM25-Score und Vector-Score ist selten trivial; unterschiedliche Anfragen profitieren von unterschiedlichen Gewichten. Fixed-weight-Hybridsysteme können in spezifischen Domänen schlechter abschneiden als gut konfigurierte Einzelverfahren, und neuere Ansätze – Learned Sparse Retrieval, adaptive Gewichtung, Query-abhängiges Routing – verkomplizieren das Bild zusätzlich.
Praktische Konsequenz für die GEO-Strategie: Die Retrieval-Landschaft ist kein einheitliches System, sondern eine Vielzahl unterschiedlich konfigurierter Pipelines. Die Regeln im folgenden Abschnitt sind daher nicht als Optimierung auf eine Architektur zu verstehen, sondern als Robustheit über Varianten – Inhalte, die auf keiner plausibel konfigurierten Pipeline systematisch durchfallen.
Praktische Konsequenz für die Content-Planung und Erstellung
Eine häufte Fehlaussage in GEO-Audits die wir zu sehen bekommen, ist nicht zu wenig Content, sondern Content, der auf meist nur einen der Retrieval-Pfade hin optimiert wurde und am anderen scheitert. Vier Regeln adressieren das Problem strukturell.
1. Entitäten und Fachbegriffe explizit benennen – nicht umschreiben
Der Sparse-Pfad belohnt exakte Begriffe. Paraphrasen produzieren in vielen Fällen keinen Treffer, wenn in der Anfrage ein spezifischer Fachbegriff steht. Konkret:
Vorher: Im Studium lernen Sie, Patientinnen und Patienten in der klinischen Versorgung zu begleiten.
Nachher: Der Physician Assistant übernimmt im Studiengang definierte klinische Aufgaben eigenverantwortlich – darunter Anamnese, Assistenz bei Operationen und das Führen der Patientenakte.
Der Dense-Pfad funktioniert bei beiden Formulierungen vergleichbar. Der Sparse-Pfad – und damit jede Anfrage, die das Keyword „Physician Assistant“ explizit enthält – matcht zuverlässig nur auf den zweiten Satz. In der Hybrid-Fusion bedeutet das: Der zweite Satz hat eine deutlich höhere Zitationswahrscheinlichkeit.
Die Regel ist keine Rechtfertigung für Keyword-Stuffing. Sie ist eine Verpflichtung zu präziser Fachsprache statt zu beschreibender Allgemeinsprache.
2. Deklarative Sätze statt Navigationsprosa
Retrieval-Systeme extrahieren typischerweise Antworteinheiten – Sätze oder Absätze, die eine Frage eigenständig beantworten. Sätze, die auf andere Seiten verweisen („Mehr dazu finden Sie hier“), liefern keine solche Antworteinheit. Sätze, die Handlungsanweisungen geben („Klicken Sie hier, um den Flyer herunterzuladen“), ebenfalls nicht.
Vorher: Alle Details zum Berufsbild finden Sie in unserem Studiengangsflyer.
Nachher: Physician Assistants arbeiten als akademisch ausgebildete medizinische Fachkräfte in Kliniken und Arztpraxen. Sie unterstützen Ärztinnen und Ärzte in definierten Aufgabenbereichen. Das Berufsbild ist in Deutschland seit Mitte der 2000er Jahre etabliert.
Der Navigationssatz verweist auf ein Dokument, das – wenn es als PDF vorliegt – zwar grundsätzlich parsbar ist, in der Web-Retrieval-Praxis aber deutlich unzuverlässiger extrahiert wird als strukturierter HTML-Text. Der deklarative Satz beantwortet die Anfrage an Ort und Stelle und ist damit direkt zitierfähig.
3. Thematische Kohäsion innerhalb einer URL
Unabhängig vom konkreten Chunking-Verfahren eines Retrieval-Systems gilt: Eine URL, die innerhalb eines Themenfelds sprunghaft wird – etwa eine Studiengangsseite, die neben der eigentlichen Information zusätzlich Pressemitteilungen, Veranstaltungsankündigungen und Alumni-News mitführt – erzeugt in jeder gängigen Pipeline Probleme. Bei fixed-size Chunking entstehen Grenzen quer durch Themenwechsel; bei kontexterweiterten Verfahren fließt heterogenes Signal in die Repräsentation einzelner Abschnitte ein. Beide Effekte verringern die Wahrscheinlichkeit, dass ein Chunk eigenständig als Antworteinheit gewählt wird.
Die Konsequenz ist nicht „Inhalte auf möglichst viele URLs verteilen“, sondern ein präziseres Prinzip: Alle Inhalte, die zum selben Informationsbedürfnis gehören – also die zusammenhängenden Sub-Queries eines Themenfelds abdecken – gehören idealerweise auf dieselbe, HTML-zugängliche URL. Der im Vorgängerartikel analysierte Studiengangsfall macht das deutlich: Die zentrale Studiengangsseite sollte Curriculum, Zulassung, Bewerbungsablauf, Berufsbild und Berufsperspektiven als kohärenten Text führen – nicht in separate PDFs, News-Einträge oder Video-Beschreibungen zersplittert. Davon getrennt werden Inhalte, die einem erkennbar anderen Informationsbedürfnis dienen: Pressemitteilungen, Veranstaltungsmeldungen, Alumni-Geschichten. Diese gehören in eigene, themenspezifische Bereiche und werden über bidirektionale Verlinkung mit der Hauptseite des Themas verknüpft, also intern mit strategisch gewählten Ankertexten verlinkt.
4. Bidirektionale Verlinkung als semantisches Signal
Was für Chunk-Grenzen innerhalb einer Seite gilt, gilt für die interne Linkstruktur zwischen Seiten: Ein Netz aus wechselseitig verlinkten, thematisch verwandten URLs bildet für das Retrieval-System einen erkennbaren Wissensverbund – sowohl über klassische Linkgraph-Signale als auch über die semantische Kohärenz benachbarter Dokumente. Ein Expertinneninterview wird zitierfähig, wenn es reziprok mit der thematisch zugehörigen Hauptseite verlinkt ist – prinzipiell nicht, solange es isoliert im News-Bereich steht.
Der Doppelfehler in der Praxis
Zwei Fehlermuster sind in Audits besonders häufig – und beide sind direkt auf die Retrieval-Mechanik zurückführbar:
Fehler A: Keyword-Listen-Denken. Inhalte, die Fachbegriffe dicht aneinanderreihen, aber keine narrative Kohärenz entwickeln, gewinnen tendenziell am Sparse-Pfad und verlieren am Dense-Pfad. Die Seite wird als Kandidat identifiziert, im Re-Ranking aber als thematisch inkohärent zurückgestuft.
Fehler B: SEO-Erzähltext der 2020er Generation. Inhalte, die narrativ flüssig, keyword-arm und auf Leseempfindung optimiert sind, gewinnen am Dense-Pfad und verlieren am Sparse-Pfad. Die Seite landet zwar in der Kandidatenmenge, wird aber für spezifische Anfragen – mit exakten Produktnamen, Rechtsbegriffen oder Fachtermini – nicht zuverlässig als Primärquelle gewählt.
Beide Fehler sind korrigierbar, und beide erfordern dieselbe Intervention: explizite Fachsprache in kohärenten thematischen Einheiten, verbunden durch bidirektionale Verlinkung. Die Retrieval-Mechanik belohnt keine Einzelexzellenz auf einem Pfad. Sie belohnt Ausgewogenheit.
Was von klassischem SEO bleibt
Die Mehrstufigkeit des Retrieval-Prozesses ändert nichts am Fundament: Ohne technische Auffindbarkeit, ohne indexierbare URLs, ohne saubere Informationsarchitektur erreicht kein Inhalt die erste Retrieval-Stufe. SEO wie wir es seit über 25 Jahren leben und als SEO-Agentur in der Metropolregion München für Kunden in Deutschland und darüber hinaus umsetzen bleibt die in ganz großen Teilen Voraussetzung – nicht die Alternative.
Was sich ändert, ist der Optimierungsgegenstand. Klassisches SEO optimiert primär auf ein einstufiges Ziel: die Position in den organischen Suchergebnissen. GEO optimiert auf einen Filterpfad mit mehreren Stufen, die jeweils unterschiedliche Signale belohnen. Wer die Retrieval-Mechanik versteht, erkennt, dass beide Disziplinen dieselben handwerklichen Grundlagen teilen – aber unterschiedliche strategische Fragen beantworten. Wie sich diese technischen Ansätze weiter einordnen lassen, zeigt der Beitrag Deterministisch vs. probabilistisch.
ROCKITdigital: GEO-Beratung mit Retrieval-Fokus
Als SEO- und GEO-Agentur arbeitet ROCKITdigital an der strukturellen Wirksamkeit von Inhalten im Retrieval-Moment – durch Fan-Out-Analysen, Kohäsions-Audits und konkrete redaktionelle Umsetzung. Der beschriebene Retrieval-Rahmen ist Teil eines integrierten Beratungsansatzes, der klassisches SEO, GEO, SEA als komplementären Sichtbarkeits-Layer, WordPress-Development als technische Grundlage der Extrahierbarkeit sowie regionale Nachfrage-Impulse über z.B. Fernsehwerbung oder Addressable TV (lokal/regional einsetzbar) und E-Mail-Marketing verbindet.
Wenn Sie wissen möchten, wie Ihre Inhalte auf dem Sparse- und dem Dense-Pfad tatsächlich performen – und welche der vier beschriebenen Regeln bei Ihnen den größten Hebel hat –, sprechen Sie uns an.
Weiterführende Inhalte, die in diesem Kontext relevant sind:
- Sichtbar, aber nicht wirksam – der Ausgangsartikel mit dem Wirksamkeitsindex-Rahmen
- Query Fan-Out – wie RAG-Systeme aus einem Prompt viele parallele Sub-Queries generieren
- AI SEO verstehen – Googles Bewertungslogik im KI-Mode
- Interne Verlinkung – die Kohäsionsdimension als Struktur-Aufgabe
Und für die Kritiker Butter bei die Fische: Dieser Artikel, gemessen am eigenen Modell
Ein Artikel über Retrieval-Wirksamkeit, der die eigenen Regeln nicht auf sich selbst anwendet, verlöre an Glaubwürdigkeit, ja. Die folgende Einordnung prüft daher einmal diesen Beitrag entlang der vier im Kapitel „Praktische Konsequenz“ formulierten Regeln – und benennt, wo wir diesen folgen, und wo auch nicht 😉
Regel 1 – Entitäten und Fachbegriffe explizit benennen: Der Artikel verwendet durchgehend die Fachtermini BM25, TF-IDF, Dense Retrieval, Cross-Encoder, Reciprocal Rank Fusion, Late Chunking, Lost-in-the-Middle und nennt die zugehörigen Autorinnen und Autoren mitsamt Publikationsjahren. Produktnamen (pplx-embed) und Systembezeichnungen (ChatGPT, Perplexity, Google AI Mode) erscheinen explizit statt als Umschreibungen. Bewusste Entscheidung: keine generischen Vereinfachungen wie „KI-Systeme“ dort, wo spezifische Verfahren gemeint sind.
Regel 2 – Deklarative Sätze statt Navigationsprosa: Die zentralen Aussagen sind als eigenständige Antworteinheiten formuliert („BM25 wurde Mitte der 1990er Jahre durch Robertson und Walker publiziert“, „Hybrid-Systeme bevorzugen Dokumente, die in beiden Pfaden konsistent relevant sind“). Verweise auf externe Quellen ersetzen nirgends die Kernaussage – sie flankieren sie. Einschränkung: Einzelne Absätze enthalten Nebensätze, die für sich genommen nicht chunk-fähig wären; in einem strengeren Setup wären diese Sätze in zwei Antworteinheiten zu trennen.
Regel 3 – Thematische Kohäsion innerhalb einer URL: Der Beitrag führt alle zum Informationsbedürfnis „Wie funktioniert Retrieval, und was bedeutet das für GEO-Content“ gehörenden Aspekte auf einer URL zusammen – von der technischen Einordnung über die Grenzen des Modells bis zu den operativen Regeln. Getrennt bleiben Inhalte, die anderen Informationsbedürfnissen dienen (Wirksamkeitsindex-Definition, Query Fan-Out, interne Verlinkungsmethodik). Diese werden nicht mitgeführt, sondern über bidirektionale, interne Verlinkung verknüpft.
Regel 4 – Bidirektionale Verlinkung als semantisches Signal: Der Artikel verlinkt auf vier thematisch benachbarte Beiträge in derselben Kategorie. Reziprok wird das erst, wenn diese ihrerseits auf den vorliegenden Beitrag zurückverweisen. An dieser Stelle müssen wir uns in aller Begeisterung für das Thema selbst an die Nase fassen: Der Rückverweis in den älteren Beiträgen ist zum Zeitpunkt der Veröffentlichung nicht gesetzt – ein typisches Muster, das auch im eigenen Haus regelmäßig auftritt (Danke an das interne QM bzw. Team <3). Der Impuls beim Verfassen eines neuen Artikels ist, von dort auf bestehende Beiträge zu verweisen; der umgekehrte Schritt – in den bestehenden Beiträgen einen Verweis auf den neuen zu ergänzen – verlangt eine separate redaktionelle Disziplin, die weniger reizvoll ist, aber ohne die keine Wirksamkeit entsteht. Kohäsion ist kein Zustand, sondern eine fortlaufende Praxis – diese Nacharbeit gehört daher zum Artikel selbst, nicht in die Kategorie nachgelagerter Nebenaufgaben.
Die ehrliche Bilanz: Drei der vier Regeln sind im Artikel selbst umgesetzt; Regel 4 wird durch redaktionelle Folgearbeit eingelöst. Genau darin liegt der Unterschied zwischen einem gut geschriebenen Einzelbeitrag und einem kohärenten Wissensverbund. Und ich persönlich wollte es mir nicht nehmen lassen, diesen fehlenden Umstand jetzt nicht gleich zu korrigieren, sondern zu adressieren. Denn zum einen sind wir auch nur Menschen, zum anderen ist u.a. dass eben genau einer der wichtigen Faktoren, die wir bei unseren Kunden genau monitoren 😉
| Ein Artikel über Retrieval-Wirksamkeit ist nicht dadurch wirksam, dass er Wirksamkeit beschreibt – sondern dadurch, dass er die beschriebenen Regeln auf sich selbst anwendet. |
Quellen
- Robertson, S. E., Walker, S.: Some simple effective approximations to the 2-Poisson model for probabilistic weighted retrieval, SIGIR 1994 (BM25-Formulierung).
- Reimers, N., Gurevych, I.: Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, EMNLP 2019.
- Karpukhin, V. et al.: Dense Passage Retrieval for Open-Domain Question Answering, EMNLP 2020.
- Thakur, N. et al.: BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models, NeurIPS 2021.
- Cormack, G. V., Clarke, C. L. A., Büttcher, S.: Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods, SIGIR 2009.
- IBM Technology: Top 3 RAG Retrieval Strategies: Sparse, Dense & Hybrid Explained (YouTube).
- Wordlift (Volpini, A.): Why AI Cites Some Pages and Ignores Others, März 2026.
- Radulescu, A.: Wie funktioniert ChatGPT? Die Architektur aus Sicht des Browsers, HAR-Analyse, LinkedIn Pulse 2025.
- ROCKITdigital intern: Wirksamkeitsindex-Framework, Kohäsions-Audit-Methodik, 2026.
Ralf Zmölnig
CEO ROCKITdigital GmbH
CEO & Vollblut-Digitalmarketingstratege, strategisch und Performanceorientiert bei ROCKITdigital GmbH
Seit 11/2000 rockt das Team von ROCKITdigital und Ralf Zmölnig das (digitale) Marketing
CEO & Vollblut-Digitalmarketingstratege, strategisch und Performanceorientiert bei ROCKITdigital GmbH
Seit 11/2000 rockt das Team von ROCKITdigital und Ralf Zmölnig das (digitale) Marketing

