Studie · Mai 2026
05. Mai 2026 · 400 Probes · 4 Modelle · 10 Marken · 10 Queries

GEO Citation Study — wie Modelle eure Marke heute sehen

Empirische Auswertung über Claude, ChatGPT, Perplexity und Gemini: welche Marken werden zitiert, welche verschwinden, woran liegt das? Inklusive reproduzierbarem Probing-Setup zum Selbstmessen.

01 · Top-Line

Die Zahlen in vier Sätzen

Was die 400 Probes über alle 4 Modelle und 10 Marken konsistent zeigen.

Citation-Rate gesamt
98%
Durchschnitt über alle Modelle. Die hohe Rate zeigt: Diese 10 Hidden Champions sind tatsächlich präsent — nicht "verschwunden".
Mention Density
11.3
Durchschnittliche Brand-Erwähnungen pro Antwort. Bandbreite 4.9 bis 17.6.
Visibility-Index
88/100
Composite-Score aus Citation-Rate, Mention Density und Listen-Position.
Antwort-Länge ⌀
503 W.
Durchschnittliche Wortzahl pro Antwort. Range: 263 (Perplexity) bis 814 (Gemini).
Wichtigster Befund

Die untersuchten Hidden Champions verschwinden nicht aus den Modellen — sie werden in über 95% der relevanten Queries erwähnt. Was sich aber stark unterscheidet: wie Modelle antworten, wie tief sie eine Marke einbetten, und welche Quellen sie heranziehen.

02 · Brand-Ranking

Wer sichtbar ist — und wer es weniger ist

Visibility-Index pro Marke, gemittelt über alle 4 Modelle. 100 = perfekt zitiert, hohe Mention-Density, oft an Position 1 in Listen.

# Marke Typ Visibility-Index Citation-Rate Density Bestes Modell
1 Knauf B2B
95
100% 13.6 ChatGPT (GPT-5)
2 Stihl Consumer
92
100% 11.8 ChatGPT (GPT-5)
3 Miele Consumer
91
100% 11.7 Gemini 2.5 Pro
4 Festo B2B
90
100% 12.9 ChatGPT (GPT-5)
5 Kärcher Mixed
88
100% 8.8 Gemini 2.5 Pro
6 Würth B2B
87
95% 9.9 Gemini 2.5 Pro
7 Sennheiser Consumer
87
98% 11.3 ChatGPT (GPT-5)
8 Trumpf B2B
86
98% 11.1 ChatGPT (GPT-5)
9 Liebherr B2B
86
95% 10.6 Gemini 2.5 Pro
10 Hilti B2B
82
90% 11.3 ChatGPT (GPT-5)
03 · Modell-Divergenz

Die vier Modelle denken nicht gleich

Selbe Marken, selbe Queries — vier völlig verschiedene Antwort-Stile.

ChatGPT (GPT-5)

Visibility-Index 96

Citation-Rate: 98.0%  ·  Mention-Density: 17.6  ·  ⌀ Wörter: 577

Vielredner mit Tiefenprofil. GPT-5 schreibt ausführlich (577 Wörter im Schnitt), wiederholt die Marke häufig (Density 17.6) und liefert tendenziell strukturierte Top-N-Listen.

Gemini 2.5 Pro

Visibility-Index 95

Citation-Rate: 99.0%  ·  Mention-Density: 16.2  ·  ⌀ Wörter: 814

Längster Output. Gemini 2.5 Pro produziert die ausführlichsten Antworten (814 Wörter, Density 16.2). Reasoning-Tokens müssen großzügig budgetiert werden.

Claude Sonnet 4.5

Visibility-Index 82

Citation-Rate: 100.0%  ·  Mention-Density: 6.5  ·  ⌀ Wörter: 359

Strukturiert und knapp. Claude Sonnet 4.5 antwortet kompakter (359 Wörter, Density 6.5) — gute Trefferquote, weniger Wortrauschen.

Perplexity Sonar Pro

Visibility-Index 80

Citation-Rate: 93.0%  ·  Mention-Density: 4.9  ·  ⌀ Wörter: 263

Quellen-fokussiert. Perplexity Sonar Pro hält sich kurz (263 Wörter, Density 4.9) und liefert oft inline-Citation-Marker — nahe am klassischen Suchergebnis.

Take-away

Die Modelle unterscheiden sich nicht primär darin, ob sie eine Marke kennen, sondern wie sie sie einbetten. GPT-5 und Gemini erzeugen ausführliche, dichte Profile (>500 Wörter, hohe Mention-Density). Claude und Perplexity antworten knapper, mit klarem Quellen-Fokus. Wer eine Marke "ranken" will, sollte nicht nur "werde ich erwähnt" messen, sondern "in welchem Stil, mit welcher Tiefe, mit welchen Quellen".

04 · B2B vs. Consumer

Der erwartete Bias — existiert in dieser Stichprobe nicht

Hypothese vor der Studie: B2B-Hidden-Champions verschwinden eher als Consumer-Marken. Die Daten sagen etwas anderes.

Consumer-Marken (n=12)

89.6 Visibility

Citation-Rate99.2%
Mention-Density11.6
BeispieleSennheiser, Stihl, Miele
B2B-Marken (n=24)

87.5 Visibility

Citation-Rate96.3%
Mention-Density11.6
BeispieleTrumpf, Hilti, Würth, Festo, Knauf, Liebherr
Differenz

2.1 Punkte

Visibility-Gap+2.1 Consumer
Citation-Gap2.9 Punkte
BewertungInnerhalb des Rauschens — kein systematischer Bias gegen B2B in dieser Stichprobe.

Was das heißt: Die häufige Annahme "B2B hat in LLMs ein Visibility-Problem" trifft auf etablierte Hidden Champions mit starker Wikipedia/Press-Präsenz nicht zu. Die hier untersuchten Marken sind alle global tätige Marktführer mit jahrzehntelanger PR-Spur — und genau diese Spur lesen die Modelle.

Das bedeutet umgekehrt: Wer kein Wikipedia-Eintrag hat, keine deutschsprachige Wirtschaftspresse zitiert wird und keine starken Branchenmedien-Backlinks hat — der könnte tatsächlich aus den Antworten verschwinden. Diese Studie kann das aber nicht testen, weil sie bewusst auf etablierte Marken zielt. Die nächste Iteration sollte explizit "Mid-Tier"-Mittelständler aufnehmen.

05 · Verschwinder-Punkte

Wo eine Marke wegbricht — und warum

Konkrete Brand-Modell-Kombinationen mit Citation-Rate unter 50%. Mit wenigen Treffern eher die Ausnahme als die Regel.

In dieser Probe gibt es keine echten Verschwinder — keine Marke fällt unter 50% Citation-Rate auf einem Modell. Das ist selbst ein Befund: Die etablierten Hidden Champions sind in allen 4 großen LLMs zuverlässig sichtbar.

Das interessante Pattern liegt nicht im "verschwinden", sondern in der Listen-Position: Wer nur an Position 6 oder 7 in einer "Top-Anbieter"-Liste landet, wird vom Endnutzer praktisch nicht gesehen. Diese Studie misst Position-Rank für Listen-Queries — die Daten dazu im CSV.

06 · Quellen-Cluster

Woher die Modelle ihre Antworten beziehen

Verteilung der zitierten Quellen-Cluster über alle 400 Probes.

Firmen-Website
179
Sonstige
152
Social / LinkedIn / X
25
Wikipedia
10
Behörden / Forschung
6
DE-Wirtschaftspresse
3
Branchen-/Industriepresse
2
Internationale Wirtschaftsmedien
2

Top-Quellen über alle Marken

kununu.com 22× zitiert 10 Marken
liebherr.com 21× zitiert 2 Marken
festo.com 17× zitiert 1 Marken
sennheiser.com 17× zitiert 1 Marken
trumpf.com 17× zitiert 1 Marken
glassdoor.de 16× zitiert 9 Marken
hilti.group 16× zitiert 2 Marken
stihl.de 14× zitiert 1 Marken
wuerth.com 13× zitiert 2 Marken
knauf.de 13× zitiert 1 Marken
Beobachtung

Über alle Modelle dominieren Wikipedia und die jeweiligen Firmen-Domains als Hauptquellen. Deutschsprachige Wirtschafts- und Industriepresse ist sichtbar präsent — internationale Quellen wie Reuters/Bloomberg deutlich seltener als bei einer reinen US-Probe.

07 · Query-Typen

Welche Fragen zeigen eine Marke am besten

Citation-Rate pro Query-Typ. Hilft zu verstehen, in welchen User-Suchen die Marke konkurriert.

1·brand_direct Q1_brand_direct
100%
2·brand_leadership Q2_brand_leadership
100%
4·comparison Q4_comparison
100%
5·innovation Q5_innovation
100%
6·reputation Q6_reputation
100%
8·recommendation Q8_recommendation
100%
10·future_outlook Q10_future_outlook
100%
9·news_recency Q9_news_recency
98%
3·category_leader Q3_category_leader
95%
7·hidden_champion Q7_hidden_champion
83%
08 · Reproduce

Eure Marke selbst messen

Das gesamte Probing-Setup ist offen. Klont das Repo, ergänzt eure Marke, lasst es laufen — und vergleicht eure Marke mit den 10 Hidden Champions hier.

Was ihr braucht

  • Node.js 20+
  • API-Keys: Anthropic, OpenAI, Perplexity, Google AI (Gemini)
  • Eine .env-Datei mit den vier Keys
  • ~$5 Credits pro 100 Probes

Setup in 3 Schritten

$ git clone https://github.com/craid/geo-citation-study
$ cd geo-citation-study && npm install
$ cp .env.example .env <- Keys eintragen
$ node probe.js --brand=eure_marke --smoke <- 1 Marke × 4 Modelle × 10 Queries
$ node analyze.js <- Aggregation + CSV-Export

Daten dieser Studie

  • probes.csv — alle 400 Einzel-Probes mit Sentiment, Mentions, Quellen-Cluster
  • aggregated.csv — Aggregat pro Brand × Modell
  • sources.csv — Top-Quellen mit Häufigkeit pro Cluster

Methodik in zwei Minuten

Modelle
Claude Sonnet 4.5 · ChatGPT GPT-5 · Perplexity Sonar Pro · Gemini 2.5 Pro
Marken
Trumpf, Sennheiser, Hilti, Würth, Stihl, Miele, Festo, Knauf, Liebherr, Kärcher
Queries
10 Templates (Brand-direct, Category-leader, Hidden-Champion, Comparison, Recommendation, Recency, Outlook ...)
Probes
10 Marken × 10 Queries × 4 Modelle = 400 angefragte Probes; 400 erfolgreich ausgewertet (0 Errors).
Parameter
Temperature 0.3 (Reasoning-Modelle: Default), max_tokens 1.500 (16k bei Reasoning), deutscher System-Prompt, sachliche Recherche-Anweisung.
Sampling
1 Run pro Brand × Query × Modell. Limitation: Kein Multi-Run für Stabilitäts-Messung — nächste Iteration mit n=3.
Visibility-Index
Composite (0-100): 60% Citation-Rate, 30% Mention-Density (cap 10), 10% inverse Listen-Position. Higher is better.
CRAiD

Diskussion oder Tiefen-Probe für eure Marke?

Wir bauen GEO-Mess-Setups für Marken-Teams, die wissen wollen, wie LLMs sie heute beschreiben — und was sich ändert, wenn neue Quellen, neue Modelle oder neue Wettbewerber dazukommen.

← Zurück zu Insights