Studie · Mai 2026

05. Mai 2026 · 400 Probes · 4 Modelle · 10 Marken · 10 Queries

GEO Citation Study — wie Modelle eure Marke heute sehen

Empirische Auswertung über Claude, ChatGPT, Perplexity und Gemini: welche Marken werden zitiert, welche verschwinden, woran liegt das? Inklusive reproduzierbarem Probing-Setup zum Selbstmessen.

Wir haben 10 Hidden Champions des deutschen Mittelstands quer durch 10 Query-Typen abgefragt — von der direkten Brand-Frage bis zur Recommendation. Die Hypothese, dass B2B-Marken in LLMs systematisch verschwinden, lässt sich mit dieser Stichprobe nicht halten. Was wir stattdessen finden: Vier Modelle mit deutlich unterschiedlichen Antwort-Stilen, eine konsistente Top-3 unabhängig vom Modell — und einzelne Marken, die nur an einzelnen Queries weggebrochen sind.

Zu den Findings Daten-CSV Selbst messen

01 · Top-Line

Die Zahlen in vier Sätzen

Was die 400 Probes über alle 4 Modelle und 10 Marken konsistent zeigen.

Citation-Rate gesamt

98%

Durchschnitt über alle Modelle. Die hohe Rate zeigt: Diese 10 Hidden Champions sind tatsächlich präsent — nicht "verschwunden".

Mention Density

11.3

Durchschnittliche Brand-Erwähnungen pro Antwort. Bandbreite 4.9 bis 17.6.

Visibility-Index

88/100

Composite-Score aus Citation-Rate, Mention Density und Listen-Position.

Antwort-Länge ⌀

503 W.

Durchschnittliche Wortzahl pro Antwort. Range: 263 (Perplexity) bis 814 (Gemini).

Wichtigster Befund

Die untersuchten Hidden Champions verschwinden nicht aus den Modellen — sie werden in über 95% der relevanten Queries erwähnt. Was sich aber stark unterscheidet: wie Modelle antworten, wie tief sie eine Marke einbetten, und welche Quellen sie heranziehen.

02 · Brand-Ranking

Wer sichtbar ist — und wer es weniger ist

Visibility-Index pro Marke, gemittelt über alle 4 Modelle. 100 = perfekt zitiert, hohe Mention-Density, oft an Position 1 in Listen.

#	Marke	Typ	Visibility-Index	Citation-Rate	Density	Bestes Modell
1	Knauf	B2B	95	100%	13.6	ChatGPT (GPT-5)
2	Stihl	Consumer	92	100%	11.8	ChatGPT (GPT-5)
3	Miele	Consumer	91	100%	11.7	Gemini 2.5 Pro
4	Festo	B2B	90	100%	12.9	ChatGPT (GPT-5)
5	Kärcher	Mixed	88	100%	8.8	Gemini 2.5 Pro
6	Würth	B2B	87	95%	9.9	Gemini 2.5 Pro
7	Sennheiser	Consumer	87	98%	11.3	ChatGPT (GPT-5)
8	Trumpf	B2B	86	98%	11.1	ChatGPT (GPT-5)
9	Liebherr	B2B	86	95%	10.6	Gemini 2.5 Pro
10	Hilti	B2B	82	90%	11.3	ChatGPT (GPT-5)

03 · Modell-Divergenz

Die vier Modelle denken nicht gleich

Selbe Marken, selbe Queries — vier völlig verschiedene Antwort-Stile.

ChatGPT (GPT-5)

Visibility-Index 96

Citation-Rate: 98.0% · Mention-Density: 17.6 · ⌀ Wörter: 577

Vielredner mit Tiefenprofil. GPT-5 schreibt ausführlich (577 Wörter im Schnitt), wiederholt die Marke häufig (Density 17.6) und liefert tendenziell strukturierte Top-N-Listen.

Gemini 2.5 Pro

Visibility-Index 95

Citation-Rate: 99.0% · Mention-Density: 16.2 · ⌀ Wörter: 814

Längster Output. Gemini 2.5 Pro produziert die ausführlichsten Antworten (814 Wörter, Density 16.2). Reasoning-Tokens müssen großzügig budgetiert werden.

Claude Sonnet 4.5

Visibility-Index 82

Citation-Rate: 100.0% · Mention-Density: 6.5 · ⌀ Wörter: 359

Strukturiert und knapp. Claude Sonnet 4.5 antwortet kompakter (359 Wörter, Density 6.5) — gute Trefferquote, weniger Wortrauschen.

Perplexity Sonar Pro

Visibility-Index 80

Citation-Rate: 93.0% · Mention-Density: 4.9 · ⌀ Wörter: 263

Quellen-fokussiert. Perplexity Sonar Pro hält sich kurz (263 Wörter, Density 4.9) und liefert oft inline-Citation-Marker — nahe am klassischen Suchergebnis.

Take-away

Die Modelle unterscheiden sich nicht primär darin, ob sie eine Marke kennen, sondern wie sie sie einbetten. GPT-5 und Gemini erzeugen ausführliche, dichte Profile (>500 Wörter, hohe Mention-Density). Claude und Perplexity antworten knapper, mit klarem Quellen-Fokus. Wer eine Marke "ranken" will, sollte nicht nur "werde ich erwähnt" messen, sondern "in welchem Stil, mit welcher Tiefe, mit welchen Quellen".

04 · B2B vs. Consumer

Der erwartete Bias — existiert in dieser Stichprobe nicht

Hypothese vor der Studie: B2B-Hidden-Champions verschwinden eher als Consumer-Marken. Die Daten sagen etwas anderes.

Consumer-Marken (n=12)

89.6 Visibility

Citation-Rate99.2%

Mention-Density11.6

BeispieleSennheiser, Stihl, Miele

B2B-Marken (n=24)

87.5 Visibility

Citation-Rate96.3%

Mention-Density11.6

BeispieleTrumpf, Hilti, Würth, Festo, Knauf, Liebherr

Differenz

2.1 Punkte

Visibility-Gap+2.1 Consumer

Citation-Gap2.9 Punkte

BewertungInnerhalb des Rauschens — kein systematischer Bias gegen B2B in dieser Stichprobe.

Was das heißt: Die häufige Annahme "B2B hat in LLMs ein Visibility-Problem" trifft auf etablierte Hidden Champions mit starker Wikipedia/Press-Präsenz nicht zu. Die hier untersuchten Marken sind alle global tätige Marktführer mit jahrzehntelanger PR-Spur — und genau diese Spur lesen die Modelle.

Das bedeutet umgekehrt: Wer kein Wikipedia-Eintrag hat, keine deutschsprachige Wirtschaftspresse zitiert wird und keine starken Branchenmedien-Backlinks hat — der könnte tatsächlich aus den Antworten verschwinden. Diese Studie kann das aber nicht testen, weil sie bewusst auf etablierte Marken zielt. Die nächste Iteration sollte explizit "Mid-Tier"-Mittelständler aufnehmen.

05 · Verschwinder-Punkte

Wo eine Marke wegbricht — und warum

Konkrete Brand-Modell-Kombinationen mit Citation-Rate unter 50%. Mit wenigen Treffern eher die Ausnahme als die Regel.

In dieser Probe gibt es keine echten Verschwinder — keine Marke fällt unter 50% Citation-Rate auf einem Modell. Das ist selbst ein Befund: Die etablierten Hidden Champions sind in allen 4 großen LLMs zuverlässig sichtbar.

Das interessante Pattern liegt nicht im "verschwinden", sondern in der Listen-Position: Wer nur an Position 6 oder 7 in einer "Top-Anbieter"-Liste landet, wird vom Endnutzer praktisch nicht gesehen. Diese Studie misst Position-Rank für Listen-Queries — die Daten dazu im CSV.

06 · Quellen-Cluster

Woher die Modelle ihre Antworten beziehen

Verteilung der zitierten Quellen-Cluster über alle 400 Probes.

Firmen-Website

179

Sonstige

152

Social / LinkedIn / X

Wikipedia

Behörden / Forschung

DE-Wirtschaftspresse

Branchen-/Industriepresse

Internationale Wirtschaftsmedien

Top-Quellen über alle Marken

kununu.com 22× zitiert 10 Marken

liebherr.com 21× zitiert 2 Marken

festo.com 17× zitiert 1 Marken

sennheiser.com 17× zitiert 1 Marken

trumpf.com 17× zitiert 1 Marken

glassdoor.de 16× zitiert 9 Marken

hilti.group 16× zitiert 2 Marken

stihl.de 14× zitiert 1 Marken

wuerth.com 13× zitiert 2 Marken

knauf.de 13× zitiert 1 Marken

Beobachtung

Über alle Modelle dominieren Wikipedia und die jeweiligen Firmen-Domains als Hauptquellen. Deutschsprachige Wirtschafts- und Industriepresse ist sichtbar präsent — internationale Quellen wie Reuters/Bloomberg deutlich seltener als bei einer reinen US-Probe.

07 · Query-Typen

Welche Fragen zeigen eine Marke am besten

Citation-Rate pro Query-Typ. Hilft zu verstehen, in welchen User-Suchen die Marke konkurriert.

1·brand_direct Q1_brand_direct

100%

2·brand_leadership Q2_brand_leadership

100%

4·comparison Q4_comparison

100%

5·innovation Q5_innovation

100%

6·reputation Q6_reputation

100%

8·recommendation Q8_recommendation

100%

10·future_outlook Q10_future_outlook

100%

9·news_recency Q9_news_recency

98%

3·category_leader Q3_category_leader

95%

7·hidden_champion Q7_hidden_champion

83%

08 · Reproduce

Eure Marke selbst messen

Das gesamte Probing-Setup ist offen. Klont das Repo, ergänzt eure Marke, lasst es laufen — und vergleicht eure Marke mit den 10 Hidden Champions hier.

Was ihr braucht

Node.js 20+
API-Keys: Anthropic, OpenAI, Perplexity, Google AI (Gemini)
Eine .env-Datei mit den vier Keys
~$5 Credits pro 100 Probes

Setup in 3 Schritten

$ git clone https://github.com/craid/geo-citation-study
$ cd geo-citation-study && npm install
$ cp .env.example .env <- Keys eintragen
$ node probe.js --brand=eure_marke --smoke <- 1 Marke × 4 Modelle × 10 Queries
$ node analyze.js <- Aggregation + CSV-Export

Daten dieser Studie

probes.csv — alle 400 Einzel-Probes mit Sentiment, Mentions, Quellen-Cluster
aggregated.csv — Aggregat pro Brand × Modell
sources.csv — Top-Quellen mit Häufigkeit pro Cluster

Methodik in zwei Minuten

Modelle: Claude Sonnet 4.5 · ChatGPT GPT-5 · Perplexity Sonar Pro · Gemini 2.5 Pro
Marken: Trumpf, Sennheiser, Hilti, Würth, Stihl, Miele, Festo, Knauf, Liebherr, Kärcher
Queries: 10 Templates (Brand-direct, Category-leader, Hidden-Champion, Comparison, Recommendation, Recency, Outlook ...)
Probes: 10 Marken × 10 Queries × 4 Modelle = 400 angefragte Probes; 400 erfolgreich ausgewertet (0 Errors).
Parameter: Temperature 0.3 (Reasoning-Modelle: Default), max_tokens 1.500 (16k bei Reasoning), deutscher System-Prompt, sachliche Recherche-Anweisung.
Sampling: 1 Run pro Brand × Query × Modell. Limitation: Kein Multi-Run für Stabilitäts-Messung — nächste Iteration mit n=3.
Visibility-Index: Composite (0-100): 60% Citation-Rate, 30% Mention-Density (cap 10), 10% inverse Listen-Position. Higher is better.

CRAiD

Diskussion oder Tiefen-Probe für eure Marke?

Wir bauen GEO-Mess-Setups für Marken-Teams, die wissen wollen, wie LLMs sie heute beschreiben — und was sich ändert, wenn neue Quellen, neue Modelle oder neue Wettbewerber dazukommen.

hello@craid.de craid.de/contact

← Zurück zu Insights