Was AI-Engines sehen, wenn sie an deine Domain anklopfen
Viele Marketing-Sites im Mittelstand sind für AI-Engines unsichtbar, und niemand merkt es. Der Grund ist selten der Inhalt, fast immer die Infrastruktur: Cloudflare blockt AI-Crawler bei vielen Setups per Default. Wer in ChatGPT, Claude oder Perplexity zitiert werden will, prüft drei Dinge: den AI-Crawler-Block, die Discovery-Header und eine ausgelieferte /llms.txt.
Das Bild aus unseren Discovery-Checks ist fast immer dasselbe. Ein curl mit dem User-Agent Claude-User, also genau dem Mechanismus, mit dem Claude während eines Chats nachschlägt, läuft gegen die Firmen-Startseite. Was zurückkommt: 403 Forbidden.
Drei Cloudflare-Diagnose-Klicks später ist die Lage klar. Der Default-Schalter „Block AI Scrapers and Crawlers” steht auf an. Bewusst aktiviert hat ihn nie jemand, Cloudflare hat ihn beim Aufsetzen übernommen. Für ClaudeBot, GPTBot, PerplexityBot, OAI-SearchBot und das halbe Feld der bekannten AI-User-Agents läuft die Edge auf 403. Die robots.txt mag für AI-Bots freundlich gepflegt sein, gelesen wird sie nie, weil die Verbindung gar nicht so weit kommt.
Drei Schritte, drei Hebel
1. Den Türsteher abbauen. Cloudflare-Dashboard → Security → Bots → „Block AI Scrapers and Crawlers” aus. Parallel das Feature „Managed robots.txt” aus, das sonst still einen Disallow: /-Block für AI-Bots in jede ausgelieferte robots.txt-Antwort schiebt und die eigene Allow-Sektion komplett überstimmt.
2. Discovery-Header setzen. RFC 8288 erlaubt Link-Beziehungen direkt im HTTP-Header, nicht erst im HTML-<head>. Wir setzen pro Antwort zwei Pointer: Link: </sitemap-index.xml>; rel="sitemap" und Link: </llms.txt>; rel="describedby"; type="text/markdown". AI-Engines finden damit beim ersten Request die Sitemap und die kuratierte Übersicht, ohne zu raten.
3. /llms.txt ausliefern. Eine kurze Markdown-Datei nach dem llmstxt.org-Vorschlag: H1 plus Lead, alle Skills mit je einem Satz, die letzten Logbuch-Einträge mit Teaser, Kontakt. Genau das Format, das AI-Engines bevorzugt für Citations einsaugen, ohne die ganze Site crawlen zu müssen. Wir generieren die Datei zur Build-Zeit aus den Content-Collections, damit sie nie veraltet.
Drei weitere Schalter, die niemand auf dem Schirm hat
Wer mit den drei Hebeln fertig ist und gegen einen generischen Fetcher testet, bekommt fast immer noch ein zweites Problem: die benannten AI-Bots kommen durch, der Custom-Fetcher fliegt trotzdem raus. Erklärung sitzt eine Etage tiefer.
Bot Fight Mode (Security → Bots) ist Cloudflares zweite Verteidigungslinie. Er prüft UA-agnostisch über TLS-Fingerprint und HTTP/2-Header-Reihenfolge. ClaudeBot, GPTBot und PerplexityBot stehen auf Cloudflares Verified-Bots-Liste und kommen durch. Aber das web_fetch-Tool aus Claude Desktop, ChatGPT-Live-Search, Researcher-Crawler oder neue AI-Engines, die noch nicht registriert sind, fliegen raus. Für eine Marketing-Site, die maximal auffindbar sein will: ausschalten. Auf API- oder Backend-Domains gilt das Gegenteil.
Super Bot Fight Mode (Pro/Business) — feingranularere Variante davon, gleicher Effekt.
AI Labyrinth — neueres Feature, das verdächtigen Bots fingierte Seiten ausliefert. Charmante Idee, für die Citation-Mission das Gegenteil.
Vier Cloudflare-Defaults insgesamt, die jede Marketing-Site beim Aufsetzen einsammelt, ohne dass jemand sie bewusst aktiviert. Drei abschalten reicht für die benannten AI-Bots; alle vier, wenn auch Custom-Tools und unregistrierte AI-Engines durchkommen sollen.
Warum das jetzt zählt
AI Overviews erscheinen inzwischen bei rund 20 Prozent aller deutschen Keywords (SISTRIX, n=100 Mio. Keywords), und die Klickrate auf informationelle Treffer sinkt dabei um 12 bis 22 Prozent. Der Traffic wandert von der blauen Liste in die synthetisierte Antwort. Wer dort nicht als Quelle steht, verliert nicht Platz vier, sondern die Erwähnung.
Bing-Index ist der Crawl-Backbone für ChatGPT, Copilot und Perplexity, Googles AI Overviews ziehen aus dem klassischen Google-Index, Anthropic crawlt mit eigenen Bots für Citations. Wer in der ersten Welle der Antwort-Engines nicht zitiert wird, taucht in der zweiten meist auch nicht auf. Engines lernen, wem sie vertrauen.
Die drei Hebel sind in einem Nachmittag erledigt. Den gleichen Türsteher-Default finden wir bei Mittelständlern immer wieder auch im Marketing-Stack: Cloudflare ist Marktführer, aber Akamai, Fastly und Vercel haben äquivalente AI-Bot-Schalter. Wer eine Marketing-Site betreibt, sollte einmal nachsehen, was die Edge an AI-Crawler zurückgibt.
Triage-Quelle: isitagentready.com bündelt mehrere dieser Hebel. Den Link-Header-Vorschlag haben wir übernommen, den DNS-AID-Vorschlag (noch ein früher Entwurf) beobachtend zur Seite gelegt.