60 Crawler / 7 Kategorien
Wer crawlt das Web. Wer bleibt draußen.
Datenbank aller relevanten Crawler: Suche, AI/LLM, SEO, Social, Archive, Monitoring, Security. Pro Bot UA-Token, Verifikation, Doku-Link. Plus Generator: ankreuzen, Modus wählen, robots.txt kopieren.
RFC 9309
Wie robots.txt funktioniert.
Die robots.txt liegt im Root jeder Domain. Standardisiert seit September 2022 in RFC 9309. Auswertung in den Crawlern der großen Suchmaschinen ist heute präzise und reproduzierbar.
Aufbau
Pro Gruppe eine oder mehrere User-agent:-Zeilen, dann Allow:, Disallow:, optional Crawl-delay:. Gruppe endet mit der nächsten User-agent-Zeile.
Spezifitäts-Regel
Findet ein Bot mehrere passende Gruppen, gilt der längste Token-Match. Googlebot-Image sieht Googlebot und Googlebot-Image, befolgt nur die letztere. Die User-agent: *-Gruppe gilt nur für Bots OHNE eigene namentliche Gruppe.
Wildcards
- * matcht beliebig viele Zeichen. Disallow: /*.pdf blockt alle PDFs.
- $ verankert Pfad-Ende. Disallow: /tmp$ blockt nur /tmp, nicht /tmp/foo.
- Längste passende Regel gewinnt. Allow: /api/public sticht Disallow: /api.
- Bei gleicher Länge gewinnt Allow vor Disallow (Konvention RFC 9309).
Crawl-Delay
Nicht in RFC 9309, aber von Bing, Yandex, Baidu und vielen kleineren respektiert. Wartezeit in Sekunden. Google ignoriert es bewusst und nutzt die Search Console.
Sitemap
Sitemap:-Zeilen außerhalb der Gruppen. Absolute URLs zu XML-Sitemaps. Crawler nutzen sie als zusätzlichen Hinweis.
Welche Bots blocken?
Keine pauschale Antwort. Die richtige Auswahl hängt von deinem Geschäftsmodell ab. Sechs Site-Typen, sechs Strategien.
Content / Magazin
Suche immer erlauben (Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot). AI-Training individuell: wer nicht in LLM-Korpora landen will, blockt GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended.
E-Commerce
Suchmaschinen alle, plus Social (LinkedInBot, Twitterbot, facebookexternalhit, WhatsApp, Pinterestbot). AdsBot-Google MUSS rein, sonst werden Landing-Pages "Slow" markiert. AI-Training defensiv blocken.
SaaS-Marketing
Alles, was Sichtbarkeit bringt: Suche, Social, AI-Search-Bots. AI-Training Geschmackssache. Wenn Marketing-Texte sowieso öffentlich repliziert werden dürfen: erlauben.
Dokumentation
Strategie umgekehrt: AI-Training EXPLIZIT erlauben, denn jeder Entwickler mit LLM-Assistant profitiert davon, wenn deine Doku im Korpus ist. Treibt Adoption.
Privater Blog
Default ist "alles offen" und meist richtig. Eine robots.txt mit nur Sitemap-Verweis hilft Suchmaschinen mehr als alle Block-Listen.
News / Verlag
Googlebot-News explizit erlauben. AI-Training politisch: viele Verlage blocken pauschal, verhandeln eigene Lizenzdeals (NYT, Springer, FT). ChatGPT-User und Claude-User trotzdem zulassen.
Grenzen
Was robots.txt nicht kann.
Eine Bitte, kein Zaun
Freiwillige Empfehlung. Böse Bots, Scraper, Wettbewerbs-Späher und Security-Scanner ignorieren sie. Wer hart blocken will, braucht Webserver-seitige UA-Filter, IP-Blocklisten, Rate-Limiting, fail2ban, WAFs (CrowdSec, ModSecurity).
Verhindert keine Indexierung
Per Disallow: blockierte URL kann trotzdem in den Suchergebnissen auftauchen, wenn andere Sites darauf verlinken. Google zeigt dann nur die URL ohne Snippet. Wer Indexierung verhindern will: <meta name="robots" content="noindex"> oder X-Robots-Tag-Header. WICHTIG: damit das Tag gelesen werden kann, darf die URL NICHT per robots.txt blockiert sein.
Schützt keine sensiblen Daten
Was in der robots.txt steht, ist öffentlich. Pfade, die du dort als Disallow: aufnimmst, gibst du jedem zur Lektüre frei. Sensible Pfade gehören NICHT in die robots.txt, sondern hinter Authentifizierung.
UA-Spoofing umgeht alles
Jeder Crawler kann seinen User-Agent frei wählen. Schutz nur per Reverse-DNS-Lookup auf die Owner-Domain (googlebot.com, search.msn.com, applebot.apple.com) oder via publizierte IP-Range-Listen.