crawlerbase.de / trace URL tracen

60 Crawler / 7 Kategorien

Wer crawlt das Web. Wer bleibt draußen.

Datenbank aller relevanten Crawler: Suche, AI/LLM, SEO, Social, Archive, Monitoring, Security. Pro Bot UA-Token, Verifikation, Doku-Link. Plus Generator: ankreuzen, Modus wählen, robots.txt kopieren.

Quick
  • Google-Extended

    Google AI / LLM Bewusst entscheiden

    Steuert die Nutzung von Inhalten für Gemini- und Vertex-AI-Training, ohne die Suche zu beeinflussen.

    Details
    UA-Token
    Google-Extended
    UA-Beispiel
    (kein eigener UA, nur Steuer-Token)
    Verifikation
    kein eigener Crawler, separates robots-Token
    Doku
    https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#google-extended
  • Applebot-Extended

    Apple AI / LLM Bewusst entscheiden

    Steuert die Nutzung von Inhalten für Apple-Intelligence-Training. Suche bleibt bei Block weiter aktiv.

    Details
    UA-Token
    Applebot-Extended
    UA-Beispiel
    (kein eigener UA, nur Steuer-Token)
    Verifikation
    kein eigener Crawler, separates robots-Token
    Doku
    https://support.apple.com/en-us/119829
  • GPTBot

    OpenAI AI / LLM Bewusst entscheiden

    Crawlt Inhalte für das Training neuer OpenAI-Modelle. Block verhindert Aufnahme in den Trainings-Korpus.

    Details
    UA-Token
    GPTBot
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
    Verifikation
    IP-Range unter platform.openai.com publiziert
    Doku
    https://platform.openai.com/docs/bots
  • ChatGPT-User

    OpenAI AI / LLM Empfohlen erlauben

    Live-Fetch wenn ein ChatGPT-Nutzer eine konkrete URL anfragt oder einen Link postet.

    Details
    UA-Token
    ChatGPT-User
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ChatGPT-User/1.0; +https://openai.com/bot)
    Verifikation
    IP-Range publiziert
    Doku
    https://platform.openai.com/docs/bots
  • OAI-SearchBot

    OpenAI AI / LLM Empfohlen erlauben

    Speist die OpenAI-Suche und Citations in ChatGPT.

    Details
    UA-Token
    OAI-SearchBot
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)
    Verifikation
    IP-Range publiziert
    Doku
    https://platform.openai.com/docs/bots
  • ClaudeBot

    Anthropic AI / LLM Bewusst entscheiden

    Crawlt Inhalte für das Training der Claude-Modelle.

    Details
    UA-Token
    ClaudeBot
    UA-Beispiel
    Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
    Verifikation
    siehe support.anthropic.com
    Doku
    https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
  • Claude-User

    Anthropic AI / LLM Empfohlen erlauben

    Live-Fetch wenn Claude eine URL für einen Nutzer abruft.

    Details
    UA-Token
    Claude-User
    UA-Beispiel
    Mozilla/5.0 (compatible; Claude-User/1.0; +Claude-User@anthropic.com)
    Verifikation
    siehe Anthropic-Doku
    Doku
    https://support.anthropic.com/en/articles/8896518
  • Claude-SearchBot

    Anthropic AI / LLM Empfohlen erlauben

    Crawlt für Claude-Suchergebnisse und Web-Citations.

    Details
    UA-Token
    Claude-SearchBot
    UA-Beispiel
    Mozilla/5.0 (compatible; Claude-SearchBot/1.0)
    Verifikation
    siehe Anthropic-Doku
    Doku
    https://support.anthropic.com/en/articles/8896518
  • PerplexityBot

    Perplexity AI / LLM Empfohlen erlauben

    Speist den Perplexity-Index für die AI-Suche.

    Details
    UA-Token
    PerplexityBot
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
    Verifikation
    IP-Range publiziert
    Doku
    https://docs.perplexity.ai/guides/bots
  • Perplexity-User

    Perplexity AI / LLM Empfohlen erlauben

    Live-Fetch für Perplexity-Anfragen. Respektiert robots.txt nicht.

    Details
    UA-Token
    Perplexity-User
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
    Verifikation
    IP-Range publiziert; ignoriert robots.txt (User-getriggert)
    Doku
    https://docs.perplexity.ai/guides/bots
  • CCBot

    Common Crawl AI / LLM Bewusst entscheiden

    Open-Web-Crawl, dient als Trainings-Quelle vieler LLMs (GPT, Llama und andere).

    Details
    UA-Token
    CCBot
    UA-Beispiel
    CCBot/2.0 (https://commoncrawl.org/faq/)
    Verifikation
    UA-basiert; AWS-IPs
    Doku
    https://commoncrawl.org/ccbot
  • Bytespider

    ByteDance AI / LLM Bewusst entscheiden

    ByteDance-, TikTok- und Doubao-LLM-Training. Berüchtigt für aggressives Crawling.

    Details
    UA-Token
    Bytespider
    UA-Beispiel
    Mozilla/5.0 (compatible; Bytespider; spider-feedback@bytedance.com)
    Verifikation
    UA-basiert
    Doku
    https://bytedance.com/contact
  • meta-externalagent

    Meta AI / LLM Bewusst entscheiden

    Meta-AI-Training (Llama-Modelle).

    Details
    UA-Token
    meta-externalagent
    UA-Beispiel
    meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
    Verifikation
    UA-basiert
    Doku
    https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
  • Amazonbot

    Amazon AI / LLM Bewusst entscheiden

    Alexa und Amazon-LLM-Training.

    Details
    UA-Token
    Amazonbot
    UA-Beispiel
    Mozilla/5.0 (Linux; ; ) AppleWebKit/ (KHTML, like Gecko) Mobile Safari Amazonbot/0.1
    Verifikation
    UA-basiert
    Doku
    https://developer.amazon.com/amazonbot
  • cohere-ai

    Cohere AI / LLM Bewusst entscheiden

    Cohere-LLM-Training für Enterprise-Modelle.

    Details
    UA-Token
    cohere-ai
    UA-Beispiel
    cohere-ai
    Verifikation
    UA-basiert
    Doku
    https://cohere.com/legal
  • Diffbot

    Diffbot AI / LLM Bewusst entscheiden

    Strukturierte-Daten-Extraktion für den Diffbot Knowledge Graph.

    Details
    UA-Token
    Diffbot
    UA-Beispiel
    Mozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com)
    Verifikation
    UA-basiert
    Doku
    https://docs.diffbot.com/docs
  • MistralAI-User

    Mistral AI / LLM Empfohlen erlauben

    Live-Fetch für Le Chat (Mistral) wenn ein Nutzer eine URL anfragt.

    Details
    UA-Token
    MistralAI-User
    UA-Beispiel
    MistralAI-User/1.0
    Verifikation
    UA-basiert
    Doku
    https://docs.mistral.ai

RFC 9309

Wie robots.txt funktioniert.

Die robots.txt liegt im Root jeder Domain. Standardisiert seit September 2022 in RFC 9309. Auswertung in den Crawlern der großen Suchmaschinen ist heute präzise und reproduzierbar.

Aufbau

Pro Gruppe eine oder mehrere User-agent:-Zeilen, dann Allow:, Disallow:, optional Crawl-delay:. Gruppe endet mit der nächsten User-agent-Zeile.

/robots.txt
# Beispiel mit drei Gruppen User-agent: Googlebot Disallow: /search Allow: /search/about User-agent: GPTBot Disallow: / User-agent: * Disallow: /admin Disallow: /api/private Crawl-delay: 5 Sitemap: https://example.com/sitemap.xml

Spezifitäts-Regel

Findet ein Bot mehrere passende Gruppen, gilt der längste Token-Match. Googlebot-Image sieht Googlebot und Googlebot-Image, befolgt nur die letztere. Die User-agent: *-Gruppe gilt nur für Bots OHNE eigene namentliche Gruppe.

Wildcards

  • * matcht beliebig viele Zeichen. Disallow: /*.pdf blockt alle PDFs.
  • $ verankert Pfad-Ende. Disallow: /tmp$ blockt nur /tmp, nicht /tmp/foo.
  • Längste passende Regel gewinnt. Allow: /api/public sticht Disallow: /api.
  • Bei gleicher Länge gewinnt Allow vor Disallow (Konvention RFC 9309).

Crawl-Delay

Nicht in RFC 9309, aber von Bing, Yandex, Baidu und vielen kleineren respektiert. Wartezeit in Sekunden. Google ignoriert es bewusst und nutzt die Search Console.

Sitemap

Sitemap:-Zeilen außerhalb der Gruppen. Absolute URLs zu XML-Sitemaps. Crawler nutzen sie als zusätzlichen Hinweis.

06 / Strategie

Welche Bots blocken?

Keine pauschale Antwort. Die richtige Auswahl hängt von deinem Geschäftsmodell ab. Sechs Site-Typen, sechs Strategien.

Content / Magazin

Suche immer erlauben (Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot). AI-Training individuell: wer nicht in LLM-Korpora landen will, blockt GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended.

E-Commerce

Suchmaschinen alle, plus Social (LinkedInBot, Twitterbot, facebookexternalhit, WhatsApp, Pinterestbot). AdsBot-Google MUSS rein, sonst werden Landing-Pages "Slow" markiert. AI-Training defensiv blocken.

SaaS-Marketing

Alles, was Sichtbarkeit bringt: Suche, Social, AI-Search-Bots. AI-Training Geschmackssache. Wenn Marketing-Texte sowieso öffentlich repliziert werden dürfen: erlauben.

Dokumentation

Strategie umgekehrt: AI-Training EXPLIZIT erlauben, denn jeder Entwickler mit LLM-Assistant profitiert davon, wenn deine Doku im Korpus ist. Treibt Adoption.

Privater Blog

Default ist "alles offen" und meist richtig. Eine robots.txt mit nur Sitemap-Verweis hilft Suchmaschinen mehr als alle Block-Listen.

News / Verlag

Googlebot-News explizit erlauben. AI-Training politisch: viele Verlage blocken pauschal, verhandeln eigene Lizenzdeals (NYT, Springer, FT). ChatGPT-User und Claude-User trotzdem zulassen.

Grenzen

Was robots.txt nicht kann.

Eine Bitte, kein Zaun

Freiwillige Empfehlung. Böse Bots, Scraper, Wettbewerbs-Späher und Security-Scanner ignorieren sie. Wer hart blocken will, braucht Webserver-seitige UA-Filter, IP-Blocklisten, Rate-Limiting, fail2ban, WAFs (CrowdSec, ModSecurity).

Verhindert keine Indexierung

Per Disallow: blockierte URL kann trotzdem in den Suchergebnissen auftauchen, wenn andere Sites darauf verlinken. Google zeigt dann nur die URL ohne Snippet. Wer Indexierung verhindern will: <meta name="robots" content="noindex"> oder X-Robots-Tag-Header. WICHTIG: damit das Tag gelesen werden kann, darf die URL NICHT per robots.txt blockiert sein.

Schützt keine sensiblen Daten

Was in der robots.txt steht, ist öffentlich. Pfade, die du dort als Disallow: aufnimmst, gibst du jedem zur Lektüre frei. Sensible Pfade gehören NICHT in die robots.txt, sondern hinter Authentifizierung.

UA-Spoofing umgeht alles

Jeder Crawler kann seinen User-Agent frei wählen. Schutz nur per Reverse-DNS-Lookup auf die Owner-Domain (googlebot.com, search.msn.com, applebot.apple.com) oder via publizierte IP-Range-Listen.

07 / FAQ

Häufige Fragen.

Halten sich alle Bots an robots.txt?
Nein. robots.txt ist eine freiwillige Empfehlung. Große Anbieter (Google, Bing, OpenAI, Anthropic) respektieren sie. Aber: Perplexity-User ignoriert sie bewusst, Bytespider war 2023/2024 dafür berüchtigt, viele Scraper bauen sich eigene UAs oder spoofen Googlebot. Wer wirklich blocken will, braucht Webserver-seitige UA- oder IP-Filter.
Wenn ich Googlebot blockiere, falle ich aus dem Index?
Ja, schrittweise. Google entfernt URLs, die per robots.txt geblockt sind, aus dem Live-Index. Bestätigt im Search Console Bericht "Indexabdeckung". Versehentliche Disallow: /-Zeile für Googlebot ist eine der häufigsten Ursachen für Sichtbarkeitsverluste nach Relaunches.
Unterschied GPTBot vs ChatGPT-User?
GPTBot crawlt für das Training neuer Modelle. Block verhindert Aufnahme in den Trainings-Korpus. ChatGPT-User holt eine URL nur, wenn ein Nutzer in ChatGPT explizit nach ihr fragt. Den zu blocken ist meist schädlich, weil dann keine Zusammenfassung möglich ist.
AhrefsBot oder SemrushBot blockieren?
Kommt drauf an. Wenn du Ahrefs- oder Semrush-Kunde bist, lass beide drauf (du willst Konkurrenz-Daten). Wenn du verhindern willst, dass die Konkurrenz dein Backlink-Profil analysiert, blockst du beide. Faustregel: kleine Sites profitieren vom Blocken, große mit aktivem Off-Page-Tracking nicht.
Welche Bots sind gefährlich?
Im Sinne von Sicherheit: keine. Bots scrapen Inhalte und Header, sie greifen nichts an. Lästig sind aggressiv crawlende wie BLEXBot, MJ12bot, MegaIndex. Security-Scanner (Censys, Shodan) listen offene Services öffentlich auf, was Recon erleichtert.
Was bedeutet User-agent: *?
Catch-All-Gruppe für Bots, die keine eigene namentliche Gruppe haben. Wichtig: ein Bot mit eigener Gruppe (z.B. User-agent: GPTBot) IGNORIERT die *-Gruppe komplett. Spezifitäts-Regel: längster passender User-Agent-Token gewinnt.
Wie blockiere ich Bots, die robots.txt ignorieren?
Auf Webserver-Ebene über User-Agent-Header. Nginx: if ($http_user_agent ~* (PerplexityBot|Bytespider|CCBot)) { return 444; } - 444 schließt die Verbindung ohne Antwort. Bei UA-Spoofing brauchst du IP-Blocks oder rDNS-Prüfung gegen die Owner-Domain.
Google-Extended und Applebot-Extended blocken?
Das sind keine Crawler, sondern Steuer-Tokens. Google-Extended steuert Nutzung für Gemini-/Vertex-AI-Training. Applebot-Extended das Gleiche für Apple Intelligence. Wer gegen LLM-Training ist, aber in der Suche bleiben will, blockt diese beiden und lässt Googlebot bzw. Applebot offen.
Suche erlauben, AI-Training verbieten?
Block: GPTBot, ClaudeBot, CCBot, Bytespider, meta-externalagent, Amazonbot, Google-Extended, Applebot-Extended, cohere-ai. Erlaubt: Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User, Mistral-User, Applebot. Mit "Alle AI-Trainer" im Generator in zwei Klicks.
Was passiert ohne robots.txt?
Alle Bots dürfen alles. Fehlende Datei wird als implizites "voller Zugriff erlaubt" interpretiert. Status 404/410 auf /robots.txt genauso. SEO-seitig ist eine vorhandene robots.txt - selbst nur mit Sitemap-Verweis - immer besser als keine.