60 Crawler / 7 Kategorien

Wer crawlt das Web. Wer bleibt draußen.

Datenbank aller relevanten Crawler: Suche, AI/LLM, SEO, Social, Archive, Monitoring, Security. Pro Bot UA-Token, Verifikation, Doku-Link. Plus Generator: ankreuzen, Modus wählen, robots.txt kopieren.

Alle 60 Suchmaschinen 13 AI / LLM 17 SEO-Tools 10 Social / Messenger 11 Archive 1 Monitoring 3 Security-Scanner 5

Quick

Googlebot
Google Suchmaschinen Empfohlen erlauben

Indexierung für die Google-Websuche, der mit Abstand wichtigste Crawler im Web.

Details

UA-Token
Googlebot

UA-Beispiel
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Verifikation
rDNS auf googlebot.com / google.com (forward + reverse)

Doku
https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
Googlebot-Image
Google Suchmaschinen Empfohlen erlauben

Indexiert Bilder für die Google-Bildersuche.

Details

UA-Token
Googlebot-Image

UA-Beispiel
Googlebot-Image/1.0

Verifikation
rDNS auf googlebot.com

Doku
https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
Googlebot-News
Google Suchmaschinen Empfohlen erlauben

Speist Google News mit aktuellen Artikeln.

Details

UA-Token
Googlebot-News

UA-Beispiel
(nutzt Googlebot-UA, signalisiert nur per UA-Token)

Verifikation
rDNS auf googlebot.com

Doku
https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
Google-Extended
Google AI / LLM Bewusst entscheiden

Steuert die Nutzung von Inhalten für Gemini- und Vertex-AI-Training, ohne die Suche zu beeinflussen.

Details

UA-Token
Google-Extended

UA-Beispiel
(kein eigener UA, nur Steuer-Token)

Verifikation
kein eigener Crawler, separates robots-Token

Doku
https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#google-extended
AdsBot-Google
Google Suchmaschinen Empfohlen erlauben

Prüft Landing-Page-Qualität für Google Ads. Blocken bedeutet schlechtere Anzeigen-Bewertung.

Details

UA-Token
AdsBot-Google

UA-Beispiel
AdsBot-Google (+http://www.google.com/adsbot.html)

Verifikation
rDNS auf googlebot.com

Doku
https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
Mediapartners-Google
Google Suchmaschinen Empfohlen erlauben

AdSense-Crawler zur Anzeigen-Auswahl. Nur relevant für Sites mit AdSense.

Details

UA-Token
Mediapartners-Google

UA-Beispiel
Mediapartners-Google

Verifikation
rDNS auf googlebot.com

Doku
https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
Bingbot
Microsoft Suchmaschinen Empfohlen erlauben

Bing-Suche, speist auch Microsoft Copilot mit Suchergebnissen.

Details

UA-Token
bingbot

UA-Beispiel
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Verifikation
rDNS auf search.msn.com

Doku
https://www.bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0
DuckDuckBot
DuckDuckGo Suchmaschinen Empfohlen erlauben

Eigener DDG-Crawler zusätzlich zur Bing-Quelle.

Details

UA-Token
DuckDuckBot

UA-Beispiel
DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckbot.html)

Verifikation
IP-Liste publiziert

Doku
https://duckduckgo.com/duckduckgo-help-pages/results/duckduckbot/
YandexBot
Yandex Suchmaschinen Je nach Markt

Russische Suchmaschine mit Marktdominanz in Russland und Teilen Osteuropas.

Details

UA-Token
YandexBot

UA-Beispiel
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Verifikation
rDNS auf yandex.ru / yandex.net / yandex.com

Doku
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html
Baiduspider
Baidu Suchmaschinen Je nach Markt

Chinesische Suchmaschine, in China dominant.

Details

UA-Token
Baiduspider

UA-Beispiel
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Verifikation
rDNS auf baidu.com / baidu.jp

Doku
https://help.baidu.com/question?prod_id=99&class=476&id=3001
Applebot
Apple Suchmaschinen Empfohlen erlauben

Spotlight, Siri und Safari-Vorschläge.

Details

UA-Token
Applebot

UA-Beispiel
Mozilla/5.0 (Device; OS X) AppleWebKit (KHTML, like Gecko) Version Safari Applebot/0.1

Verifikation
rDNS auf applebot.apple.com

Doku
https://support.apple.com/en-us/119829
Applebot-Extended
Apple AI / LLM Bewusst entscheiden

Steuert die Nutzung von Inhalten für Apple-Intelligence-Training. Suche bleibt bei Block weiter aktiv.

Details

UA-Token
Applebot-Extended

UA-Beispiel
(kein eigener UA, nur Steuer-Token)

Verifikation
kein eigener Crawler, separates robots-Token

Doku
https://support.apple.com/en-us/119829
Sogou web spider
Sogou Suchmaschinen Je nach Markt

Chinesische Suchmaschine, zweitgrößter Player nach Baidu.

Details

UA-Token
Sogou web spider

UA-Beispiel
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Verifikation
UA-basiert

Doku
https://www.sogou.com/docs/help/webmasters.htm
Yeti (Naver)
Naver Suchmaschinen Je nach Markt

Koreanische Suchmaschine, in Südkorea Marktführer.

Details

UA-Token
Yeti

UA-Beispiel
Mozilla/5.0 (compatible; Yeti/1.1; +https://naver.me/spd)

Verifikation
rDNS auf naver.com

Doku
https://searchadvisor.naver.com/guide/seo-basic-firewall
SeznamBot
Seznam.cz Suchmaschinen Je nach Markt

Tschechische Suchmaschine mit nennenswertem Marktanteil in Tschechien.

Details

UA-Token
SeznamBot

UA-Beispiel
Mozilla/5.0 (compatible; SeznamBot/4.0; +http://napoveda.seznam.cz/seznambot-intro/)

Verifikation
IP-Range publiziert

Doku
https://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/seznambot/
GPTBot
OpenAI AI / LLM Bewusst entscheiden

Crawlt Inhalte für das Training neuer OpenAI-Modelle. Block verhindert Aufnahme in den Trainings-Korpus.

Details

UA-Token
GPTBot

UA-Beispiel
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

Verifikation
IP-Range unter platform.openai.com publiziert

Doku
https://platform.openai.com/docs/bots
ChatGPT-User
OpenAI AI / LLM Empfohlen erlauben

Live-Fetch wenn ein ChatGPT-Nutzer eine konkrete URL anfragt oder einen Link postet.

Details

UA-Token
ChatGPT-User

UA-Beispiel
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ChatGPT-User/1.0; +https://openai.com/bot)

Verifikation
IP-Range publiziert

Doku
https://platform.openai.com/docs/bots
OAI-SearchBot
OpenAI AI / LLM Empfohlen erlauben

Speist die OpenAI-Suche und Citations in ChatGPT.

Details

UA-Token
OAI-SearchBot

UA-Beispiel
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)

Verifikation
IP-Range publiziert

Doku
https://platform.openai.com/docs/bots
ClaudeBot
Anthropic AI / LLM Bewusst entscheiden

Crawlt Inhalte für das Training der Claude-Modelle.

Details

UA-Token
ClaudeBot

UA-Beispiel
Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)

Verifikation
siehe support.anthropic.com

Doku
https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
Claude-User
Anthropic AI / LLM Empfohlen erlauben

Live-Fetch wenn Claude eine URL für einen Nutzer abruft.

Details

UA-Token
Claude-User

UA-Beispiel
Mozilla/5.0 (compatible; Claude-User/1.0; +Claude-User@anthropic.com)

Verifikation
siehe Anthropic-Doku

Doku
https://support.anthropic.com/en/articles/8896518
Claude-SearchBot
Anthropic AI / LLM Empfohlen erlauben

Crawlt für Claude-Suchergebnisse und Web-Citations.

Details

UA-Token
Claude-SearchBot

UA-Beispiel
Mozilla/5.0 (compatible; Claude-SearchBot/1.0)

Verifikation
siehe Anthropic-Doku

Doku
https://support.anthropic.com/en/articles/8896518
PerplexityBot
Perplexity AI / LLM Empfohlen erlauben

Speist den Perplexity-Index für die AI-Suche.

Details

UA-Token
PerplexityBot

UA-Beispiel
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Verifikation
IP-Range publiziert

Doku
https://docs.perplexity.ai/guides/bots
Perplexity-User
Perplexity AI / LLM Empfohlen erlauben

Live-Fetch für Perplexity-Anfragen. Respektiert robots.txt nicht.

Details

UA-Token
Perplexity-User

UA-Beispiel
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)

Verifikation
IP-Range publiziert; ignoriert robots.txt (User-getriggert)

Doku
https://docs.perplexity.ai/guides/bots
CCBot
Common Crawl AI / LLM Bewusst entscheiden

Open-Web-Crawl, dient als Trainings-Quelle vieler LLMs (GPT, Llama und andere).

Details

UA-Token
CCBot

UA-Beispiel
CCBot/2.0 (https://commoncrawl.org/faq/)

Verifikation
UA-basiert; AWS-IPs

Doku
https://commoncrawl.org/ccbot
Bytespider
ByteDance AI / LLM Bewusst entscheiden

ByteDance-, TikTok- und Doubao-LLM-Training. Berüchtigt für aggressives Crawling.

Details

UA-Token
Bytespider

UA-Beispiel
Mozilla/5.0 (compatible; Bytespider; spider-feedback@bytedance.com)

Verifikation
UA-basiert

Doku
https://bytedance.com/contact
meta-externalagent
Meta AI / LLM Bewusst entscheiden

Meta-AI-Training (Llama-Modelle).

Details

UA-Token
meta-externalagent

UA-Beispiel
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)

Verifikation
UA-basiert

Doku
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
Amazonbot
Amazon AI / LLM Bewusst entscheiden

Alexa und Amazon-LLM-Training.

Details

UA-Token
Amazonbot

UA-Beispiel
Mozilla/5.0 (Linux; ; ) AppleWebKit/ (KHTML, like Gecko) Mobile Safari Amazonbot/0.1

Verifikation
UA-basiert

Doku
https://developer.amazon.com/amazonbot
cohere-ai
Cohere AI / LLM Bewusst entscheiden

Cohere-LLM-Training für Enterprise-Modelle.

Details

UA-Token
cohere-ai

UA-Beispiel
cohere-ai

Verifikation
UA-basiert

Doku
https://cohere.com/legal
Diffbot
Diffbot AI / LLM Bewusst entscheiden

Strukturierte-Daten-Extraktion für den Diffbot Knowledge Graph.

Details

UA-Token
Diffbot

UA-Beispiel
Mozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com)

Verifikation
UA-basiert

Doku
https://docs.diffbot.com/docs
MistralAI-User
Mistral AI / LLM Empfohlen erlauben

Live-Fetch für Le Chat (Mistral) wenn ein Nutzer eine URL anfragt.

Details

UA-Token
MistralAI-User

UA-Beispiel
MistralAI-User/1.0

Verifikation
UA-basiert

Doku
https://docs.mistral.ai
AhrefsBot
Ahrefs SEO-Tools Bewusst entscheiden

Backlink-Index für Ahrefs-Kunden. Block schützt vor Konkurrenz-Recherche.

Details

UA-Token
AhrefsBot

UA-Beispiel
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

Verifikation
rDNS auf ahrefs.com / ahrefs.net

Doku
https://ahrefs.com/robot
AhrefsSiteAudit
Ahrefs SEO-Tools Empfohlen erlauben

Eigene Site-Audits durch Ahrefs-Kunden auf der eigenen Domain.

Details

UA-Token
AhrefsSiteAudit

UA-Beispiel
Mozilla/5.0 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

Verifikation
rDNS auf ahrefs.com

Doku
https://ahrefs.com/robot
SemrushBot
Semrush SEO-Tools Bewusst entscheiden

Backlink- und SERP-Index für Semrush-Kunden.

Details

UA-Token
SemrushBot

UA-Beispiel
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

Verifikation
IP-Range publiziert

Doku
https://www.semrush.com/bot/
MJ12bot (Majestic)
Majestic SEO-Tools Bewusst entscheiden

Majestic-Backlink-Index. Distributed Crawling.

Details

UA-Token
MJ12bot

UA-Beispiel
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)

Verifikation
UA-basiert

Doku
https://mj12bot.com/
DotBot (Moz)
Moz SEO-Tools Bewusst entscheiden

Moz-Link-Index für die Domain Authority und Link Explorer.

Details

UA-Token
DotBot

UA-Beispiel
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot;)

Verifikation
UA-basiert

Doku
https://moz.com/help/moz-procedures/crawlers/dotbot
rogerbot (Moz)
Moz SEO-Tools Empfohlen erlauben

Moz-Pro-Site-Audit-Crawler für die eigene Site.

Details

UA-Token
rogerbot

UA-Beispiel
rogerbot/1.2 (http://moz.com/help/pro/what-is-rogerbot-, rogerbot-crawler+pp@moz.com)

Verifikation
UA-basiert

Doku
https://moz.com/help/moz-procedures/crawlers/rogerbot
BLEXBot (WebMeUp)
WebMeUp SEO-Tools Bewusst entscheiden

Backlink-Index. Häufig sehr aggressiv im Crawl-Verhalten.

Details

UA-Token
BLEXBot

UA-Beispiel
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

Verifikation
UA-basiert

Doku
http://webmeup-crawler.com/
DataForSeoBot
DataForSEO SEO-Tools Bewusst entscheiden

SERP- und Backlink-Daten als API für Reseller und Tools.

Details

UA-Token
DataForSeoBot

UA-Beispiel
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

Verifikation
UA-basiert

Doku
https://dataforseo.com/dataforseo-bot
Screaming Frog SEO Spider
Screaming Frog SEO-Tools Empfohlen erlauben

Desktop-SEO-Crawler. Kann jede beliebige UA spoofen.

Details

UA-Token
Screaming Frog SEO Spider

UA-Beispiel
Screaming Frog SEO Spider/19.0

Verifikation
Desktop-Tool, beliebige IP

Doku
https://www.screamingfrog.co.uk/seo-spider/
Sitebulb
Sitebulb SEO-Tools Empfohlen erlauben

Desktop-SEO-Audit-Tool.

Details

UA-Token
Sitebulb

UA-Beispiel
Mozilla/5.0 (compatible; Sitebulb/...)

Verifikation
Desktop-Tool

Doku
https://sitebulb.com/
facebookexternalhit
Meta Social / Messenger Empfohlen erlauben

Holt Open-Graph-Tags für Facebook- und Instagram-Link-Vorschauen.

Details

UA-Token
facebookexternalhit

UA-Beispiel
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

Verifikation
IP-Liste publiziert

Doku
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
meta-externalfetcher
Meta Social / Messenger Empfohlen erlauben

On-demand Fetch innerhalb der Meta-AI-Produkte.

Details

UA-Token
meta-externalfetcher

UA-Beispiel
meta-externalfetcher/1.1

Verifikation
UA-basiert

Doku
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
Twitterbot
X (Twitter) Social / Messenger Empfohlen erlauben

Holt Twitter-Card- und OG-Tags für die X-Vorschau in Tweets.

Details

UA-Token
Twitterbot

UA-Beispiel
Twitterbot/1.0

Verifikation
UA-basiert

Doku
https://developer.twitter.com/en/docs/twitter-for-websites/cards/guides/getting-started
LinkedInBot
LinkedIn Social / Messenger Empfohlen erlauben

Link-Vorschau in LinkedIn-Posts.

Details

UA-Token
LinkedInBot

UA-Beispiel
LinkedInBot/1.0 (compatible; Mozilla/5.0; Apache-HttpClient +http://www.linkedin.com)

Verifikation
UA-basiert

Doku
https://www.linkedin.com/help/linkedin/answer/a519723
Slackbot-LinkExpanding
Slack Social / Messenger Empfohlen erlauben

Slack-Link-Unfurling, holt OG-Tags zur Vorschau.

Details

UA-Token
Slackbot-LinkExpanding

UA-Beispiel
Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots)

Verifikation
UA-basiert

Doku
https://api.slack.com/robots
Discordbot
Discord Social / Messenger Empfohlen erlauben

Discord-Link-Embeds in Channels und DMs.

Details

UA-Token
Discordbot

UA-Beispiel
Mozilla/5.0 (compatible; Discordbot/2.0; +https://discordapp.com)

Verifikation
UA-basiert

Doku
https://discord.com/developers/docs/reference#user-agent
TelegramBot
Telegram Social / Messenger Empfohlen erlauben

Link-Preview in Telegram-Chats.

Details

UA-Token
TelegramBot

UA-Beispiel
TelegramBot (like TwitterBot)

Verifikation
UA-basiert

Doku
https://core.telegram.org/
WhatsApp
Meta Social / Messenger Empfohlen erlauben

Link-Preview in WhatsApp-Chats.

Details

UA-Token
WhatsApp

UA-Beispiel
WhatsApp/2.x

Verifikation
UA-basiert

Doku
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
Pinterestbot
Pinterest Social / Messenger Empfohlen erlauben

Pin-Vorschauen und Rich Pins.

Details

UA-Token
Pinterestbot

UA-Beispiel
Mozilla/5.0 (compatible; Pinterestbot/1.0; +http://www.pinterest.com/bot.html)

Verifikation
UA-basiert

Doku
https://help.pinterest.com/en/business/article/pinterest-crawler
Reddit Bot
Reddit Social / Messenger Empfohlen erlauben

Link-Vorschau in Reddit-Submissions.

Details

UA-Token
Reddit

UA-Beispiel
Mozilla/5.0 (compatible; redditbot/1.0; +http://www.reddit.com/feedback)

Verifikation
UA-basiert

Doku
https://www.redditinc.com/policies/
TikTokSpider
ByteDance Social / Messenger Empfohlen erlauben

Link-Vorschau in TikTok-Posts.

Details

UA-Token
TikTokSpider

UA-Beispiel
TikTokSpider

Verifikation
UA-basiert

Doku
https://www.tiktok.com/
archive.org_bot
Internet Archive Archive Empfohlen erlauben

Wayback-Machine-Crawler für Web-Archivierung.

Details

UA-Token
archive.org_bot

UA-Beispiel
Mozilla/5.0 (compatible; archive.org_bot +http://archive.org/details/archive.org_bot)

Verifikation
IP-Range publiziert

Doku
https://archive.org/details/archive.org_bot
UptimeRobot
UptimeRobot Monitoring Empfohlen erlauben

Verfügbarkeits-Monitoring durch eigene Konten der Site-Betreiber.

Details

UA-Token
UptimeRobot

UA-Beispiel
Mozilla/5.0 (compatible; UptimeRobot/2.0; http://www.uptimerobot.com/)

Verifikation
IP-Liste publiziert

Doku
https://uptimerobot.com/
Pingdom
SolarWinds Monitoring Empfohlen erlauben

Uptime- und Performance-Monitoring von Pingdom-Kunden.

Details

UA-Token
Pingdom

UA-Beispiel
Pingdom.com_bot_version_x.x_(http://www.pingdom.com/)

Verifikation
IP-Liste publiziert

Doku
https://www.pingdom.com/
StatusCake
StatusCake Monitoring Empfohlen erlauben

Verfügbarkeits-Monitoring von StatusCake-Kunden.

Details

UA-Token
StatusCake

UA-Beispiel
StatusCake (https://www.statuscake.com)

Verifikation
IP-Liste publiziert

Doku
https://www.statuscake.com/
CensysInspect
Censys Security-Scanner Bewusst entscheiden

Internet-Wide Security-Scanning. Indexiert offene Services für Security-Researcher.

Details

UA-Token
CensysInspect

UA-Beispiel
Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)

Verifikation
IP-Range publiziert

Doku
https://about.censys.io/
Shodan
Shodan Security-Scanner Bewusst entscheiden

Service- und Banner-Indexing für Security-Recherche.

Details

UA-Token
Shodan

UA-Beispiel
Mozilla/5.0 (compatible; +http://www.shodan.io)

Verifikation
IP-Range publiziert

Doku
https://www.shodan.io/
Palo Alto Expanse
Palo Alto Security-Scanner Bewusst entscheiden

Attack-Surface-Mapping für Enterprise-Kunden.

Details

UA-Token
expanse

UA-Beispiel
expanse, a Palo Alto Networks company, searches across the global IPv4 space

Verifikation
IP-Range publiziert

Doku
https://www.paloaltonetworks.com/cortex/cortex-xpanse
l9scan / leakix
LeakIX Security-Scanner Bewusst entscheiden

Vulnerability- und Leak-Indexing für offene Datenbanken und Services.

Details

UA-Token
l9scan

UA-Beispiel
l9scan/2.0.0 (+https://leakix.net)

Verifikation
UA-basiert

Doku
https://leakix.net/
NetcraftSurveyAgent
Netcraft Security-Scanner Empfohlen erlauben

Webserver-Survey, Quelle für Netcraft Security-Reports.

Details

UA-Token
NetcraftSurveyAgent

UA-Beispiel
Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)

Verifikation
UA-basiert

Doku
https://www.netcraft.com/survey/

RFC 9309

Wie robots.txt funktioniert.

Die robots.txt liegt im Root jeder Domain. Standardisiert seit September 2022 in RFC 9309. Auswertung in den Crawlern der großen Suchmaschinen ist heute präzise und reproduzierbar.

Aufbau

Pro Gruppe eine oder mehrere User-agent:-Zeilen, dann Allow:, Disallow:, optional Crawl-delay:. Gruppe endet mit der nächsten User-agent-Zeile.

/robots.txt

# Beispiel mit drei Gruppen User-agent: Googlebot Disallow: /search Allow: /search/about User-agent: GPTBot Disallow: / User-agent: * Disallow: /admin Disallow: /api/private Crawl-delay: 5 Sitemap: https://example.com/sitemap.xml

Spezifitäts-Regel

Findet ein Bot mehrere passende Gruppen, gilt der längste Token-Match. Googlebot-Image sieht Googlebot und Googlebot-Image, befolgt nur die letztere. Die User-agent: *-Gruppe gilt nur für Bots OHNE eigene namentliche Gruppe.

Wildcards

* matcht beliebig viele Zeichen. Disallow: /*.pdf blockt alle PDFs.
$ verankert Pfad-Ende. Disallow: /tmp$ blockt nur /tmp, nicht /tmp/foo.
Längste passende Regel gewinnt. Allow: /api/public sticht Disallow: /api.
Bei gleicher Länge gewinnt Allow vor Disallow (Konvention RFC 9309).

Crawl-Delay

Nicht in RFC 9309, aber von Bing, Yandex, Baidu und vielen kleineren respektiert. Wartezeit in Sekunden. Google ignoriert es bewusst und nutzt die Search Console.

Sitemap

Sitemap:-Zeilen außerhalb der Gruppen. Absolute URLs zu XML-Sitemaps. Crawler nutzen sie als zusätzlichen Hinweis.

06 / Strategie

Welche Bots blocken?

Keine pauschale Antwort. Die richtige Auswahl hängt von deinem Geschäftsmodell ab. Sechs Site-Typen, sechs Strategien.

Content / Magazin

Suche immer erlauben (Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot). AI-Training individuell: wer nicht in LLM-Korpora landen will, blockt GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended.

E-Commerce

Suchmaschinen alle, plus Social (LinkedInBot, Twitterbot, facebookexternalhit, WhatsApp, Pinterestbot). AdsBot-Google MUSS rein, sonst werden Landing-Pages "Slow" markiert. AI-Training defensiv blocken.

SaaS-Marketing

Alles, was Sichtbarkeit bringt: Suche, Social, AI-Search-Bots. AI-Training Geschmackssache. Wenn Marketing-Texte sowieso öffentlich repliziert werden dürfen: erlauben.

Dokumentation

Strategie umgekehrt: AI-Training EXPLIZIT erlauben, denn jeder Entwickler mit LLM-Assistant profitiert davon, wenn deine Doku im Korpus ist. Treibt Adoption.

Privater Blog

Default ist "alles offen" und meist richtig. Eine robots.txt mit nur Sitemap-Verweis hilft Suchmaschinen mehr als alle Block-Listen.

News / Verlag

Googlebot-News explizit erlauben. AI-Training politisch: viele Verlage blocken pauschal, verhandeln eigene Lizenzdeals (NYT, Springer, FT). ChatGPT-User und Claude-User trotzdem zulassen.

Grenzen

Was robots.txt nicht kann.

Eine Bitte, kein Zaun

Freiwillige Empfehlung. Böse Bots, Scraper, Wettbewerbs-Späher und Security-Scanner ignorieren sie. Wer hart blocken will, braucht Webserver-seitige UA-Filter, IP-Blocklisten, Rate-Limiting, fail2ban, WAFs (CrowdSec, ModSecurity).

Verhindert keine Indexierung

Per Disallow: blockierte URL kann trotzdem in den Suchergebnissen auftauchen, wenn andere Sites darauf verlinken. Google zeigt dann nur die URL ohne Snippet. Wer Indexierung verhindern will: <meta name="robots" content="noindex"> oder X-Robots-Tag-Header. WICHTIG: damit das Tag gelesen werden kann, darf die URL NICHT per robots.txt blockiert sein.

Schützt keine sensiblen Daten

Was in der robots.txt steht, ist öffentlich. Pfade, die du dort als Disallow: aufnimmst, gibst du jedem zur Lektüre frei. Sensible Pfade gehören NICHT in die robots.txt, sondern hinter Authentifizierung.

UA-Spoofing umgeht alles

Jeder Crawler kann seinen User-Agent frei wählen. Schutz nur per Reverse-DNS-Lookup auf die Owner-Domain (googlebot.com, search.msn.com, applebot.apple.com) oder via publizierte IP-Range-Listen.

07 / FAQ

Häufige Fragen.

Halten sich alle Bots an robots.txt?

Nein. robots.txt ist eine freiwillige Empfehlung. Große Anbieter (Google, Bing, OpenAI, Anthropic) respektieren sie. Aber: Perplexity-User ignoriert sie bewusst, Bytespider war 2023/2024 dafür berüchtigt, viele Scraper bauen sich eigene UAs oder spoofen Googlebot. Wer wirklich blocken will, braucht Webserver-seitige UA- oder IP-Filter.

Wenn ich Googlebot blockiere, falle ich aus dem Index?

Ja, schrittweise. Google entfernt URLs, die per robots.txt geblockt sind, aus dem Live-Index. Bestätigt im Search Console Bericht "Indexabdeckung". Versehentliche Disallow: /-Zeile für Googlebot ist eine der häufigsten Ursachen für Sichtbarkeitsverluste nach Relaunches.

Unterschied GPTBot vs ChatGPT-User?

GPTBot crawlt für das Training neuer Modelle. Block verhindert Aufnahme in den Trainings-Korpus. ChatGPT-User holt eine URL nur, wenn ein Nutzer in ChatGPT explizit nach ihr fragt. Den zu blocken ist meist schädlich, weil dann keine Zusammenfassung möglich ist.

AhrefsBot oder SemrushBot blockieren?

Kommt drauf an. Wenn du Ahrefs- oder Semrush-Kunde bist, lass beide drauf (du willst Konkurrenz-Daten). Wenn du verhindern willst, dass die Konkurrenz dein Backlink-Profil analysiert, blockst du beide. Faustregel: kleine Sites profitieren vom Blocken, große mit aktivem Off-Page-Tracking nicht.

Welche Bots sind gefährlich?

Im Sinne von Sicherheit: keine. Bots scrapen Inhalte und Header, sie greifen nichts an. Lästig sind aggressiv crawlende wie BLEXBot, MJ12bot, MegaIndex. Security-Scanner (Censys, Shodan) listen offene Services öffentlich auf, was Recon erleichtert.

Was bedeutet User-agent: *?

Catch-All-Gruppe für Bots, die keine eigene namentliche Gruppe haben. Wichtig: ein Bot mit eigener Gruppe (z.B. User-agent: GPTBot) IGNORIERT die *-Gruppe komplett. Spezifitäts-Regel: längster passender User-Agent-Token gewinnt.

Wie blockiere ich Bots, die robots.txt ignorieren?

Auf Webserver-Ebene über User-Agent-Header. Nginx: if ($http_user_agent ~* (PerplexityBot|Bytespider|CCBot)) { return 444; } - 444 schließt die Verbindung ohne Antwort. Bei UA-Spoofing brauchst du IP-Blocks oder rDNS-Prüfung gegen die Owner-Domain.

Google-Extended und Applebot-Extended blocken?

Das sind keine Crawler, sondern Steuer-Tokens. Google-Extended steuert Nutzung für Gemini-/Vertex-AI-Training. Applebot-Extended das Gleiche für Apple Intelligence. Wer gegen LLM-Training ist, aber in der Suche bleiben will, blockt diese beiden und lässt Googlebot bzw. Applebot offen.

Suche erlauben, AI-Training verbieten?

Block: GPTBot, ClaudeBot, CCBot, Bytespider, meta-externalagent, Amazonbot, Google-Extended, Applebot-Extended, cohere-ai. Erlaubt: Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User, Mistral-User, Applebot. Mit "Alle AI-Trainer" im Generator in zwei Klicks.

Was passiert ohne robots.txt?

Alle Bots dürfen alles. Fehlende Datei wird als implizites "voller Zugriff erlaubt" interpretiert. Status 404/410 auf /robots.txt genauso. SEO-seitig ist eine vorhandene robots.txt - selbst nur mit Sitemap-Verweis - immer besser als keine.

Wer crawlt das Web. Wer bleibt draußen.

Googlebot

Googlebot-Image

Googlebot-News

Google-Extended

AdsBot-Google

Mediapartners-Google

Bingbot

DuckDuckBot

YandexBot

Baiduspider

Applebot

Applebot-Extended

Sogou web spider

Yeti (Naver)

SeznamBot

GPTBot

ChatGPT-User

OAI-SearchBot

ClaudeBot

Claude-User

Claude-SearchBot

PerplexityBot

Perplexity-User

CCBot

Bytespider

meta-externalagent

Amazonbot

cohere-ai

Diffbot

MistralAI-User

AhrefsBot

AhrefsSiteAudit

SemrushBot

MJ12bot (Majestic)

DotBot (Moz)

rogerbot (Moz)

BLEXBot (WebMeUp)

DataForSeoBot

Screaming Frog SEO Spider

Sitebulb

facebookexternalhit

meta-externalfetcher

Twitterbot

LinkedInBot

Slackbot-LinkExpanding

Discordbot

TelegramBot

WhatsApp

Pinterestbot

Reddit Bot

TikTokSpider

archive.org_bot

UptimeRobot

Pingdom

StatusCake

CensysInspect

Shodan

Palo Alto Expanse

l9scan / leakix

NetcraftSurveyAgent