crawlerbase.de / trace Bot-Datenbank

02 / Trace

Jeder Hop. Jeder Header. Jeder Crawler.

trace folgt URLs durch jede Weiterleitung, liest Header pro Hop und wertet robots.txt gegen 56 bekannte Crawler aus. Server-seitig in PHP, kein Login, kein Tracking.

60
Bots Index
10
Hops max
RFC 9309
Standard
0
Tracker
03 / Funktionen

Vier Sichten auf jede URL.

Was du in jedem Trace siehst, ohne Login.

01

Redirect-Chain

Jeder Hop separat: Status, HTTP-Version, TTFB, Total-Time, Response-Size, Server-IP. Location-Header pro Stufe. Loop-Detection. Limit 10 Hops.

02

Header im Klartext

Alle Response-Header pro Hop. Farbcodiert: Security (HSTS, CSP, XFO), Cache (Cache-Control, ETag), Cookie (Set-Cookie + Flags), Meta (Server, Encoding).

03

robots.txt RFC 9309

Pro besuchtem Host: Datei abgerufen, geparst, Regeln nach Spezifität sortiert. Wildcards * und $ korrekt aufgelöst. Sitemap-Verweise extrahiert.

04

Bot-Matrix

60 Crawler in 7 Kategorien gegen den Final-Pfad ausgewertet. Pro Bot: erlaubt oder blockiert, plus die konkrete Regel die das Verdict ausgelöst hat.

04 / Workflow

Vier Schritte, ein Request.

01

Eingabe

URL mit oder ohne Schema. Subdomains, Pfade, Query-Strings erlaubt.

02

SSRF-Check

DNS-Resolve, Public-IP-Check. Private Bereiche werden hart abgelehnt.

03

Trace

CURLOPT_RESOLVE pinned Host und IP. Auto-Redirect aus. Hop für Hop.

04

Bot-Eval

robots.txt pro Host. Final-Pfad gegen 60 bekannte Bots gematcht.

05 / FAQ

Häufige Fragen.

Warum drei Hops, wenn ich nur eine URL eingegeben habe?
Webserver leiten aus vielen Gründen weiter: HTTP zu HTTPS, www zu non-www, Sprachversion, Login-Wall, Mobile-Variante, alte URL auf neue Struktur. Jede Stufe ist ein eigener HTTP-Request mit eigenen Headern und eigener Antwortzeit. trace zeigt jede einzeln. Jeder zusätzliche Hop kostet Ladezeit, Crawl-Budget und Klick-Verluste auf Mobile.
Was ist der Unterschied zwischen 301, 302, 307 und 308?
301 ist permanent. Suchmaschinen ersetzen die alte URL. 302 ist temporär, die alte URL bleibt im Index. 307 ist wie 302, behält aber die HTTP-Methode bei. 308 ist wie 301 mit Methoden-Erhalt. Faustregel: Dauerhafter Umzug nimmt 301 oder 308. Eine 302 dort, wo 301 hingehört, kostet messbar Sichtbarkeit.
Was kann das Tool, was curl -L -v nicht kann?
curl zeigt Kette und Header. trace zeigt zusätzlich pro Hop TLS-Issuer und Restlaufzeit, klassifiziert Header farblich, erkennt Loops, holt auf jeder besuchten Domain die robots.txt und wertet sie automatisch gegen 56 bekannte Bots aus. Du sparst dir das Parsen von Hand.
Speichert ihr meine Anfragen?
Nein. Kein Cache, kein Logging der eingegebenen URLs, kein Account, keine Cookies. Frischer Trace pro Request, danach vergessen. Die Anfrage steht als URL-Parameter in der Adresszeile, kopierbar und teilbar.
Warum funktioniert localhost nicht?
SSRF-Schutz. Würde das Tool private IPs aufrufen, könnte es als Proxy missbraucht werden. Geblockt sind 127.0.0.1, 10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16, IPv6-Loopback und alle reservierten Bereiche.
Wieviele Redirects sind zu viele?
Google folgt bis 10 Hops, danach gilt die URL als nicht erreichbar. Aus User-Sicht kostet jeder Hop 50 bis 400 ms. Ab drei Stufen messbar im Lighthouse-Score. Ideal ist eine Stufe: nicht-kanonische URL leitet einmal direkt auf die Final-URL.
Was bedeutet "blockiert" in der Bot-Matrix, wenn die robots.txt scheinbar nichts verbietet?
Drei Fälle: User-agent: *-Gruppe mit Disallow: / und keine bot-spezifische Allow-Regel. Der Bot hat eine eigene Gruppe, die ihn explizit blockt. Die Pfad-Regel matcht über Wildcards. trace zeigt in der Spalte "Regel" genau, welche Zeile das Verdict ausgelöst hat.
HTTP/2 oder HTTP/3 unterstützt?
Ja. Das Tool nutzt curl mit Protokoll-Auto-Negotiation. Im Hop steht, welches Protokoll verwendet wurde. HTTP/3 (QUIC) wenn der Zielserver es per Alt-Svc anbietet.
Werden Cookies gesetzt oder JavaScript ausgeführt?
Nein. Reiner HTTP-Client wie curl. Kein Cookie-Jar, kein Browser, kein JS. Set-Cookie-Header werden angezeigt, aber nicht persistiert. Für Browser-Verhalten: Schwester-Tool audit.crawlerbase.de.
Gibt es eine API?
Aktuell nicht. GET-Parameter url rein, HTML raus. JSON-Schnittstelle ist geplant. Bei Bedarf: info@crawlerbase.de.