Robots.txt

Illustration einer riesigen digitalen robots.txt-Tor-Festung, die Web-Crawler von einer strahlenden Stadt voller Website-Daten fernhält, mit einigen gehorsamen und wenigen heimlichen Bots am Tor.
Stilisierte Metapher: Die robots.txt als mächtiges digitales Tor schützt Webseiten vor unerwünschten Crawlern – einige bots warten respektvoll, andere versuchen es heimlich. Credit: 404 Magazine (Tobias Hager)
image_pdf

Robots.txt: Das Bollwerk zwischen Crawlern und deinen Daten

Die robots.txt ist das vielleicht meistunterschätzte, aber mächtigste Textfile im Arsenal eines jeden Website-Betreibers – und der Gatekeeper beim Thema Crawling. Sie entscheidet, welche Bereiche deiner Website von Suchmaschinen-Crawlern betreten werden dürfen und welche nicht. Ohne robots.txt bist du digital nackt – und der Googlebot tanzt, wo er will. In diesem Artikel erfährst du alles, was du über Aufbau, Einsatz, Fallstricke und Best Practices der robots.txt wissen musst – ohne Bullshit, mit maximaler technischer Tiefe.

Autor: Tobias Hager

Was ist die robots.txt und warum ist sie so wichtig für SEO und Websicherheit?

Die robots.txt ist eine simple Textdatei im Root-Verzeichnis deiner Domain (z. B. https://deinedomain.de/robots.txt), die Anweisungen für Webcrawler – auch Bots genannt – enthält. Ihre Aufgabe: Sie steuert, welche Verzeichnisse, Dateien oder Parameter von Suchmaschinen wie Google, Bing oder Yandex gecrawlt und indexiert werden dürfen. Die robots.txt ist damit das erste, was ein Crawler beim Besuch deiner Website liest – noch bevor er auch nur eine einzige Seite lädt. Keine robots.txt? Dann entscheidet der Bot selbst, was er crawlt. Eine falsche robots.txt? Dann schießt du dich im Zweifel selbst ins SEO-Aus.

Doch Vorsicht: Die robots.txt ist keine Firewall und auch kein Sicherheitsfeature. Sie ist lediglich eine Richtlinie (englisch: „directive“), keine harte Zugangsbeschränkung. Gutartige Crawler (wie der Googlebot) halten sich brav daran. Böse Bots, Scraper und Angreifer ignorieren sie allerdings – und crawlen trotzdem alles, was sie wollen. Wer also glaubt, mit einer robots.txt geheime Inhalte zu schützen, hat das Web nicht verstanden.

Im SEO-Kontext ist die robots.txt ein zentrales Instrument für das Crawling-Management. Sie hilft, das Crawl-Budget effizient einzusetzen, Duplicate Content zu vermeiden und Ressourcen wie Admin-Bereiche, interne Suchergebnisse oder Testverzeichnisse auszusperren. Gleichzeitig ist sie aber auch eine potenzielle Fehlerquelle, die im schlimmsten Fall deine ganze Website aus dem Google-Index kegelt.

Aufbau, Syntax und typische Anwendungsfälle der robots.txt

Die Syntax der robots.txt ist gnadenlos simpel – und gerade deshalb fehleranfällig. Sie besteht aus sogenannten Records, die jeweils mit dem User-Agent beginnen (also für welchen Bot die Regeln gelten sollen) und mit Allow-/Disallow-Anweisungen verfeinert werden. Hier die wichtigsten Direktiven im Überblick:

  • User-agent: Gibt an, für welchen Bot die folgende Regel gilt (z. B. User-agent: Googlebot oder User-agent: * für alle).
  • Disallow: Verbietet das Crawlen bestimmter Pfade, z. B. Disallow: /admin/.
  • Allow: (Wichtig v. a. für Googlebot) Erlaubt explizit das Crawlen eines bestimmten Pfads, obwohl ein übergeordneter Disallow besteht.
  • Sitemap: (Keine echte Crawling-Regel, aber SEO-Gold wert) Gibt den Pfad zur XML-Sitemap an, z. B. Sitemap: https://deinedomain.de/sitemap.xml.

Ein typischer robots.txt-Eintrag sieht so aus:

User-agent: *
Disallow: /tmp/
Disallow: /private/
Allow: /public/
Sitemap: https://deinedomain.de/sitemap.xml

Die wichtigsten Anwendungsfälle im Überblick:

  • Ausschluss sensibler Bereiche: z. B. /admin/, /cgi-bin/, /checkout/.
  • Vermeidung von Duplicate Content: z. B. durch Sperrung von /filter/– oder ?sessionid=-URLs.
  • Crawl-Budget-Optimierung: Unwichtige oder Ressourcen-intensive Bereiche werden ausgesperrt, damit Crawler sich auf die wichtigen Seiten konzentrieren.
  • Sitemap-Integration: Den Suchmaschinen direkt die wichtigsten URLs servieren.

Achtung: Ein Disallow: / für User-agent: * blockiert ALLES – und ist der SEO-GAU, wenn versehentlich live geschaltet.

Robots.txt, Indexierung, Noindex und die größten Stolperfallen

Viele verwechseln Crawling mit Indexierung. Die robots.txt steuert ausschließlich, ob ein Bot eine Ressource crawlen DARF – nicht, ob sie in den Suchindex aufgenommen wird. Das ist ein Unterschied mit gewaltigen Auswirkungen. Eine per robots.txt gesperrte URL kann – wenn sie trotzdem extern verlinkt wird – durchaus im Google-Index auftauchen, aber ohne Snippet („Seitenbeschreibung ist nicht verfügbar“). Wer Inhalte wirklich aus dem Index fernhalten will, muss zusätzlich ein noindex-Meta-Tag in den HTML-Header einbauen. Dumm nur: Wenn die Seite per robots.txt blockiert ist, kann der Bot das noindex-Tag gar nicht erst auslesen – Catch-22 auf SEO-Deutsch.

Die häufigsten Fehler und Missverständnisse im Umgang mit robots.txt:

  • Blockieren von Ressourcen, die für das Rendering wichtig sind: CSS, JavaScript oder Fonts per robots.txt zu sperren, kann zur Katastrophe führen – insbesondere seit Google Seiten wie ein echter Browser rendert. Wer hier blockiert, riskiert grottige Rankings.
  • Falsche Groß-/Kleinschreibung und Pfadangaben: robots.txt ist case-sensitive. /Images/ ist nicht /images/.
  • Ungewolltes Blockieren der kompletten Website: Schon ein Disallow: / zu viel und du bist aus dem Index raus.
  • Blindes Vertrauen in die Sperrwirkung: Wie gesagt – böse Bots ignorieren robots.txt komplett.

Die Quintessenz: Die robots.txt ist ein Werkzeug für Profis, keine Spielwiese für Laien. Wer sie nicht versteht, sollte lieber die Finger davon lassen – oder zumindest alle Änderungen doppelt prüfen.

Best Practices und Tools für die perfekte robots.txt

Eine sauber konfigurierte robots.txt ist kein Hexenwerk – aber sie verlangt Präzision, Wissen und regelmäßige Kontrolle. Wer schlampig arbeitet, spielt mit dem Feuer. Hier die wichtigsten Best Practices:

  • Keep it simple: Keine unnötigen Regeln, keine wilden Wildcards, keine Experimente. Die Klarheit gewinnt.
  • Regelmäßig testen: Nutze Tools wie den „robots.txt Tester“ in der Google Search Console oder den Bing Webmaster Tools Tester, um Syntax und Wirkung zu prüfen.
  • Sensible Ressourcen explizit erlauben: Gerade CSS und JavaScript müssen für Google (und Co) crawlbar sein, damit das Rendering nicht leidet.
  • Sitemap immer angeben: Am besten direkt in der robots.txt, auch wenn du sie zusätzlich in der Search Console einreichst.
  • Keine vertraulichen Daten via robots.txt verstecken: Wer Sicherheit will, nutzt HTTP-Authentifizierung, IP-Blocking oder Zugriffsbeschränkungen auf Serverebene.

Für komplexe Websites mit vielen Subdomains, Sprachversionen oder dynamisch generierten Inhalten empfiehlt sich eine granulare Steuerung: Unterschiedliche Regeln für verschiedene User-Agents (z. B. Googlebot, Bingbot, AdsBot), gezielter Einsatz von Allow/Disallow und kontinuierliche Logfile-Analyse, um die Auswirkungen zu überwachen.

Hilfreiche Tools und Ressourcen für die robots.txt-Optimierung:

Die robots.txt ist kein SEO-Spielzeug, sondern ein zentraler Steuerungshebel für Crawling und Ressourcenmanagement. Wer sie richtig einsetzt, hat die Kontrolle über die Sichtbarkeit und Performance seiner Website in den Suchmaschinen. Wer sie falsch einsetzt, spielt russisches SEO-Roulette – und verliert im Zweifel alles.