Google setzt eigene Standards für die robots.txt
Mit einer robots.txt können Seitenbetreiber die Zugriffsberechtigungen von Crawler regeln und ggf. einschränken. So lässt sich der zugriff von Crawler und Bots auf einzelne Seiten einer Website ausschließen. Doch nun ändert Google wie das Crawling zukünftig geregelt wird.
Derzeit gilt das Robots Exclusion Protocol (REP) als Standard der sich bislang jedoch nur bedingt durchsetzen konnte und laut Google zu Fehlern führt. Daher plant Google nun einen eigenen Standard zu etablieren und gab Anfang Juli bekannt, dass Google ihren Parser „production robote.txt“ zukünftig als Open-Source anbietet.
Was Website Betreiber und Webmaster zukünftig beachten bzw. anders machen müssen, wenn sie Crawler einschränken möchten, erfährst Du in diesem Blogbeitrag.
Als Grund nennt Google in einem entsprechenden Artikel ihres Webmaster Blogs, dass eine Analyse der im Netz existierenden robots.txt Dateien ergab, dass diese mit Ausnahme von 0,001% fehlerhaft sind. Das hat zur Folge, dass die Suchergebnisse davon beeinträchtigt werden. Viele Websites werden dadurch benachteiligt, was Google so nicht beabsichtigt. Doch um dieses Problem zu läsen fängt Google bereits ab September damit an einen eigenen Standard zu entwickeln.
Bislang wurden Regeln wie z.B. Crawl-Delay, Nofollow und No-Index laut eigenen Angaben von Google kaum verwendet. Bei dem neuen Standard beabsichtigt Google sogar diese Regeln völlig abzuschaffen. Mit dem Blog Beitrag im Google Webmaster Blog vom 2. Juli kündigt Google nun bereits an, nicht unterstützte und unveröffentlichte Regeln (wie beispielsweise noindex) zum 1. September 2019 einzustellen und rät allen Betreiber von Websites die bislang das Crawling und die Indexierung über den No-Index in der robot.txt Datei geregelt haben folgende andere Alternativen zu verwenden:
- Noindex in Robots-Meta-Tags: Die noindex-Direktive wird sowohl in den HTTP-Antwort-Headern als auch in HTML unterstützt und ist die effektivste Methode, um URLs aus dem Index zu entfernen, wenn das Crawlen zulässig ist.
- HTTP-Statuscodes 404 und 410 : Beide Statuscodes bedeuten, dass die Seite nicht vorhanden ist, sodass solche URLs nach dem Crawlen und Verarbeiten aus dem Google-Index entfernt werden.
- Passwortschutz: Wenn das Markup nicht zum Anzeigen von Abonnement- oder Paywall-Inhalten verwendet wird , wird es durch das Ausblenden einer Seite hinter einem Login im Allgemeinen aus dem Google-Index entfernt.
- In robots.txt nicht zulassen: Suchmaschinen können nur Seiten indizieren, die ihnen bekannt sind. Blockiert man jedoch das Crawlen der Seite, wird der Inhalt normalerweise auch nicht indiziert. Die Suchmaschine indiziert möglicherweise auch eine URL auf der Grundlage von Links von anderen Seiten, ohne den Inhalt selbst zu sehen. Google ist jedoch bestrebt, solche Seiten in Zukunft weniger sichtbar zu machen.
- Google Search Console nutzen um einzelne URLs gezielt vom Crawling auszuschließen: Mit dem Google Tool kann wird man zukünftig einzelne URLs schnell und einfach vorübergehend aus den Suchergebnissen von Google entfernen können.
Weitere Anleitungen zum Entfernen von Informationen aus den Google-Suchergebnissen findest Du unter dem folgenden Link in der Google Hilfe.