Crawler

Ein Crawler (oftmals auch als „Bot“, Kurzform von „Robot“ oder als „Spider“ bezeichnet) ist ein Computerprogramm, das automatisiert Dokumente im Web durchsucht, er wird so programmiert, dass das Durchsuchen automatisiert abläuft.

Hierbei handelt es sich um Computerprogramme, die das Internet automatisch durchsuchen und Webseiten analysieren. Crawler dienen vor allem Suchmaschinen zur Indexierung von Webseiten.

Synonyme für Crawler sind Webcrawler, Spider, Searchbot oder auch Robot.

Vor allem  Suchmaschinen setzen Crawler ein, um das Internet zu durchsuchen und einen Suchindex aufzubauen. Dabei werden Crawler hauptsächlich zum Zweck des Erfassen von Inhalten verwendet. Doch auch die Ermittlung von veränderten, verschobenen oder gelöschten Inhalten gehören zu ihren Aufgaben.

Der bekannteste aller Webcrawler ist der von Google und wird im Allgemeinen auch als Googlebot bezeichnet. Andere Crawler wiederum können unterschiedliche Arten von Informationen durchsuchen wie RSS-Feeds oder gezielte Daten, wie beispielsweise E-Mail Adressen.

Wie funktioniert ein Crawler?

Der Crawler beginnt seine Arbeit durch einen „Seed set“ seitens der Suchmaschinen. Hierbei beginnt er das Sammeln von Informationen auf einer willkürlich ausgewählten Webseite und verfolgt nun Links, welche sich auf diesen Seiten befinden. So arbeiten sich die Crawler entlang der Links durch das World Wide Web, bis sie entweder in eine Schleife oder auf eine Seite ohne weitere Verlinkung geraten. Hieraus ergibt sich, dass ein „Strongly Connected Core“ existiert, welcher die Webseiten umfasst, die auf andere Seiten verlinken und auf die wiederum selbst verlinkt wird. Im Gegensatz hierzu gibt es noch diejenigen Seiten, welche bloß auf andere Seiten verlinken oder auf die selbst nur verlinkt wird. Webseiten, welche weder verlinken, noch verlinkt sind, können von den Crawlern nicht erfasst und somit auch via Suchmaschinen nicht gefunden gefunden werden.

Die Webcrawler von Google rufen Webseiten auf und indexieren ihre Inhalte. Dabei verhalten sich die Bots/Crawler beim crawlen einer Webseite exakt so, wie auch ein menschlicher Nutzer einen Browser nutzt. Die erfassten Informationen über die Webseiten werden anschließend von dem Indexer, einem weiteren Instrument der Suchmaschinen, aufbereitet, um sie schneller durchsuchbar und für den Nutzer verfügbar zu machen.

Einsatzgebiete

Das klassische Ziel eines Crawlers ist das Erstellen eines Index. Webcrawler wie der Googlebot schaffen durch das Crawling und Indexing die Voraussetzung dafür, dass Webseiten überhaupt in den Suchergebnisseiten (SERP) ranken können.

Crawler durchsuchen das Web nach Inhalten, um die Ergebnisse anschließend für User verfügbar zu machen. Neben dem Einsatz für Suchmaschinen werden Crawler auch von anderen Anwendungen genutzt, wie beispielsweise:

  • Crawler von Preisvergleichsportalen suchen nach Informationen zu bestimmten Produkten im Web, damit Preise oder Daten genauer verglichen werden können.
  • Im Bereich des Data Mining kann ein Crawler z.B. öffentlich erreichbare E-Mail- oder Postadressen von Unternehmen sammeln.

Einen Crawler aussperren

Wer nicht möchte, dass bestimmte Crawler seine Website durchsuchen, kann deren User Agents über die robots.txt ausschließen. Mit dem Meta-Tag Meta-Robots lassen sich ebenfalls für jede einzelne Seite Befehle an die Crawler bzw. Bots mitteilen. So lässt sich z.B. der Befehl erteilen eine bestimmte Seite von der Indexierung durch Suchmaschinen auszuschließen, so dass dann die Seite und deren Inhalte nicht in Suchmaschinen auffindbar sind.

Das wichtigste Instrument um Crawler, wie den Googlebot zu steuern, ist die robots.txt  Datei sowie die in der Google Search Console hinterlegte XML-Sitemap. In der Google Search Console kann darüber hinaus geprüft werden, ob alle relevanten Bereiche einer Webseite vom Googlebot erreicht und indexiert werden.