Webcrawler: Wie du eine Website crawlst

So wie CEOs ihre Assistenten haben und der Weihnachtsmann seine Elfen, so hat Google (und auch andere Suchmaschinen) seine Web-Crawler.

Website-Crawler (oder Webcrawler) mögen irgendwie gruselig klingen. Was sind diese mysteriösen Dinger, die im World Wide Web herumkrabbeln und was genau machen sie?

In diesem Leitfaden werden wir uns ansehen, was Webcrawler sind, wie Suchmaschinen sie verwenden und wie nützlich sie für Website-Betreiber sind.

Wir verraten dir auch, wie du unseren kostenlosen Website-Crawler, das Site Audit Tool, nutzen kannst, um herauszufinden, was Web-Crawler auf deiner Website finden können und wie du deine Online-Performance dadurch verbessern kannst.

Was ist ein Webcrawler und was macht er?

Ein Webcrawler ist ein Internet-Bot, auch bekannt als Web-Spider, automatischer Indexer, Web Roboter oder Searchbot, der das Internet systematisch durchsucht. Diese Bots sind fast so etwas wie die Archivare und Bibliothekare des Internets.

Während dem Crawling ziehen sie Informationen und Inhalte an sich und laden sie herunter. Diese werden dann in den Index aufgenommen und in den SERPs katalogisiert, sodass sie den Nutzern in der Reihenfolge ihrer Relevanz angezeigt werden können.

Auf diese Weise ist eine Suchmaschine wie Google in der Lage, schnell auf die Suchanfragen der Nutzer mit genau dem zu antworten, was gesucht wird: indem sie ihren Suchalgorithmus auf die Datenmengen des Webcrawlers ausrichtet.

Daher ist die Crawlbarkeit ein wichtiges Leistungsmerkmal deiner Website.

Wie funktionieren Webcrawler?

Um die zuverlässigsten und relevantesten Informationen zu finden, wird ein Bot mit einer bestimmten Auswahl an Webseiten beginnen. Er hat den Befehl diese nach Daten zu durchsuchen (oder crawlen) und dann den darin erwähnten Links (oder Spider) zu anderen Seiten folgen, wo er das Gleiche wiederholen wird.

Am Ende produzieren die Crawler hunderttausende Seiten, deren Informationen das Potenzial haben, deine Suchanfrage zu beantworten.

Der nächste Schritt für Suchmaschinen wie Google besteht darin, alle Seiten nach bestimmten Faktoren zu bewerten, um den Nutzern nur die besten, zuverlässigsten, genauesten und interessantesten Inhalte zu präsentieren.

Die Faktoren, die den Algorithmus und den Ranking-Prozess von Google beeinflussen, sind zahlreich und ändern sich ständig. Einige sind allgemein bekannt (Keywords, die Platzierung von Keywords, die interne Verlinkung und die Backlinks, usw.). Andere sind komplexer zu ermitteln, wie z. B. die Gesamtqualität der Website.

Wenn wir darüber sprechen, wie crawlbar deine Website ist, bewerten wir im Grunde, wie einfach es für Webbots ist, deine Website nach Informationen und Inhalten zu durchsuchen. Je übersichtlicher deine Website-Struktur, deine Verlinkungen und die Navigation ist, desto wahrscheinlicher ist es, dass du in den SERPs höher rankst und desto wahrscheinlicher ist es, dass deine Seite schnell von Google indexiert wird.

Mit Webcrawlern und Crawlbarkeit schließt sich der Kreis zum Thema Suchmaschinenoptimierung (SEO).

Wie Semrush Webcrawler verwendet

Website-Crawler sind nicht nur ein geheimes Werkzeug von Suchmaschinen. Auch wir bei Semrush verwenden Webcrawler. Wir tun dies aus zwei wichtigen Gründen:

Zum Aufbau und zur Pflege unserer Backlink-Datenbank
Um dir zu helfen, den Zustand deiner Website zu analysieren

Unsere Backlink-Datenbank ist ein großer Teil dessen, was wir benutzen, um unsere Tools noch stärker zu machen. Unsere Crawler durchsuchen das Web regelmäßig nach neuen Backlinks, damit wir unsere Schnittstellen aktualisieren können.

Dank dieses Tools kannst du die Backlinks deiner Website mit dem Backlink Audit untersuchen und die Backlink-Profile deiner Konkurrenten mit der Backlink Analysis Tool überprüfen.

Im Grunde genommen kannst du ein Auge auf die Links werfen, die deine Konkurrenten auf- und abbauen, während du sicher stellst, dass deine Backlinks einwandfrei sind.

Der zweite Grund, warum wir Webcrawler verwenden, ist unser Site Audit Tool. Das Site-Audit-Tool ist ein leistungsstarker Website-Crawler, der den Inhalt deiner Website durchkämmt und kategorisiert, damit du den Zustand deiner Website analysieren kannst.

Wenn du einen Website-Audit über Semrush durchführst, crawlt das Tool das Web für dich, um etwaige Engpässe oder Fehler hervorzuheben, sodass du leichter einen Gang höher schalten und deine Website auf der Stelle optimieren kannst. Das ist eine super-einfache Methode, eine Website zu crawlen.

Warum du das Semrush Site Audit-Tool verwenden solltest, um deine Website zu crawlen

Mit dem Site Audit-Tool bittest du unsere Crawler, auf deine Website zuzugreifen. Die Crawler geben dann eine Liste von Problemen zurück, die genau zeigen, wo eine bestimmte Website verbessert werden muss, um deren SEO zu verbessern.

Es gibt über 120 Punkte, in die du hineinschauen kannst, unter anderem:

doppelter Content
defekte Links
HTTPS-Implementierung
Crawlbarkeit (ja, wir können dir sagen, wie einfach es für Crawler ist, auf deine Website zuzugreifen!)
Indexierbarkeit

Und das alles ist in wenigen Minuten erledigt, mit einer einfach zu bedienenden Benutzeroberfläche. So musst du dir keine Sorgen machen, etliche Stunden zu verschwenden, nur um am Ende ein riesiges Dokument mit unlesbaren Daten zu haben.

img-semblog — Verwende das Semrush Site Audit-Tool, um deine Website zu crawlen

Wieso ist das regelmäßige Crawling von Webseiten so wichtig?

Aber warum ist es so wichtig, diese Dinge zu überprüfen? Lasse uns die Vorteile einiger dieser Checks aufschlüsseln.

Crawlbarkeit

Es sollte keine Überraschung sein, dass der Crawlbarkeits-Check mit Abstand am relevantesten ist. Unsere Crawler können dir genau sagen, wie einfach es für Google-Bots ist, auf deiner Website zu navigieren und auf deine Informationen zuzugreifen.

So lernst du, wie du deine Website-Struktur bereinigst und Inhalte organisierst, wobei der Schwerpunkt auf deiner Sitemap, der robots.txt, internen Links und der URL-Struktur liegt.

Manchmal können einige Seiten deiner Website überhaupt nicht gecrawlt werden. Es gibt viele Gründe, warum dies der Fall sein kann. Einer davon könnte eine langsame Antwort des Servers sein (länger als 5 Sekunden) oder eine völlige Zugriffsverweigerung des Servers. Die Hauptsache ist, dass du, sobald du weißt, dass du ein Problem hast, anfangen kannst, es zu beheben.

HTTPS-Implementierung

Dies ist ein wirklich wichtiger Teil des Audits, wenn du deine Website von HTTP auf HTTPS umstellen möchtest. Wir helfen dir, einige der häufigsten Fehler zu vermeiden, die Website-Besitzer in diesem Bereich machen. Wir crawlen nach korrekten Zertifikaten, Weiterleitungen, Canonicals, Verschlüsselungen und vielem mehr. Unsere Webcrawler werden dies so übersichtlich wie möglich darstellen.

Defekte Links

Defekte Links sind eine klassische Ursache für die Unzufriedenheit von Benutzern. Zu viele defekte Links können sogar deine Platzierung in den SERPs verschlechtern, da sie den Crawlern den Eindruck vermitteln könnten, dass deine Website schlecht gepflegt oder programmiert ist.

Unsere Crawler werden diese defekten Links finden und sie beheben, bevor es zu spät ist. Die Korrekturen selbst sind einfach: Entferne den Link oder ersetze ihn. Alternativ kannst du den Eigentümer der Website, auf die du verlinkst, kontaktieren und das Problem melden.

Duplicate Content

Duplicate Content kann deinem SEO einige große Probleme bereiten. Im besten Fall kann es dazu führen, dass Suchmaschinen eine deiner duplizierten Seiten zum Ranking auswählen und die andere verdrängen. Im schlimmsten Fall könnten die Suchmaschinen annehmen, dass du versuchst, die SERPs zu manipulieren und deine Website herabstufen oder ganz sperren. Ein Site Audit kann dir helfen, dieses Problem im Keim zu ersticken. Unsere Crawler finden den doppelten Inhalt auf deiner Website und listen ihn ordentlich auf.

Du kannst dann die von dir bevorzugte Methode verwenden, um das Problem zu beheben - sei es, dass du die Suchmaschinen informierst, indem du einen rel="canonical"-Link auf die richtige Seite hinzufügst, eine 301-Weiterleitung verwendest oder den Inhalt auf den betroffenen Seiten einfach bearbeitest. Du kannst mehr über diese Probleme in unserem früheren Leitfaden zur Behebung von Crawling-Problemen erfahren.

Wie du einen Webseiten-Crawler mit Semrush Site Audit einrichtest

Das Einrichten eines Webseiten-Crawlers über Semrush Site Audit ist einfach. Es sind nur sechs Schritte erforderlich.

Bevor wir loslegen, stelle sicher, dass du dein Projekt eingerichtet hast. Das kannst du ganz einfach von deinem Dashboard aus tun. Alternativ kannst du auch ein Projekt auswählen, das du bereits gestartet hast, für das aber noch kein Site Audit durchgeführt wurde.

Schritt 1: Grundeinstellungen konfigurieren

Sobald dein Projekt eingerichtet ist, wird es Zeit für Schritt eins: die Konfiguration der Grundeinstellungen.

Lege zunächst deinen Crawl-Bereich fest. Unabhängig von der spezifischen Domain, Subdomain oder dem Unterordner, die du crawlen möchtest, kannst du diese hier im Abschnitt "Crawl-Bereich" eingeben. Wenn du, wie unten gezeigt, eine Domain eingibst, kannst du auch wählen, ob du alle Subdomains mit crawlen möchtest.

Je mehr Seiten du crawlst, desto genauer wird dein Audit sein, aber du solltest auch auf dein eigenes Niveau und deine Fähigkeiten achten. Wie umfangreich ist dein Interesse? Wie oft willst du zurückkehren und den Audit wiederholen?

Für Profis empfehlen wir, bis zu 20.000 Seiten pro Audit zu crawlen. Für Gurus empfehlen wir dasselbe, 20.000 Seiten pro Audit, und für Business-Anwender empfehlen wir 100.000 Seiten pro Audit. Finde selbst heraus, was für dich am besten funktioniert.

Wähle deine Crawl-Quelle. Dies entscheidet, wie unser Bot deine Website crawlt und die zu prüfenden Seiten findet.

Wie dargestellt, stehen vier Optionen zur Verfügung:

Website: Mit dieser Option crawlen wir die Website wie der GoogleBot (über einen Breadth-First-Suchalgorithmus), wobei wir durch deine Links navigieren (beginnend mit deiner Homepage). Dies ist eine gute Wahl, wenn du nur daran interessiert bist, die am leichtesten zugänglichen Seiten einer Website von deiner Hauptseite aus zu crawlen.
Sitemaps auf Website: Wenn du diese Option wählst, werden nur die in der Sitemap gefundenen URLs aus der robots.txt-Datei gecrawlt.
Sitemap-URL eingeben: Dies ist ähnlich wie bei den Sitemaps auf Website, aber in diesem Fall kannst du deine eigene Sitemap-URL eingeben, wodurch dein Audit ein bisschen spezifischer wird.
URLs aus Datei: Hier kannst du wirklich spezifisch werden und dir genau überlegen, welche Seiten du überprüfen möchtest. Du musst sie nur als .csv- oder .txt-Dateien auf deinem Computer gespeichert haben und direkt in Semrush hochladen.

Diese Option ist ideal, wenn du keinen allgemeinen Überblick benötigst. Zum Beispiel, wenn du bestimmte Änderungen an bestimmten Seiten vorgenommen hast und nur sehen möchtest, wie sie sich verhalten. Dies kann dir einiges an Crawl-Budget ersparen und dir die Informationen liefern, die du wirklich sehen willst.

Schritt 2: Crawler-Einstellungen

Als nächstes musst du dich für die Art des Bots entscheiden, der deine Website crawlen soll. Es gibt vier mögliche Kombinationen, je nachdem, ob du die mobile oder die Desktop-Version des SemrushBot oder GoogleBot wählst.

Wähle dann deine Einstellungen für den Crawl-Delay. Entscheide dich zwischen Mindestverzögerung zwischen Seiten, robots.txt beachten, oder 1 URL pro 2 Sekunden:

Wähle "Mindestverzögerung zwischen Seiten", damit der Bot mit seiner üblichen Geschwindigkeit crawlen kann. Für den SemrushBot bedeutet das, dass er etwa eine Sekunde warten wird, bevor er mit dem Crawlen der nächsten Seite beginnt.
Die Option "robots.txt beachten" ist ideal, wenn du eine robots.txt-Datei auf deiner Websit hast und dadurch eine bestimmte Crawl-Verzögerung benötigst.
Wenn du befürchtest, dass deine Website durch unseren Crawler verlangsamt wird, oder du noch keine Crawl-Anweisung hast, dann solltest du "1 URL pro 2 Sekunden" wählen. Dies kann bedeuten, dass der Audit länger dauert, aber es wird die Benutzererfahrung während des Audits nicht verschlechtern.

Schritt 3: URLs zulassen/verbieten

Hier kannst du wirklich in die Anpassung deines Audits eingreifen, indem du entscheidest, welche Unterordner wir auf jeden Fall crawlen sollen und welche auf keinen Fall.

Um dies korrekt zu tun, musst du alles in die URL nach der TLD aufnehmen. Die Unterordner, die wir auf jeden Fall crawlen sollen, kommen in das Feld auf der linken Seite:

Und die, die definitiv nicht gecrawlt werden sollen, kommen in den Kasten rechts:

Schritt 4: URL-Parameter entfernen

Bei diesem Schritt geht es darum, dass wir sicherstellen, dass dein Crawl-Budget nicht dafür verschwendet wird, die gleiche Seite zweimal zu crawlen. Gib einfach die URL-Parameter an, die du auf deiner Seite verwendest, um sie vor dem Crawlen zu entfernen.

Schritt 5: Website-Einschränkungen umgehen

Ideal, wenn du einen kleinen Workaround brauchst. Nehmen wir zum Beispiel an, dass deine Website noch in der Vorbereitungsphase ist, oder dass sie durch die grundlegende Zugriffsauthentifizierung versteckt ist. Wenn du jetzt denkst, dass wir keinen Audit für dich durchführen können, dann irrst du dich.

Du hast zwei Möglichkeiten, dies zu umgehen und sicherzustellen, dass dein Audit funktioniert.

Option 1 ist die Umgehung von disallow in robots.txt und per robots-Meta-Tag. Dazu lade die .txt-Datei, die wir dir zur Verfügung stellen, in den Hauptordner deiner Website hoch.
Option 2 ist das Crawlen mit deinen Anmeldedaten. Dazu musst du nur den Benutzernamen und das Passwort eingeben, mit denen du auf den versteckten Teil deiner Website zugreifst. Der SemrushBot wird diese Informationen verwenden, um den Audit durchzuführen.

Schritt 6: Zeitplan

Im letzten Schritt teilst du uns mit, wie oft du deine Website überprüfen lassen möchtest. Das kann jede Woche, jeden Tag oder auch nur ein einziges Mal sein. Wie auch immer du dich entscheidest: ein regelmäßiges, automatisiertes Audit ist auf jeden Fall ratsam, um den Zustand deiner Website zu überwachen.

Und das war's! Du hast nun gelernt, wie du eine Website mit dem Site Audit-Tool crawlen kannst.

Schau dir deine Webcrawler-Daten mit Semrush an

Alle Daten über deine Webseiten, die während der Crawls gesammelt werden, werden aufgezeichnet und im Site Audit-Bereich deines Projekts gespeichert.

Hier findest du deinen Site Health Score:

Prüfe auch die Gesamtzahl der gecrawlten Seiten, aufgeteilt in (gesunde) "In Ordnung", "Defekte" oder (problemhafte) "Problem" Seiten. Diese Ansicht reduziert die Zeit, die du benötigst, um Probleme zu identifizieren und zu lösen, praktisch um die Hälfte.

Schließlich findest du hier auch unsere Einschätzung, wie einfach es ist, deine Seiten zu crawlen:

Wenn du in den Bereich Crawlbarkeit wechselst, erhältst du einen noch genaueren Blick auf dein Crawl-Budget, die Crawl-Tiefe, Sitemap vs. gecrawlte Seiten, Indexierbarkeit und mehr.

Und jetzt weißt du, wie du deinen Web Crawler Site Audit einrichtest und wo du die Daten findest, die wir speziell für dich zusammenstellen werden.

Fazit

Wenn du deine Crawlbarkeit verbessern willst, stelle sicher, dass Suchmaschinen deine Website und deren Inhalt verstehen. Wenn du den Suchmaschinen hilfst, deine Website leichter zu crawlen, kann sie besser ranken und sich langsam in den Suchergebnissen nach oben bewegen.

Webcrawler: Wie du eine Website crawlst und wichtige Erkenntnisse gewinnst