Crawlability verbessern, damit die Webseite gecrawlt wird

Was ist Crawlability?

Die Crawlability einer Website ist die Fähigkeit, dass die Search-Bots Zugang zur Website bekommen. Dieser Sammelprozess wird ‚Crawling‘ genannt. Suchmaschinen nutzen Search Bots, um die Parameter einzelner Websiten zu sammeln.

Suchmaschinen nutzen Search Bots, um die Parameter einzelner Websiten zu sammeln. Dieser Sammelprozess wird ‚Crawling‘ genannt.

Die Crawlability einer Website bezeichnet also die Fähigkeit, dass die Search-Bots Zugang zu ihr bekommen können. Du musst sich also sicher sein, dass die Search-Bots die Möglichkeit haben, Deine Website zu finden und den richtigen Zugang haben, um die Daten zu lesen und auszuwerten.

Was heißt "gecrawlt"?

Das heißt, dass Ihre Webseite durch den Suchmaschinen-Bot besucht und erst einmal abgespeichert wurde. Seiten die nicht besucht wurden oder werden konnten, wurden auch nicht abgespeichert.

Wieso ist Crawlability wichtig?

Basierend auf diesen Daten ordnen die Suchmaschinen Websiten auf ihrem Suchindex an, sodass die Seiten von den Usern gefunden werden können. Sie müssen sich also sicher sein, dass die Search-Bots die Möglichkeit haben, Ihre Website zu finden und den richtigen Zugang haben, um die Daten zu lesen und auszuwerten.

Ohne, dass die Seite gecrawlt wird, kann ich auch nicht in den Suchindex aufgenommen werden und somit beeinflußt diese die Indexierbarkeit.

Im Internet sind die Informationen über Crawlability oftmals lückenhaft und kontrovers. Deshalb haben wir uns entschieden, einmal alle möglichen Gründe zusammenzutragen, weshalb Deine Webseite Crawler-unfreundlich sein könnte. Sie ist für SEO und insbesondere für technische SEO sehr wichtig.

Crawlability Probleme lösen

Probleme, die Sie selbst lösen können: Sie können den Code der Website verändern und Root Files anpassen. Dafür brauchen Sie jedoch Grundkenntnisse von Coding (also einen Code bzw. einen Teil davon an der richtigen Stelle in der richtigen Art und Weise ändern)

Probleme, wofür Sie einen Spezialisten brauchen: Hierfür werden Kenntnisse über Serveradministration und Web-Development benötigt.

1 Der Crawler wird von Meta Tags oder robots.txt blockiert (selbst lösbar)

Diese Art von Problemen ist relativ einfach zu identifizieren und zu lösen. Dafür müssen lediglich Deine Meta-Tags und robots.txt überprüfen, weshalb Sie dort zuerst hinsehen sollten. Die ganze Website oder bestimmte Seiten können von Google unbeachtet bleiben und das hat einen einzigen Grund: Die Search Bots dürfen diese nicht crawlen.

Es gibt verschiedene Bot Befehle, die Page Crawling verhindern. Du solltest beachten, dass es kein Fehler ist, diese Parameter in robots.txt zu haben. Diese sollten nur akkurat und gewissenhaft genutzt werden, um das Budget fürs Crawling zu schonen. Des Weiteren sollten Sie mit den Parametern den Bots eine genaue Richtung vorgeben, der diese folgen sollen, um die Seiten zu crawlen, die Sie auch gecrawlt haben möchten.

2 Die Seite am Indexieren über den Robots Meta Tag hindern

Wenn Sie dies tun, wird der Search Bot gar nicht erst den Content Deiner Seite beachten und geht direkt zur nächsten Seite über.

Sie können dieses Problem aufdecken, wenn Sie prüfen ob folgender Code in dem Page-Code vorhanden ist:

<meta name="robots" content="noindex" />

3 No-follow Links

In diesem Fall wird der Search Bot den Content der Seite indexieren, aber nicht den Links folgen. Es gibt zwei Arten von No-Follow-Befehlen:

Einen für die gesamte Seite. Mit dem Code
<meta name="robots" content="nofollow">

wird der Crawler keinem Link folgen.
Einen für einen einzelnen Link. Mit diesem Code-Teil
<a href="pagename.html" rel="nofollow"/>

wird der Bot dem entsprechenden Link nicht folgen.

4 Die Seiten am Idexieren hindern durch robots.txt

Robots.txt ist der erste File der Website, den sich die Crawler ansehen. Was am meisten wehtut, ist Folgendes:

User-agent: *
Disallow: /

Diese Codes bedeuten, dass alle Unterseiten der Website nicht indexiert werden können.

Es kann auch passieren, dass nur einige Seiten oder Teile davon geblockt werden, beispielsweise auf diese Art und Weise:

User-agent: *
Disallow: /products /

In diesem Fall wird jede Seite im Subfolder eines Produkts geblockt und nicht indexiert. Aus diesem Grund sind dann keine Deiner Produktbeschreibungen bei Google sichtbar.

5 Probleme mit Broken Links

Links, die nicht funktionieren, sind immer eine negative Erfahrung für die User, aber eben auch für die Crawler. Bei jeder Seite, die ein Bot indexiert oder indexieren will, wird Crawl Budget ausgegeben. Wenn Sie viele Links haben, die nicht funktionieren: Denn, solange der Bot versucht die nicht-funktionierenden Links zu indexieren, wird er nicht zu den relevanten und hochqualitativen Seiten vordringen.

Der Crawl Error Bericht in Google Search Console oder der Internal Broken Links Check im SEMrush Site Audit wird Ihnen helfen, diese Art von Problemen zu identifizieren.

6 URL Fehler

In der Regel liegen URL Fehler an einem Tippfehler in der URL, die Sie auf die Seite eingefügt haben (Textlink, Bilderlink, Formlink). Prüfen Sie, ob alle Links richtig geschrieben sind.

7 Veraltete URLs

Dieses Thema sollten Sie besonders beachten, wenn Sie vor Kurzem eine Website Migration, eine Bulk-Löschung oder eine Veränderung der URL-Struktur hinter sich haben. Vergewissern Sie dich, dass Sie nicht von anderen Unterseiten Ihrer Page zu der alten oder gelöschten URL verlinken.

8 403-Seiten mit einem beschränkten Zugang

Wenn Sie merken, dass viele Seiten der Website beispielsweise einen 403 Statuscode senden, dann sind diese Seiten nur für registrierte User zugänglich. Setze sie auf ‚no-follow‘.

Nicht funktionierende Links können auch auf die Problemen mit dem Server hinweisen:

9 "50X" Server Fehler

Eine große Anzahl von 5xx Fehler (beispielsweise 502 Fehler) kann ein Signal von Server Problemen sein. Um diese zu lösen, sollten Sie der für die Pflege und Entwicklung der Seite zuständigen Person eine Liste mit Fehlercodes überhändigen. Der Prfoi wird darauf achtgeben, dass die Bugs oder die Konfigurationsprobleme behoben werden.

10 Limitierte Server-Kapazität

Sollte Ihr Server überladen sein, könnte er aufhören, auf die Anfragen von Besuchern oder Bots zu reagieren. Wenn dies geschieht, bekommen die Besucher die ‚Connection time out‘ Nachricht. Dieses Problem kann nur zusammen mit dem für den Server Zuständigen behoben werden. Er entscheidet, um wie viel die Server-Kapazität vergrößert werden sollte.

11 Misskonfiguration des Web Servers

Dieses Thema ist tricky. Eine Seite kann für Sie als Mensch perfekt sichtbar sein, aber dennoch noch einen Fehler an den Bot geben, sodass alle Seiten nicht gecrawlt werden können. Das kann aufgrund einer speziellen Server Konfiguration geschehen: Einige Web Firewalls (beispielsweise Apache mod_security) blocken den Google Bot oder einen anderen Bot aufgrund Deiner Voreinstellungen. Dieses Problem muss von einem Spezialisten gelöst werden.

12 Sitemap Fehler

Diese Fehler können selbst erkannt werden, müssen vom Spezialisten gelöst werden. Die Sitemap und robots.txt beeinflussen den ersten Eindruck der Crawler. Eine korrekte Sitemap gibt dem Crawler Hinweise, wo sich die Seiten befinden und wie viele es sind. Eigene und korrekte XML-Sitemap kannst du mit den zugehörigen XML Sitempap Generator Tools erstellen.

13 Fehler des Formats

Es gibt verschiedene Typen von Formatfehlern, beispielsweise eine ungültige URL oder fehlende Tags (hier findest Du eine vollständige Liste mit Lösungen für jeden Fehler).

Wird die Sitemap File von einem robots.txt blockiert, hat der Bot keinen Zugang zum Content der Sitemap.

14 Falsche Seiten in der Sitemap

Verwirren Sie die Bots nicht mit widersprüchlichen Anweisungen: Überprüfen Sie, dass die URLs in Deiner Sitemap nicht von Meta-Befehlen oder in robots.txt von der Indexierung ausgeschlossen werden.

15 Probleme der Seitenarchitektur

Die Probleme dieser Kategorie sind am schwierigsten zu lösen. Wir empfehlen Ihnen deshalb, vorher die bereits angeführten Hinweise zu beachten, bevor Du die nachfolgenden näher betrachtest.

Alle mit der Struktur der Seite zusammenhängenden Probleme können die Crawler desorientieren oder gar blockieren.

16 Falsches oder schlechtes internes Verlinken

In einer optimierten und korrekt angeordneten Websiten-Struktur, die aus einer zusammengehörigen Kette besteht, kann der Crawler einfach jede Seite erreichen. Die korrekte Interne Verlinkung ist auch für die Rankings sehr wichtig.

Auf einer nicht-optimierten Website können einige Seiten außer Sicht der Crawler geraten. Dafür gibt es verschiedene Gründe, die Sie mit dem Site Audit Tool von SEMrush ganz einfach aufdecken und kategorisieren können:

Die Seite, die in den SERPs erscheinen sollte, wird von keiner anderen Seite oder Website verlinkt.
Die gewünschte Zielseite, die in den SERPs erscheinen sollte, ist zu viele Klicks von der Startseite entfernt. Wir haben diese bei 4 Klicks angesetzt.
Mehr als 3000 aktive Links auf einer Seite (zu viele für die Crawler)
Die Links sind in unidexizierbaren Seitenelementen versteckt: Frames, Plugins (insbesondere Java und Flash)

Zumeist kann das interne Verlinkungs-Problem nicht oberflächlich und auf einen Schlag behoben werden. Eine ausführliche Analyse der Websiten-Struktur ist hierbei notwendig.

17 Endlose Weiterleitungen

Mit 301-Weiterleitungen (aber auch 302) leitet man den Besucher von einer alten Seite auf die neue. Dies ist zum Beispiel bei dem Umzug von der alten Adresse der Seite auf die neue der Fall.

Es passiert nicht selten, dass die Weiterleitungen sich in die endlosen Schleifen verwandeln oder es einfach zu viele werden. Dabei zählt für Google jede Weiterleitung auch, wenn diese „nur“ bei www. beginnt.

Zum Beispiel eine Weiterleitung von www.domain.com auf die domain.com zählt als eine Weiterleitung. Von domain.com/page1.html auf die domain.com/page2.html als die zweite Weiteleitung. Google empfiehlt nicht mehr als 3 Weiterleitungen in Folge einzusetzen. Überprüfen Sie die Weiterleitungen.

18 Langsame Ladegeschwindigkeit

Je schneller Deine Seite lädt, desto schneller kommt der Crawler durch die Seite. Hier ist jede Sekundenbruchteil wichtig. So hängt die Position einer Website in SERP mit der Ladegeschwindigkeit zusammen.

Nutzen Sie Google Pagespeed Insights, um zu verifizieren, dass Deine Webseite schnell genug ist. Es genügt nicht, Google Pagespeed Insights zu verbessern und sich nur darauf zu konzentrieren. Wenn die Ladegeschwindigkeit zu wünschen übrig lässt, kann dies durch mehreren Faktoren beeinflusst sein:

Faktoren, die mit dem Server zusammenhängen: Die Website kann aus einem einfachen Grund langsam sein - Die aktuelle Kanalbandbreite reicht einfach nicht mehr aus. Die verfügbare Bandbreite können Sie in Ihrem Tarifplan nachprüfen.

Faktoren, die mit dem Front-End zusammenhängen: Eines der häufigsten Probleme ist ein unoptimierter Code. Falls dies voluminöse Scripts und Plug-ins beinhaltet, ist die Seite bedroht. Richtige Bilder SEO, und die Optimierung von Videos und anderem Content, ist für die Optimierung der Webseite-Geschwindigkeit wichtig.

19 Seiten-Duplikate

Duplicate Content ist das häufigste SEO ( Was ist SEO?) Problem, das auf 50 % aller Seiten gefunden wird, wie SEMrush in dieser Onsite Fehler Studie herausgefunden hat.

Google widmet jeder Website nur eine begrenzte Zeit. Wenn zweimal das Gleiche, also Double Content, indexiert wird, ist dies eine Verschwendung. Ein anderer Grund ist, dass Crawler nicht wissen, welcher Version sie mehr trauen sollen und somit falschen Seiten Priorität beimessen könnten. Um dieses Problem zu beheben, muss man Duplicate Pages identifizieren und verhindern, dass sie gecrawlt werden. Das geht so:

Löschen von Duplicate Pages
Parameter in robots.txt setzen
Parameter in die Meta Tags setzen
Eine 301 Weiterleitung setzen
Benutzen von rel=canonical und Cannonical-Urls

20 JS und CSS können nicht gecrawlt werden

Erst im Jahr 2015 gab Google folgendes Statement heraus: „Solange Du Googlebot nicht davon abhaltest, Ihr JavaScript oder CSS files zu crawlen, sind wir generell dazu fähig, Deine Websiten wie moderne Browser zu verstehen.“ Es ist allerdings für andere Suchmaschinen (Yahoo, Bing etc.) relevant. Darüber hinaus bedeutet ‚generell‘ auch, dass in manchen Fällen nicht richtig indexiert wird.

21 Flash Content verhindert das Crawling

Mit der Nutzung von Flash Content begeben Sie sich aufs Glatteis: Sowohl für den User (Flash wird von einigen mobilen Geräten nicht unterstützt) als auch für SEO. Ein Text oder ein Link in einem Flash-Element wird wahrscheinlich von Crawlern nicht indexiert.

Wir empfehlen Ihnen, Flash auf Deiner Website ebenso wenig zu nutzen wie HTML Frames.

22 HTML Frames

Wenn Ihre Seite Frames enthält, gibt es gute und schlechte Neuigkeiten, die damit zusammenhängen. Es ist schlecht, weil HTML Frames extrem veraltet sind und nur wenig indexiert werden. Am besten sollen Sie diese gleich ausbauen.

Fazit

Die beste Keyword Recherche mit der besten Content-Marketing Strategie nutzen nichts, wenn die Seite die erwähnten Probleme ausweist. Eine perfekt optimierte Website ist keine Garantie dafür, dass du gut rankst, wenn der Content nicht gecrawlt werden kann.

Um herauszufinden, was dafür sorgt, dass die Crawler von Google auf der Website fehlgeleitet oder gar blockiert werden, musst man die Domain von oben bis unten untersuchen. Es ist ein mühseliger Aufwand, dies manuell zu machen. Deshalb sollte man die Routineaufgaben an das geeignete Tool abgeben.

Die meisten bekannten Site Audit Lösungen helfen Ihnen Probleme zu identifizieren, kategorisieren und zu evaluieren. Nach der Evaluation können Sie schnellstmöglich handeln und diese beheben.

Darüber hinaus ermöglichen viele Tools das Speichern von Daten von vorhergehenden Audis. Dies hilft Ihnen, ein umfassendes Bild Deiner Website und der technischen Performance über einen Zeitraum hinweg zu bekommen.

Die Crawlability der Webseite verbessern, damit die Webseite besser rankt