de
English Español Deutsch Français Italiano Português (Brasil) Русский 中文 日本語
Artikel schreiben
Gehe zu blog

18 Gründe, wieso Deine Seite einfach nicht gecrawlt wird!

58
Wow-Score
Der Wow-Score zeigt, wie interessant ein Blog-Beitrag ist. Berechnet wird er anhand der Korrelation zwischen der aktiven Lesezeit von Benutzern, der Geschwindigkeit, mit der sie scrollen, und der Länge des Artikels.

18 Gründe, wieso Deine Seite einfach nicht gecrawlt wird!

Elena Terenteva
18 Gründe, wieso Deine Seite einfach nicht gecrawlt wird!

Du hast hart an Deiner Website gearbeitet und kannst es gar nicht erwarten, dass die Webseite in den Suchergebnissen ganz nach oben steigert? Aber Deine Inhalte kämpft immer für die ersten 10 Positionen in der Suchergebnisse. Wenn Du sicher bist, dass Deine Website in jedem Fall besser gerankt werden müsste, dann könnte das Problem an Deiner Crawlability liegen.

Was ist Crawlability? Suchmaschinen nutzen Search Bots, um die Parameter einzelner Websiten zu sammeln. Dieser Sammelprozess wird ‚Crawling‘ genannt. Basierend auf diesen Daten ordnen die Suchmaschinen Websiten auf ihrem Suchindex an, sodass die Seiten von den Usern gefunden werden können. Die Crawlability einer Website bezeichnet also die Fähigkeit, dass die Search-Bots Zugang zu ihr bekommen können. Du musst sich also sicher sein, dass die Search-Bots die Möglichkeit haben, Deine Website zu finden und den richtigen Zugang haben, um die Daten zu lesen und auszuwerten.

Im Internet sind die Informationen über Crawlability oftmals lückenhaft und kontrovers. Deshalb haben wir uns entschieden, einmal alle möglichen Gründe zusammenzutragen, weshalb Deine Webseite Crawler-unfreundlich sein könnte.

In diesem Zusammenhang haben wir eine Zweiteilung in unterschiedliche Kategorien vorgenommen: Probleme, die Du selbst lösen kannst und Fragen, wofür Du einen Entwickler oder Systemadministrator brauchst. Selbstverständlich hat jeder einen anderen Hintergrund und andere Fähigkeiten, weshalb die Kategorisierung nur eine provisorische ist, die keinen Anspruch auf Vollständigkeit erhebt.

18 Gründe, wieso Deine Seite einfach nicht gecrawlt wird!. Image :n

Probleme, die Du selbst lösen kannst: Du kannst den Code der Website verändern und Root Files anpassen. Dafür brauchst Du jedoch Grundkenntnisse von Coding (also einen Code bzw. einen Teil davon an der richtigen Stelle in der richtigen Art und Weise ändern)

18 Gründe, wieso Deine Seite einfach nicht gecrawlt wird!. Image :n

Probleme, wofür Du einen Spezialisten brauchst: Hierfür werden Kenntnisse über Serveradministration und Web-Development benötigt. 

Der Crawler wird von Meta Tags oder robots.txt blockiert (selbst lösbar)

Diese Art von Problemen ist relativ einfach zu identifizieren und zu lösen. Dafür musst Du lediglich Deine Meta-Tags und robots.txt überprüfen, weshalb Du dort zuerst hinsehen sollten. Die ganze Website oder bestimmte Seiten können von Google unbeachtet bleiben und das hat einen einzigen Grund: Die Search Bots dürfen diese nicht crawlen.

Es gibt verschiedene Bot Befehle, die Page Crawling verhindern. Du solltest beachten, dass es kein Fehler ist, diese Parameter in robots.txt zu haben. Diese sollten nur akkurat und gewissenhaft genutzt werden, um das Budget fürs Crawling zu schonen. Des Weiteren solltest Du mit den Parametern den Bots eine genaue Richtung vorgeben, der diese folgen sollen, um die Seiten zu crawlen, die Du auch gecrawlt haben möchtest.

1. Die Seite am Indexieren über den Robots Meta Tag hindern

Wenn Du dies tun, wird der Search Bot gar nicht erst den Content Deiner Seite beachten und geht direkt zur nächsten Seite über.

Du kannst dieses Problem aufdecken, wenn Du prüfst ob folgender Code in dem Page-Code vorhanden ist:

<meta name="robots" content="noindex" />

2.No-follow Links

In diesem Fall wird der Search Bot den Content Deiner Seite indexieren, aber nicht den Links folgen. Es gibt zwei Arten von No-Follow-Befehlen:

  • Einen für die gesamte Seite. Mit dem Code
     <meta name="robots" content="nofollow">

    wird der Crawler keinem Link folgen.

  • Einen für einen einzelnen Link. Mit diesem Code-Teil
    <a href="pagename.html" rel="nofollow"/>

    wird der Bot dem entsprechenden Link nicht folgen.

 3.Die Seiten am Idexieren hindern durch robots.txt

Robots.txt ist der erste File Deiner Website, den sich die Crawler ansehen. Was am meisten wehtut, ist Folgendes:

User-agent: *
Disallow: /

Diese Codes bedeuten, dass alle Unterseiten der Website nicht indexiert werden können.

Es kann auch passieren, dass nur einige Seiten oder Teile davon geblockt werden, beispielsweise auf diese Art und Weise:

User-agent: *
Disallow: /products /

In diesem Fall wird jede Seite im Subfolder eines Produkts geblockt und nicht indexiert. Aus diesem Grund sind dann keine Deiner Produktbeschreibungen bei Google sichtbar.

Probleme mit Broken Links (selbst lösbar)

Links, die nicht funktionieren, sind immer eine negative Erfahrung für Deine User, aber eben auch für die Crawler. Bei jeder Seite, die ein Bot indexiert oder indexieren will, wird Crawl Budget ausgegeben. Du solltst dies im Hinterkopf behalten, wenn Du viele Links hast, die nicht funktionieren: Denn, solange der Bot versucht die nicht-funktionierenden Links zu indexieren, wird er nicht zu den relevanten und hochqualitativen Seiten vordringen.

Der Crawl Error Bericht in Google Search Console oder der Internal Broken Links Check imSEMrush Site Audit wird Ihnen helfen, diese Art von Problemen zu identifizieren.

4.URL Fehler

In der Regel liegen URL Fehler an einem Tippfehler in der URL, die Du auf Deine Seite eingefügt hast (Textlink, Bilderlink, Formlink). Prüfst Du, ob alle Links richtig geschrieben sind.

5.Veraltete URLs

Dieses Thema solltst Du besonders beachten, wenn Du vor Kurzem einen Website Migration, eine Bulk-Löschung oder eine Veränderung der URL-Struktur hinter sich haben. Vergewisserst Du dich, dass Du nicht von anderen Unterseiten Deiner Page zu der alten oder gelöschten URL verlinken.

6.Seiten mit einem beschränkten Zugang

Wenn Du bemerkst, dass viele Seiten Deiner Website beispielsweise einen 403 Statuscode senden, dann ist Folgendes möglich: Diese Seiten sind nur für registrierte User zugänglich. Markierst Du diese Links als ‚no-follow‘, sodass sie kein Crawl Budget verschwenden.

Nicht funktionierende Links können auch von Problemen des Servers abhängen:

7.Server Fehler

Eine große Anzahl von 5xx Fehler (beispielsweise 502 Fehler) kann ein Signal von Server Problemen sein. Um diese zu lösen, solltst Du der für die Pflege und Entwicklung der Seite zuständigen Person eine Liste mit Fehlercodes überhändigen. Der Zuständige wird darauf achtgeben, dass die Bugs oder die Konfigurationsprobleme behoben werden.

8. Limitierte Server-Kapazität

Sollte Ihr Server überladen sein, könnte er aufhören, auf die Anfragen von Besuchern oder Bots zu reagieren. Wenn dies geschieht, bekommen Deine Besucher die ‚Connection time out‘ Nachricht. Dieses Problem kann nur zusammen mit dem für den Server Zuständigen behoben werden. Er entscheidet, um wie viel die Server-Kapazität vergrößert werden sollte.

9.Misskonfiguration des Web Servers

Dieses Thema ist tricky. Eine Seite kann für Dich als Mensch perfekt sichtbar sein, aber dennoch noch einen Fehler an den Bot geben, sodass alle Seiten nicht gecrawlt werden können. Das kann aufgrund einer speziellen Server Konfiguration geschehen: Einige Web Firewalls (beispielsweise Apache mod_security) blocken den Google Bot oder einen anderen Bot aufgrund Deiner Voreinstellungen. Dieses Problem muss von einem Spezialisten gelöst werden.

Sitemap Fehler (können selbst erkannt werden, müssen vom Spezialisten gelöst werden)

Die Sitemap und robots.txt beeinflussen den ersten Eindruck der Crawler. Eine korrekte Sitemap weist die Crawler an, Deine Seite zu indexieren in der Art und Weise, wie Du es wolltest. Lasst uns doch noch mal auf einzelnen Problemfelder schauen, die bei beim Crawlen (beim Abarbeiten) der Sitemap durch den Bot entstehen können.

10.Fehler des Formats

Es gibt verschiedene Typen von Formatfehlern, beispielsweise eine ungültige URL oder fehlende Tags (hier findest Du eine vollständige Liste mit Lösungen für jeden Fehler).

Du kannst auch herausgefunden haben, dass die Sitemap File von einem robots.txt blockiert wird. Das heißt, dass der Bot keinen Zugang zum Content der Sitemap hat.

11.Falsche Seiten in der Sitemap

Wenn das Crawl Budget begrenzt ist und die Bots nicht die ganze Website crawlen können, dann hilft die Sitemap, die wichtigsten und die relevantesten Seiten zuerst zu indexieren. Verwirrst Du die Bots nicht mit widersprüchlichen Anweisungen: Überprüfst Du, dass die URLs in Deiner Sitemap nicht von Meta-Befehlen oder in robots.txt von der Indexierung ausgeschlossen werden.

Probleme der Seitenarchitektur (an einen Spezialisten abgeben)

Die Probleme dieser Kategorie sind am schwierigsten zu lösen. Wir empfehlen Ihnen deshalb, vorher die bereits angeführten Hinweise zu beachten, bevor Du die nachfolgenden näher betrachtest.

Alle mit der Struktur der Seite zusammenhängenden Probleme können die Crawler desorientieren oder gar blockieren.

12.Falsches oder schlechtes internes Verlinken

In einer optimierten und korrekt angeordneten Websiten-Struktur, die aus einer zusammengehörigen Kette besteht, kann der Crawler einfach jede Seite erreichen.

Auf einer nicht-optimierten Website können einige Seiten außer Sicht der Crawler geraten. Dafür gibt es verschiedene Gründe, die Du mit dem Site Audit Tool von SEMrush ganz einfach aufdecken und kategorisieren kannst:

  • Die Seite, die in den SERPs erscheinen sollte, wird von keiner anderen Seite oder Website verlinkt.
  • Die gewünschteZielseite, die in den SERPs erscheinen sollte, ist zu viele Klicks von der Startseite entfernt. Wir haben diese bei 4 Klicks angesetzt.
  • Mehr als 3000 aktive Links auf einer Seite (zu viele für die Crawler)
  • Die Links sind in unidexizierbaren Seitenelementen versteckt: Frames, Plugins (insbesondere Java und Flash)

Zumeist kann das interne Verlinkungs-Problem nicht oberflächlich und auf einen Schlag behoben werden. Eine ausführliche Analyse der Websiten-Struktur ist hierbei notwendig.

13. Endlose Weiterleitungen

Mit Weiterleitungen leitet man den Besucher von einer alten Seite auf die neue. Dies ist zum Beispiel bei dem Umzug von der alten Adresse der Seite auf die neue der Fall.Es passiert nicht selten, dass die Weiterleitungen sich in die endlosen Schleifen verwandeln oder es einfach zu viele werden.Dabei zählt für Google jede Weiterleitung auch, wenn diese „nur“ bei www. beginnt.Zum Beispiel eine Weiterleitung von www.domain.com auf die domain.com zählt als eine Weiterleitung. Von domain.com/page1.html auf die domain.com/page2.html als die zweite Weiteleitung. Google empfiehlt nicht mehr als 3 Weiterleitungen in Folge einzusetzen. Überprüfst Du die Weiterleitungen, die Du einsetzt.

 14. Langsame Ladegeschwindigkeit

Je schneller Deine Seite lädt, desto schneller kommt der Crawler durch die Seite. Hier ist jede Sekundenbruchteil wichtig. So hängt die Position einer Website in SERP mit der Ladegeschwindigkeit zusammen.

Nutzst Du Google Pagespeed Insights, um zu verifizieren, dass Deine Webseite schnell genug ist. Wenn die Ladegeschwindigkeit zu wünschen übrig lässt, kann dies durch mehreren Faktoren beeinflusst sein:

Faktoren, die mit dem Server zusammenhängen: Deine Website kann aus einem einfachen Grund langsam sein - Die aktuelle Kanalbandbreite reicht einfach nicht mehr aus.Die verfügbare Bandbreite kannst Du in Deinem Tarifplan nachprüfen.

Faktoren, die mit dem Front-End zusammenhängen: Eines der häufigsten Probleme ist ein unoptimierter Code. Falls dies voluminöse Scripts und Plug-ins beinhaltet, ist Deine Seite bedroht. Also vergiss Du nicht, Deine Bilder, Videos und anderen Content zu überprüfen, ob diese optimiert sind und nicht die Ladegeschwindigkeit Deiner Seite verlangsamen.

15. Seiten-Duplikate

Duplicate Content ist das häufigste SEO Problem, das auf 50 % aller Seiten gefunden wird, wie die SEMrush Studie: Die 11 häufigsten SEO Onsite Fehler herausgefunden hat. Das ist der Hauptgrund, weshalb Du Crawl Budget verlierst. Google widmet jeder Website nur eine begrenzte Zeit. Wenn zweimal das Gleiche, also Double Content, indexiert wird, ist dies Verschwendung. Ein anderer Grund ist, dass Crawler nicht wissen, welcher Version sie mehr trauen sollen und somit falschen Seiten Priorität beimessen könnten. Um dieses Problem zu beheben, musst Du Duplicate Pages identifizieren und verhindern, dass sie gecrawlt werden. Das geht so:

  • Löschen von Duplicate Pages
  • Parameter in robots.txt setzen
  • Parameter in die Meta Tags setzen
  • Eine 301 Weiterleitung setzen
  • Benutzen von rel=canonical

 16. Gebrauch von JS und CSS

Erst im Jahr 2015 gab Google folgendes Statement heraus: „Solange Du Googlebot nicht davon abhaltest, Ihr JavaScript oder CSS files zu crawlen, sind wir generell dazu fähig, Deine Websiten wie moderne Browser zu verstehen.“ Es ist allerdings für andere Suchmaschinen (Yahoo, Bing etc.) relevant. Darüber hinaus bedeutet ‚generell‘ auch, dass in manchen Fällen nicht richtig indexiert wird. 

Veraltete Technologien (an einen Spezialisten delegieren)

17.Flash Content

Mit der Nutzung von Flash Content begebst Du sich aufs Glatteis: Sowohl für den User (Flash wird von einigen mobilen Geräten nicht unterstützt) als auch für SEO. Ein Text oder ein Link in einem Flash-Element wird wahrscheinlich von Crawlern nicht indexiert.

Wir empfehlen Ihnen, Flash auf Deiner Website ebenso wenig zu nutzen wie HTML Frames.

18.HTML Frames

Wenn Deine Seite Frames enthält, gibt es gute und schlechte Neuigkeiten, die damit zusammenhängen. Das ist gut, weil es heißt, dass Deine Seite sicherlich ausgereift ist. Es ist aber schlecht, weil HTML Frames extrem veraltet sind und nur wenig indexiert werden. Du solltest diese mit neueren Lösungen so schnell wie möglich ersetzen.

Ersetzt Du die tägliche Schufterei und fokussierst Du dich auf Handlung

Es ist nicht falsch Keywords oder Content zu bearbeiten, mit dem Du unter Googles Radar stehst. Eine perfekt optimierte Website ist keine Garantie dafür, dass Du bestens gerankt wirst (oder überhaupt gerankt werden), wenn der Content nicht gecrawlt werden kann.

Um herauszufinden, was dafür sorgt, dass die Crawler von Google auf Deiner Website fehlgeleitet oder gar blockiert werden, musst Du die Domain von oben bis unten untersuchen. Es ist ein mühselig Aufwand, dies manuell zu machen. Deshalb solltst Du Routineaufgaben an geeignete Tool abgeben. Die meisten bekannten Site Audit Lösungen helfen Ihnen Probleme zu identifizieren, kategorisieren und zu evaluieren. Nach der Evaluation kannst Du schnellstmöglich handeln und diese beheben. Darüber hinaus ermöglichen viele Tools das Speichern von Daten von vorhergehenden Audis. Dies hilft Ihnen, ein umfassendes Bild Deiner Website und der technischen Performance über einen Zeitraum hinweg zu bekommen.

Gibt es andere Probleme, die die Crawlability der Website negativ beeinflussen? Nutzt Du andere Tools, die helfen, die Website zu optimieren und die Probleme zeitnah zu lösen? Kommentierst Du gerne Deine Einschätzung und Erfahrungen!

18 Gründe, wieso Deine Seite einfach nicht gecrawlt wird!. Image :n

 
Elena Terenteva
SEMrush

SEMrush employee.

Elena Terenteva, Product Marketing Manager at SEMrush. Elena has eight years public relations and journalism experience, working as a broadcasting journalist, PR/Content manager for IT and finance companies.
Bookworm, poker player, good swimmer.
Diesen Beitrag teilen
oder

Dein Kommentar

2000
Aditya Thakur
Fan

Nimmt ab und zu an Unterhaltungen teil.

I have to say that you are on the right track. This will be loved by several individuals as it is detailed and interesting. All the best for your future work.
Fan

Nimmt ab und zu an Unterhaltungen teil.

Danke für den Artikel - ich habe mich tatsächlich schon gefragt warum der SEMrush crawler meine Seite NICHT crawlen kann, der Google-Crawler hingegen schon. Kann das mit Punkt 16 (JS und CSS) zu tun haben? Und wenn ja, wie verhindere ich das Scipte gescrawlt werden?
Evgeni Sereda
SEMrush

SEMrush employee.

Frank
Hallo Frank! Wenn du deine Blog Adresse schreibst, so kann ich mir dein zumindest mal anschauen.
Fan

Nimmt ab und zu an Unterhaltungen teil.

Evgeni Sereda
Hallo Sereda - vorab vielen Dank für dein Angebot! Es geht um die Seite www.postkomm.de
Evgeni Sereda
SEMrush

SEMrush employee.

Frank
Hallo Frank! Ich heiße Evgeni. Sereda ist Nachname :-)
Zu deiner Frage: SEMrush-Bot kann deine Seite nicht crawlen. Das Problem liegt nicht an Robots.txt und wohl auch nicht am Punkt 16. Zumindest kann ich von hier aus nichts feststellen.

Wenn es darum geht, das Crawlen von Scripten zu verhinden, muss man zunächst wissen, welchen Crawler du ausschließen willst. Bei einigen geht das mit robots.txt gar nicht. Bei GoogleBot empfiehlt sich die Scripte offen zu lassen. Dies ist die Empfehlung von Google.
Fan

Nimmt ab und zu an Unterhaltungen teil.

Evgeni Sereda
OK danke! Gehe dann mal davon aus, dass es an SEMrush liegt.
Evgeni Sereda
SEMrush

SEMrush employee.

Frank
Solange es crawlt, ist es kein Problem ;-)

Feedback absenden

Your feedback must contain at least 3 words (10 characters).

Wir nutzen Ihre E-Mail ausschließlich zur Reaktion auf Ihr Feedback. Datenschutzbestimmungen

Thank you for your feedback!