Weshalb werden nur wenige Seiten meiner Website gecrawlt?
Wenn Sie festgestellt haben, dass nur 4-6 Seiten Ihrer Website gecrawlt werden (Ihre Homepage, die URLs der Sitemaps und die robots.txt), liegt das wahrscheinlich daran, dass unser Bot keine ausgehenden internen Links auf Ihrer Homepage finden konnte. Im Folgenden finden Sie mögliche Gründe für dieses Problem.
Möglicherweise gibt es auf der Hauptseite keine ausgehenden internen Links, oder sie sind in JavaScript verpackt. Wenn Sie ein Pro-Paket abgeschlossen haben, analysiert unser Bot keine JavaScript-Inhalte. Wenn also Ihre Homepage Links zum Rest Ihrer Website in JavaScript-Elementen versteckt hat, werden wir diese nicht lesen und diese Seiten crawlen.
Obwohl das Crawlen von JavaScript-Content nur für Guru- und Business-Benutzer zur Verfügung steht, können wir den HTML-Code einer Seite mit JS-Elementen crawlen und die Parameter Ihrer JS- und CSS-Dateien mit unseren Performance-Checks überprüfen, unabhängig vom Typ Ihres Pakets (Pro, Guru oder Business).
In beiden Fällen gibt es einen Weg, um sicherzustellen, dass unser Bot Ihre Seiten crawlen kann. Dazu müssen Sie in Ihren Kampagneneinstellungen die Crawl-Quelle von „Website" auf „Sitemap" oder „URLs aus Datei" ändern:
„Website" ist eine Standardquelle. Das bedeutet, dass wir Ihre Website mit einem Breitensuch-Algorithmus crawlen und durch die Links navigieren, die wir im Code Ihrer Seite sehen - beginnend mit der Startseite.
Wenn Sie eine der anderen Optionen wählen, crawlen wir die Links, die sich in der Sitemap oder in der von Ihnen hochgeladenen Datei befinden.
Unser Crawler könnte auf einigen Seiten in der robots.txt der Website oder durch noindex/nofollow-Tags blockiert worden sein. Ob dies der Fall ist, kannst du in deinem Bericht über gecrawlte Seiten überprüfen:
Sie können Ihre Robots.txt auf Disallow-Befehle überprüfen, die es Crawlern wie unseren unmöglich machen würden, auf Ihre Website zuzugreifen.
Wenn Sie den folgenden Code auf der Hauptseite einer Website sehen, bedeutet dies, dass wir die Links nicht indexieren bzw. ihnen nicht folgen dürfen und dass unser Zugriff blockiert ist. Oder eine Seite, die mindestens eine der folgenden beiden Angaben enthält: „nofollow", „none", verursacht einen Crawling-Fehler.
<meta name="robots" content="noindex, nofollow">
Weitere Informationen zu diesen Fehlern finden Sie in unserem Artikel zur Fehlerbehebung.

Die Grenze für andere Seiten deiner Website liegt bei 2 MB. Wenn eine Seite eine zu große HTML-Größe hat, wird die folgende Fehlermeldung angezeigt:
