Warum nur einige wenige Seiten meiner Website gecrawlt werden

Wissen

Semrush-Toolkits

SEO

Site Audit

Weshalb werden nur wenige Seiten meiner Website gecrawlt?

Wenn Sie festgestellt haben, dass nur 4-6 Seiten Ihrer Website gecrawlt werden (Ihre Homepage, die URLs der Sitemaps und die robots.txt), liegt das wahrscheinlich daran, dass unser Bot keine ausgehenden internen Links auf Ihrer Homepage finden konnte. Im Folgenden finden Sie mögliche Gründe für dieses Problem.

Problem mit ausgehenden internen Links

Möglicherweise gibt es auf der Hauptseite keine ausgehenden internen Links, oder sie sind in JavaScript verpackt. Wenn Sie ein Pro-Paket abgeschlossen haben, analysiert unser Bot keine JavaScript-Inhalte. Wenn also Ihre Homepage Links zum Rest Ihrer Website in JavaScript-Elementen versteckt hat, werden wir diese nicht lesen und diese Seiten crawlen.

Obwohl das Crawlen von JavaScript-Content nur für Guru- und Business-Benutzer zur Verfügung steht, können wir den HTML-Code einer Seite mit JS-Elementen crawlen und die Parameter Ihrer JS- und CSS-Dateien mit unseren Performance-Checks überprüfen, unabhängig vom Typ Ihres Pakets (Pro, Guru oder Business).

In beiden Fällen gibt es einen Weg, um sicherzustellen, dass unser Bot Ihre Seiten crawlen kann. Dazu müssen Sie in Ihren Kampagneneinstellungen die Crawl-Quelle von „Website" auf „Sitemap" oder „URLs aus Datei" ändern:

Die Optionen für die Crawl-Quelle sind im Fenster Site Audit-Einstellungen hervorgehoben.

„Website" ist eine Standardquelle. Das bedeutet, dass wir Ihre Website mit einem Breitensuch-Algorithmus crawlen und durch die Links navigieren, die wir im Code Ihrer Seite sehen - beginnend mit der Startseite.

Wenn Sie eine der anderen Optionen wählen, crawlen wir die Links, die sich in der Sitemap oder in der von Ihnen hochgeladenen Datei befinden.

Der Site Audit Crawler könnte blockiert worden sein

Unser Crawler könnte auf einigen Seiten in der robots.txt der Website oder durch noindex/nofollow-Tags blockiert worden sein. Ob dies der Fall ist, kannst du in deinem Bericht über gecrawlte Seiten überprüfen:

Wie kann ich überprüfen, ob unser Crawler auf einigen Seiten im Bericht über die gecrawlten Seiten blockiert wurde?

Sie können Ihre Robots.txt auf Disallow-Befehle überprüfen, die es Crawlern wie unseren unmöglich machen würden, auf Ihre Website zuzugreifen.

Wenn Sie den folgenden Code auf der Hauptseite einer Website sehen, bedeutet dies, dass wir die Links nicht indexieren bzw. ihnen nicht folgen dürfen und dass unser Zugriff blockiert ist. Oder eine Seite, die mindestens eine der folgenden beiden Angaben enthält: „nofollow", „none", verursacht einen Crawling-Fehler.

<meta name="robots" content="noindex, nofollow">

Weitere Informationen zu diesen Fehlern finden Sie in unserem Artikel zur Fehlerbehebung.

Ihre Homepage ist größer als 4 MB

Site Audit ist derzeit in der Lage, Homepages zu analysieren, die nicht größer als 4 MB sind.

A pop up window that appears if your Site Audit fails to start. It states: 'We encountered an error that stopped us from crawling your website: The size of the main page is too large (more than 4 MB) for search engine crawlers to load it.'

A pop up window that appears if your Site Audit fails to start. It states: 'We encountered an error that stopped us from crawling your website: The size of the main page is too large (more than 4 MB) for search engine crawlers to load it.'

Die Grenze für andere Seiten deiner Website liegt bei 2 MB. Wenn eine Seite eine zu große HTML-Größe hat, wird die folgende Fehlermeldung angezeigt:

Ein Beispiel für den Problembericht, wenn in der Suchleiste ein Häkchen bei 'html' gesetzt wurde. In der Fehlerliste steht: '1 Seite hat eine zu große HTML-Größe'.

Ein Beispiel für den Problembericht, wenn in der Suchleiste ein Häkchen bei 'html' gesetzt wurde. In der Fehlerliste steht: '1 Seite hat eine zu große HTML-Größe'.

Ist dieser Artikel hilfreich?