Weshalb werden nur wenige Seiten meiner Website gecrawlt?
Wenn Sie festgestellt haben, dass nur 4-6 Seiten Ihrer Website gecrawlt werden (Ihre Homepage, die URLs der Sitemaps und die robots.txt), liegt das wahrscheinlich daran, dass unser Bot keine ausgehenden internen Links auf Ihrer Homepage finden konnte. Im Folgenden finden Sie mögliche Gründe für dieses Problem.
Möglicherweise gibt es auf der Hauptseite keine ausgehenden internen Links, oder sie sind in JavaScript verpackt. Wenn Sie ein Pro-Paket abgeschlossen haben, analysiert unser Bot keine JavaScript-Inhalte. Wenn also Ihre Homepage Links zum Rest Ihrer Website in JavaScript-Elementen versteckt hat, werden wir diese nicht lesen und diese Seiten crawlen.
Obwohl das Crawlen von JavaScript-Content nur für Guru- und Business-Benutzer zur Verfügung steht, können wir den HTML-Code einer Seite mit JS-Elementen crawlen und die Parameter Ihrer JS- und CSS-Dateien mit unseren Performance-Checks überprüfen, unabhängig vom Typ Ihres Pakets (Pro, Guru oder Business).
In beiden Fällen gibt es einen Weg, um sicherzustellen, dass unser Bot Ihre Seiten crawlen kann. Dazu müssen Sie in Ihren Kampagneneinstellungen die Crawl-Quelle von „Website" auf „Sitemap" oder „URLs aus Datei" ändern:
„Website" ist eine Standardquelle. Das bedeutet, dass wir Ihre Website mit einem Breitensuch-Algorithmus crawlen und durch die Links navigieren, die wir im Code Ihrer Seite sehen - beginnend mit der Startseite.
Wenn Sie eine der anderen Optionen wählen, crawlen wir die Links, die sich in der Sitemap oder in der von Ihnen hochgeladenen Datei befinden.
Unser Crawler könnte auf einigen Seiten in der robots.txt der Website oder durch noindex/nofollow-Tags blockiert worden sein. Ob dies der Fall ist, kannst du in deinem Bericht über gecrawlte Seiten überprüfen:
Sie können Ihre Robots.txt auf Disallow-Befehle überprüfen, die es Crawlern wie unseren unmöglich machen würden, auf Ihre Website zuzugreifen.
Wenn Sie den folgenden Code auf der Hauptseite einer Website sehen, bedeutet dies, dass wir die Links nicht indexieren bzw. ihnen nicht folgen dürfen und dass unser Zugriff blockiert ist. Oder eine Seite, die mindestens eine der folgenden beiden Angaben enthält: „nofollow", „none", verursacht einen Crawling-Fehler.
<meta name="robots" content="noindex, nofollow">
Weitere Informationen zu diesen Fehlern finden Sie in unserem Artikel zur Fehlerbehebung.
Die Grenze für andere Seiten deiner Website liegt bei 2 MB. Wenn eine Seite eine zu große HTML-Größe hat, wird die folgende Fehlermeldung angezeigt:
- What Issues Can Site Audit Identify?
- How many pages can I crawl in a Site Audit?
- Wie lange dauert das Crawlen einer Webseite? Ich habe den Eindruck, mein Audit hängt fest.
- Wie überprüfe ich eine Subdomain?
- Can I manage the automatic Site Audit re-run schedule?
- Can I set up a custom re-crawl schedule?
- Wie wird der Site Health Score im Site Audit Tool berechnet?
- How Does Site Audit Select Pages to Analyze for Core Web Vitals?
- How do you collect data to measure Core Web Vitals in Site Audit?
- Why is there a difference between GSC and Semrush Core Web Vitals data?
- Weshalb werden nur wenige Seiten meiner Website gecrawlt?
- Warum werden mir funktionierende Seiten als defekt angezeigt?
- Why can’t I find URLs from the Audit report on my website?
- Why does Semrush say I have duplicate content?
- Why does Semrush say I have an incorrect certificate?
- What are unoptimized anchors and how does Site Audit identify them?
- What do the Structured Data Markup Items in Site Audit Mean?
- Can I stop a current Site Audit crawl?
- How to Disable JS Rendering and Inspect a Page
- Site Audit konfigurieren
- Fehlerbehebung bei Site Audit
- Site Audit Overview Report
- Thematische Berichte in Site Audit
- Reviewing Your Site Audit Issues
- Site Audit Crawled Pages Report
- Site Audit Statistics
- Compare Crawls and Progress
- Exporting Site Audit Results
- So optimierst du die Crawling-Geschwindigkeit deines Site Audits
- So integrierst du Site Audit mit Zapier
- JS Impact Report