Zum Inhalt springen
Wissen
Semrush Toolkits
SEO
Site Audit
Fehlerbehebung beim Site Audit

Fehlerbehebung beim Site Audit

Funktioniert dein Site Audit nicht richtig?

Es gibt eine Reihe von Gründen, warum Seiten beim Crawlen für das Site Audit blockiert werden können. Die Gründe dafür liegen in der Konfiguration und Struktur deiner Webseite sowie darin:  

  • Die Datei robots.txt blockiert den Crawler
  • Einige Bereiche der Seite sind vom Crawling ausgeschlossen
  • Aufgrund von Problemen beim Shared Hosting ist die Webseite nicht direkt online
  • Die Seiten befinden sich hinter einem geschützten Bereich/ Mitgliederbereich der Seite
  • Der Crawler wird von noindex-Tags blockiert
  • Die DNS der Domain kann nicht aufgelöst werden - die im Setup eingetragene Domain ist offline -
  • Die Webseite enthält Javascript Elemente - unser System prüft nur statische Webseiteninhalte und führt bei dynamischen Elementen nur eine Teilprüfung durch

Die einzelnen Schritte bei der Fehlerbehebung

Führe diese diese Schritte zur Fehlerbehebung durch, um zu sehen, ob du selbst Anpassungen vornehmen kannst, bevor du dich an unser Support-Team wendest, um Hilfe zu erhalten.

Eine robots.txt Datei enthält Anweisungen für Bots zum Crawlen (oder Nicht-Crawlen) der Seiten einer Webseite. Du kannst Bots wie dem Googlebot oder dem Semrushbot das Crawlen deiner gesamten Webseite oder bestimmter Bereiche deiner Webseite mit Befehlen wie AllowDisallow und Crawl Delay erlauben. 

Wenn deine robots.txt Datei unserem Bot das Crawlen deiner Webseite untersagt, kann unser Tool deine Website im Site Audit nicht überprüfen. 

Du kannst deine robots.txt auf Befehle hin überprüfen, die Crawler wie unsere davon abhalten, deine Webseite zu durchsuchen. 

Damit der Bot für das Site Audit (SiteAuditBot) deine Seite crawlen kann, füge deiner robots.txt Folgendes hinzu:

User agent: SiteAuditBot

Disallow:   

(lasse nach "Disallow:" ein Leerzeichen.)

Hier ist ein Beispiel dafür, wie eine robots.txt aussehen kann:

Fehlerbehebung beim Site Audit image 1

Beachte die verschiedenen Befehle basierend auf dem User Agent (Crawler), den die Datei enthält.

Diese Dateien sind öffentlich und müssen auf der obersten Ebene einer Seite gehostet werden, um gefunden zu werden. Um die robots.txt Datei einer Webseite zu finden, gebe die Root-Domain einer Webseite gefolgt von /robots.txt in deinen Browser ein. Die robots.txt Datei auf Semrush.com befindet sich beispielsweise unter https://semrush.com/robots.txt.

Einige Begriffe, die du möglicherweise in einer robots.txt siehst, sind:

  • User-Agent = Das ist der Webcrawler, dem du Befehle erteilst. 
    • Ex: SiteAuditBot, Googlebot
  • Allow = Ein Befehl (nur für den Googlebot), der den Bot anweist, auch dann eine spezifische Seite oder Bereich einer Seite zu crawlen, wenn das Crawlen für die übergeordnete Seite oder das übergeordnete Verzeichnis nicht erlaubt ist.
  • Disallow = Ein Befehl, der dem Bot vorschreibt, eine spezifische URL oder Unterverzeichnis einer Seite nicht zu crawlen. 
    • Ex: Disallow: /admin/
  • Crawl Delay = Ein Befehl für den Bot, der ihm vorschreibt, wie viele Sekunden er vor dem Laden und Crawlen einer anderen Seite warten soll. 
  • Sitemap = zeigt an, wo sich die sitemap.xml für eine bestimmte URL befindet.
  • / = verwende das "/" Symbol nach einem Disallow-Befehl, um dem Bot mitzuteilen, nicht die gesamte Seite zu crawlen. 
  • * = ein Platzhaltersymbol, das eine beliebige Zeichenfolge möglicher Zeichen in einer URL darstellt und verwendet wird, um einen Bereich einer Seite oder alle User Agents anzuzeigen. 
    • Ex: Disallow: /blog/* würde alle URLs im Unterverzeichnis eines Blogs auf der Seite anzeigen
    • Ex: User agent: * würde Befehle für alle Bots anzeigen

Erfahre mehr über die Eigenschaften der Robots.txt von Google oder auf dem Semrush Blog.

Wenn du den folgenden Code auf der Hauptseite einer Webseite siehst, dann sagt uns dass, das wir keine Links darauf indizieren / folgen dürfen und unser Zugriff gesperrt ist.

<meta name="robots" content="noindex, nofollow" >

Oder eine Seite mit mindestens einem der folgenden Elemente: "noindex", "nofollow", "none", führt zu einem Crawling-Fehler.

Damit unser Bot eine solche Seite crawlen kann, entferne diese "noindex"-Tags aus dem Code deiner Seite. Weitere Informationen über die noindex-Tags findest du in diesem Google Support Artikel.

Um den Bot auf die weiße Liste zu setzen, kontaktiere deinen Webmaster oder den Hosting Anbieter und bitte ihn, den SiteAuditBot auf die Whitelist zu setzen.

Die IP-Adressen der Bots lauten 85.208.98.128/25

Der Bot verwendet den Standard 80 HTTP und 444 HTTPS Ports zum Verbinden.

Verwendest du Plugins (zum Beispiel WordPress) oder CDN (Content Delivery Networks) zur Verwaltung deiner Webseite, dann musst du auch die Bot-IP in diesen auf die Whitelist setzen.

Für die Whitelist in WordPress, kontaktiere den WordPress Support.

Zu den gängigen CDNs, die unseren Crawler blockieren, gehören:

  • Cloudfare - erfahre hier, wie die Whitelisting funktioniert
  • Imperva - hier geht es zur Funktion der Whitelist.
  • ModSecurity - du kannst hier mehr zur Whitelist erfahren.
  • Sucuri - lese hier alles zur Whitelist

Bitte beachten: Wenn du am Shared Hosting teilnimmst, ist es möglich, dass dein Hostinganbieter dir nicht erlaubt, Bots auf die Whitelist zu setzen oder die Datei Robots.txt zu bearbeiten.

Hostinganbieter

Hier ist eine Liste der bekanntesten Hostinganbieter im Internet und wie du einen Bot bei ihnen zur Whitelist hinzufügst oder das Support-Team für Unterstützung kontaktieren kannst. 

  1. Siteground - Anleitungen für die Whitelist
  2. 1&1 IONOS - Anleitungen für die Whitelist
  3. Bluehost* - Anleitungen für die Whitelist
  4. Hostgator* - Anleitungen für die Whitelist
  5. Hostinger - Anleitungen für die Whitelist
  6. GoDaddy - Anleitungen für die Whitelist
  7. GreenGeeks - Anleitungen für die Whitelist
  8. Big Commerce - Kontakt notwendig zum Support
  9. Liquid Web - Kontakt notwendig zum Support
  10. iPage - Kontakt notwendig zum Support
  11. InMotion - Kontakt notwendig zum Support
  12. Glowhost - Kontakt notwendig zum Support
  13. A2 Hosting - Kontakt notwendig zum Support
  14. DreamHost - Kontakt notwendig zum Support

* Bitte beachte: Diese Anweisungen gelten für HostGator und Bluehost, wenn du eine Webseite auf VPS oder Dedicated Hosting hast.

Um zu sehen, wie viel deines aktuellen Budgets für das Crawling verwendet wurde, gehe zu Profile - Subscription Info und suche nach "Pages to crawl" unter "My plan".

Abhängig vom Abo, dass du abgeschlossen hast, kannst du nur eine begrenzte Anzahl von Seiten im Monat crawlen (monatliches Crawling-Budget). Wenn du die in deinem Abonnement zulässige Anzahl an Seiten überschreitest, musst du zusätzliche Limits erwerben oder bis zum nächsten Monat warten, bis deine Limits aktualisiert werden.

Solltest du auf den Fehler “Sie haben das Limit für gleichzeitige Kampagnen erreicht” stoßen, bedenke bitte, dass für verschiedene Paketstufen unterschiedliche Limits für gleichzeitige Audits gelten.

  • Free: 1
  • Pro: 2
  • Guru: 2
  • Business: 5

Wenn die Domain nicht mit DNS aufgelöst werden konnte, dann bedeutet das meistens, dass die Domain, die du während der Konfiguration eingegeben hast, offline ist. Normalerweise tritt dieses Problem auf, wenn Benutzer eine Root-Domain (example.com) eingeben, ohne zu wissen, dass diese Version ihrer Seite nicht existiert und sie stattdessen die Domain mit dem vorgestellten www. eingeben müssen (www.example.com).  

Um dieses Problem zu vermeiden, könnte der Besitzer der Webseite eine Weiterleitung vom ungesicherten „example.com“ auf das gesicherte „www.example.com“ hinzufügen, das auf dem Server vorhanden ist. Dieses Problem kann auch umgekehrt auftreten, wenn die Stammdomäne einer Person gesichert ist, ihre WWW-Version jedoch nicht. In einem solchen Fall musst du lediglich die WWW-Version auf die Root-Domain umleiten.

Falls Ihre Startseite Links zum Rest Ihrer Website enthält, die in JavaScript-Elementen enthalten sind, müssen Sie JS-Rendering aktivieren, damit wir sie lesen und diese Seiten crawlen können. Diese Funktion ist in einem Guru- oder Business-Paket verfügbar.

Damit dir die wichtigsten Seiten auf Ihrer Website bei unserem Crawl nicht übersehen, können Sie die Crawl-Quelle von Website auf Sitemap ändern – so lassen wir keine Seiten aus, die in Ihrer Sitemap stehen.

Wir können auch das HTML auf einer Seite mit einigen JS-Elementen crawlen. Außerdem können wir die Parameter Ihrer JS- und CSS-Dateien mit unseren Performance-Checks überprüfen.

Es kann sein, dass deine Webseite den SemrushBot in ihrer robots.txt Datei blockiert. Du kannst den User Agent von SemrushBot zu GoogleBot ändern, dann wird deine Webseite wahrscheinlich das Crawlen unseres User Agent zulassen. Um diese Änderung vorzunehmen, klicke auf das Zahnrädchen oben rechts im Projekt und wähle User Agent aus.

User agent settings in Site Audit

Wenn diese Option verwendet wird, werden blockierte interne Ressourcen und Seiten, die für das Crawling blockiert wurden, nicht ausgelöst. Für die Verwendung musst du die Inhaberschaft der Webseite bestätigen.

Diese Möglichkeit ist sinnvoll für Webseiten, die gerade gewartet werden. Die Lösung hilft auch, wenn der Besitzer der Webseite die robots.txt Datei nicht ändern möchte.

Um private Bereiche deiner Webseite zu überprüfen, die passwortgeschützt sind, gibst du deine Zugangsdaten in der Option „Crawling with your credentials“ bei den Einstellungen ein. Diese Fenster ermöglicht dem Site Audit Bot, auf diese Seiten zuzugreifen und sie zu überprüfen.

Diese Funktion wird dringend für Webseiten empfohlen, die sich noch in der Entwicklung befinden oder privat und vollständig passwortgeschützt sind.

Crawling with credentials in Site Audit

Kontakt zum Semrush Support

Sollten Sie weitere Hilfe benötigen, dann bitte kontaktieren Sie unser Support-Team.