Ihr Browser ist veraltet. Die Website wird möglicherweise nicht richtig angezeigt. Bitte aktualisieren Sie Ihren Browser.

Wissen
Semrush Toolkits
SEO
Site Audit
Fehlerbehebung beim Site Audit

Fehlerbehebung beim Site Audit

Manual

Funktioniert dein Site Audit nicht richtig?

Es gibt eine Reihe von Gründen, warum Seiten beim Crawlen für das Site Audit blockiert werden können. Die Gründe dafür liegen in der Konfiguration und Struktur deiner Webseite sowie darin:  

  • Die Datei robots.txt blockiert den Crawler
  • Einige Bereiche der Seite sind vom Crawling ausgeschlossen
  • Aufgrund von Problemen beim Shared Hosting ist die Webseite nicht direkt online
  • Die Seiten befinden sich hinter einem geschützten Bereich/ Mitgliederbereich der Seite
  • Der Crawler wird von noindex-Tags blockiert
  • Die DNS der Domain kann nicht aufgelöst werden - die im Setup eingetragene Domain ist offline -
  • Die Webseite enthält Javascript Elemente - unser System prüft nur statische Webseiteninhalte und führt bei dynamischen Elementen nur eine Teilprüfung durch

Die einzelnen Schritte bei der Fehlerbehebung

Führe diese diese Schritte zur Fehlerbehebung durch, um zu sehen, ob du selbst Anpassungen vornehmen kannst, bevor du dich an unser Support-Team wendest, um Hilfe zu erhalten.

Prüfe deine robots.txt Datei auf Befehle für die Sperrung von Crawls

Eine robots.txt Datei enthält Anweisungen für Bots zum Crawlen (oder Nicht-Crawlen) der Seiten einer Webseite. Du kannst Bots wie dem Googlebot oder dem Semrushbot das Crawlen deiner gesamten Webseite oder bestimmter Bereiche deiner Webseite mit Befehlen wie AllowDisallow und Crawl Delay erlauben. 

Wenn deine robots.txt Datei unserem Bot das Crawlen deiner Webseite untersagt, kann unser Tool deine Website im Site Audit nicht überprüfen. 

Du kannst deine robots.txt auf Befehle hin überprüfen, die Crawler wie unsere davon abhalten, deine Webseite zu durchsuchen. 

Damit der Bot für das Site Audit (SemrushBot-SA) deine Seite crawlen kann, füge deiner robots.txt Folgendes hinzu:

User agent: SemrushBot-SA

Disallow:   

(lasse nach "Disallow:" ein Leerzeichen.)

Hier ist ein Beispiel dafür, wie eine robots.txt aussehen kann:

Fehlerbehebung beim Site Audit image 1

Beachte die verschiedenen Befehle basierend auf dem User Agent (Crawler), den die Datei enthält.

Diese Dateien sind öffentlich und müssen auf der obersten Ebene einer Seite gehostet werden, um gefunden zu werden. Um die robots.txt Datei einer Webseite zu finden, gebe die Root-Domain einer Webseite gefolgt von /robots.txt in deinen Browser ein. Die robots.txt Datei auf Semrush.com befindet sich beispielsweise unter https://semrush.com/robots.txt.

Einige Begriffe, die du möglicherweise in einer robots.txt siehst, sind:

  • User-Agent = Das ist der Webcrawler, dem du Befehle erteilst. 
    • Ex: SemrushBot-SI, Googlebot
  • Allow = Ein Befehl (nur für den Googlebot), der den Bot anweist, auch dann eine spezifische Seite oder Bereich einer Seite zu crawlen, wenn das Crawlen für die übergeordnete Seite oder das übergeordnete Verzeichnis nicht erlaubt ist.
  • Disallow = Ein Befehl, der dem Bot vorschreibt, eine spezifische URL oder Unterverzeichnis einer Seite nicht zu crawlen. 
    • Ex: Disallow: /admin/
  • Crawl Delay = Ein Befehl für den Bot, der ihm vorschreibt, wie viele Sekunden er vor dem Laden und Crawlen einer anderen Seite warten soll. 
  • Sitemap = zeigt an, wo sich die sitemap.xml für eine bestimmte URL befindet.
  • / = verwende das "/" Symbol nach einem Disallow-Befehl, um dem Bot mitzuteilen, nicht die gesamte Seite zu crawlen. 
  • * = ein Platzhaltersymbol, das eine beliebige Zeichenfolge möglicher Zeichen in einer URL darstellt und verwendet wird, um einen Bereich einer Seite oder alle User Agents anzuzeigen. 
    • Ex: Disallow: /blog/* würde alle URLs im Unterverzeichnis eines Blogs auf der Seite anzeigen
    • Ex: User agent: * würde Befehle für alle Bots anzeigen

Erfahre mehr über die Eigenschaften der Robots.txt von Google oder auf dem Semrush Blog.

Entferne einschränkende Tags von deiner Seite

Wenn du den folgenden Code auf der Hauptseite einer Webseite siehst, dann sagt uns dass, das wir keine Links darauf indizieren / folgen dürfen und unser Zugriff gesperrt ist.

<meta name="robots" content="noindex, nofollow" >

Oder eine Seite mit mindestens einem der folgenden Elemente: "noindex", "nofollow", "none", führt zu einem Crawling-Fehler.

Damit unser Bot eine solche Seite crawlen kann, entferne diese "noindex"-Tags aus dem Code deiner Seite. Weitere Informationen über die noindex-Tags findest du in diesem Google Support Artikel.

SemrushBot auf die Whitelist setzen

Um den Bot auf die weiße Liste zu setzen, kontaktiere deinen Webmaster oder den Hosting Anbieter und bitte ihn, den SemrushBot-SA und den SiteAuditBot auf die Whitelist zu setzen.

Die IP-Adressen der Bots lauten: 

  • 46.229.173.68
  • 46.229.173.67
  • 46.229.173.66
  • 85.208.98.128/25

Der Bot verwendet den Standard 80 HTTP und 444 HTTPS Ports zum Verbinden.

Verwendest du Plugins (zum Beispiel WordPress) oder CDN (Content Delivery Networks) zur Verwaltung deiner Webseite, dann musst du auch die Bot-IP in diesen auf die Whitelist setzen.

Für die Whitelist in WordPress, kontaktiere den WordPress Support.

Zu den gängigen CDNs, die unseren Crawler blockieren, gehören:

  • Cloudfare - erfahre hier, wie die Whitelisting funktioniert
  • Imperva - hier geht es zur Funktion der Whitelist.
  • ModSecurity - du kannst hier mehr zur Whitelist erfahren.
  • Sucuri - lese hier alles zur Whitelist

Bitte beachten: Wenn du am Shared Hosting teilnimmst, ist es möglich, dass dein Hostinganbieter dir nicht erlaubt, Bots auf die Whitelist zu setzen oder die Datei Robots.txt zu bearbeiten.

Hostinganbieter

Hier ist eine Liste der bekanntesten Hostinganbieter im Internet und wie du einen Bot bei ihnen zur Whitelist hinzufügst oder das Support-Team für Unterstützung kontaktieren kannst. 

  1. Siteground - Anleitungen für die Whitelist
  2. 1&1 IONOS - Anleitungen für die Whitelist
  3. Bluehost* - Anleitungen für die Whitelist
  4. Hostgator* - Anleitungen für die Whitelist
  5. Hostinger - Anleitungen für die Whitelist
  6. GoDaddy - Anleitungen für die Whitelist
  7. GreenGeeks - Anleitungen für die Whitelist
  8. Big Commerce - Kontakt notwendig zum Support
  9. Liquid Web - Kontakt notwendig zum Support
  10. iPage - Kontakt notwendig zum Support
  11. InMotion - Kontakt notwendig zum Support
  12. Glowhost - Kontakt notwendig zum Support
  13. A2 Hosting - Kontakt notwendig zum Support
  14. DreamHost - Kontakt notwendig zum Support

* Bitte beachte: Diese Anweisungen gelten für HostGator und Bluehost, wenn du eine Webseite auf VPS oder Dedicated Hosting hast.

Kontolimits überprüfen

Um zu sehen, wie viel deines aktuellen Budgets für das Crawling verwendet wurde, gehe zu Profile - Subscription Info und suche nach "Pages to crawl" unter "My plan".

Abhängig vom Abo, dass du abgeschlossen hast, kannst du nur eine begrenzte Anzahl von Seiten im Monat crawlen (monatliches Crawling-Budget). Wenn du die in deinem Abonnement zulässige Anzahl an Seiten überschreitest, musst du zusätzliche Limits erwerben oder bis zum nächsten Monat warten, bis deine Limits aktualisiert werden.

Richtige Weiterleitungen (für DNS-Probleme)

Wenn die Domain nicht mit DNS aufgelöst werden konnte, dann bedeutet das meistens, dass die Domain, die du während der Konfiguration eingegeben hast, offline ist. Normalerweise tritt dieses Problem auf, wenn Benutzer eine Root-Domain (example.com) eingeben, ohne zu wissen, dass diese Version ihrer Seite nicht existiert und sie stattdessen die Domain mit dem vorgestellten www. eingeben müssen (www.example.com).  

Um dieses Problem zu vermeiden, könnte der Besitzer der Webseite eine Weiterleitung vom ungesicherten „example.com“ auf das gesicherte „www.example.com“ hinzufügen, das auf dem Server vorhanden ist. Dieses Problem kann auch umgekehrt auftreten, wenn die Stammdomäne einer Person gesichert ist, ihre WWW-Version jedoch nicht. In einem solchen Fall musst du lediglich die WWW-Version auf die Root-Domain umleiten.

Crawling Quelle ändern (Javascript)

Semrush kann derzeit keine JavaScript-Inhalte auslesen. Wenn deine Startseite also Links zum Rest deiner Webseite enthält, die in JavaScript-Elementen verborgen sind, können wir diese nicht lesen und diese Seiten crawlen.

Wir crawlen JavaScript sowie CSS und machen Performance-Checks (verkleinern, komprimieren). Wir können JavaScript nicht übertragen, da wir keine Inhalte und Links erhalten können, die erst nach dem Übertragen angezeigt werden.

Du kannst jedoch ein AJAX-Schema für das Crawling implementieren, dann findet das Site Audit Links in deinem JavaScript und folgt ihnen zu den Inhalten deiner Seite, auf die sie verweisen. Du musst lediglich deine Kampagne erneut ausführen und die Quelle für das Crawling von Webseite zu Sitemap ändern. Du findest weitere Informationen darüber in unseren news realease.

Damit wir bei unserem Crawl nicht die wichtigsten Seiten deiner Webseite auslassen, kannst du die Crawl Source von Webseite auf Sitemap ändern. So verpassen wir keine Seiten, die im Verzeichnis aufgeführt sind.

Obwohl wir keine Inhalte von JavaScript auslesen können, können wir den HTML-Code einer Seite crawlen, die einige JS Elemente enthält und die Parameter deiner JS und CSS Ordner mit unserer Performance überprüfen.

Den User Agent ändern

Es kann sein, dass deine Webseite den SemrushBot in ihrer robots.txt Datei blockiert. Du kannst den User Agent von SemrushBot zu GoogleBot ändern, dann wird deine Webseite wahrscheinlich das Crawlen unseres User Agent zulassen. Um diese Änderung vorzunehmen, klicke auf das Zahnrädchen oben rechts im Projekt und wähle User Agent aus.

Fehlerbehebung beim Site Audit image 2

Sperren in Robots.txt umgehen

Wenn diese Option verwendet wird, werden blockierte interne Ressourcen und Seiten, die für das Crawling blockiert wurden, nicht ausgelöst. Für die Verwendung musst du die Inhaberschaft der Webseite bestätigen.

Diese Möglichkeit ist sinnvoll für Webseiten, die gerade gewartet werden. Die Lösung hilft auch, wenn der Besitzer der Webseite die robots.txt Datei nicht ändern möchte.

Mit deinen Zugangsdaten crawlen

Um private Bereiche deiner Webseite zu überprüfen, die passwortgeschützt sind, gibst du deine Zugangsdaten in der Option „Crawling with your credentials“ bei den Einstellungen ein. Diese Fenster ermöglicht dem Site Audit Bot, auf diese Seiten zuzugreifen und sie zu überprüfen.

Diese Funktion wird dringend für Webseiten empfohlen, die sich noch in der Entwicklung befinden oder privat und vollständig passwortgeschützt sind.

Fehlerbehebung beim Site Audit image 3

Kontakt zum Semrush Support

Wenn du weiterhin Probleme mit deinem Site Audit hast, dann schicke uns eine E-Mail an mail@semrush.com oder ruf uns unter der Telefonnummer an, die du am unteren Ende auf unserer Webseite findest und erläutere uns dein Problem.