Semrush Backlink-Update 2021: Wie wir ein brandneues Backlink-Tool entwickelt haben

Eugene Levin

Juni 15, 20214 Min. Lesedauer
Semrush Backlink-Update 2021: Wie wir ein brandneues Backlink-Tool entwickelt haben

INHALTSVERZEICHNIS

Vor etwa anderthalb Jahren haben wir uns ein Ziel gesetzt.

So war es unser Ziel, die größte, am schnellsten aktualisierte und qualitativ hochwertigste Backlink-Datenbank für unsere Kunden aufzubauen und besser zu sein als die führenden bekannten Wettbewerber auf dem Markt.

Nachdem wir unser Ziel erreicht haben, können wir es kaum erwarten, dass du es selbst ausprobierst! 

Alles, was es brauchte, war eine Kombination von ungefähr 16.722 Tassen Kaffee mit mehr als 500 Servern und 30.000 Arbeitsstunden unseres Teams von Ingenieuren und Datenwissenschaftlern. 

Ganz einfach, oder?

-Cn9nWrYjGVFMO2_Pgb_oNrS6wAKBm8uuS-snvfn4SyYjMNahjmDaTiFrTSuFUzAORzXKF1Zb7xvMOatyvM2-AWyJXVb_Lgyv_wsu37KQS-ZzLps9KDUzG5hPrPaeA

In diesem Blogartikel erfährst du genau, wie viel schneller wir jetzt sind.

Sehen wir uns zuerst an, was neu ist, und kommen dann dazu, wie wir das geschafft haben und welche Probleme wir lösen mussten.

Mit erhöhtem Speicherplatz und dreimal mehr Crawlern hat unsere Backlinks-Datenbank nun die Kapazität, noch mehr zu finden, zu indizieren und zu wachsen. Im Durchschnitt crawlen wir jetzt: 

OpH0qPPu4-3HCr8raWxNUzRQMDjyDlofRaUBuKmXhseXfoBueFI6V_AxCW08ZnN6Suud9sSYrfv2UziK_51PHuDGsb6afiGumFraTvQxBEU2T957eDfAmo9ZALOVHg

Bevor wir uns eingehend mit den Verbesserungen befassen, sehen wir uns an, wie unsere Backlink-Datenbank grundsätzlich funktioniert. 

Zuerst generieren wir eine Warteschlange mit URLs, die entscheidet, welche Seiten gecrawlt werden. 

Dann schwärmen unsere Crawler aus und untersuchen diese Seiten. Wenn sie Hyperlinks identifizieren, die von diesen Seiten auf andere Orte im Internet verweisen, speichern sie diese Informationen.

Als Nächstes gelangten diese Daten früher in einen temporären Speicher, der sie für einen bestimmten Zeitraum aufbewahrte, bevor sie in den öffentlich zugänglichen Speicher verschoben wurden, den jeder Semrush-Nutzer im Tool sehen kann.

Mit dem neuen Build haben wir den Zwischenschritt mit dem temporären Speicher praktisch eliminiert, das Dreifache an Crawlern eingesetzt und vor der Warteschlange eine Reihe von Filtern eingeschaltet, sodass der gesamte Prozess viel schneller und effizienter ist. 

img-semblog

Warteschlange

Einfach ausgedrückt: Es gibt zu viele Seiten im Internet, die gecrawlt werden müssen. 

Manche müssen häufiger gecrawlt werden, andere überhaupt nicht. Daher verwenden wir eine Warteschlange, die entscheidet, in welcher Reihenfolge URLs zum Crawlen übermittelt werden.

Ein häufiges Problem besteht bei diesem Schritt darin, dass zu viele ähnliche, irrelevante URLs gecrawlt werden, was dazu führen kann, dass Nutzer mehr Spam und weniger individuelle verweisende Domains sehen. 

Was haben wir getan?

Zur Optimierung der Warteschlange haben wir Filter hinzugefügt, die einzigartige Inhalte sowie Websites mit höherer Autorität priorisieren und vor Linkfarmen schützen. Dadurch findet das System jetzt mehr eindeutigen Content und generiert weniger Berichte mit doppelten Links. 

Einige Eckpunkte der neuen Funktionsweise:

  • Um unsere Warteschlange vor Linkfarmen zu schützen, prüfen wir, ob eine große Anzahl von Domains zur selben IP-Adresse gehört. Wenn wir zu viele Domains von derselben IP-Adresse erfassen, wird ihre Priorität in der Warteschlange verringert. Dadurch können wir mehr Domains von verschiedenen IP-Adressen crawlen, ohne an einer Linkfarm hängen zu bleiben.
  • Um Websites zu schützen und ein Überfrachten unserer Berichte mit ähnlichen Links zu vermeiden, prüfen wir, ob zu viele URLs von derselben Domain erfasst wurden. Wenn wir zu viele URLs von derselben Domain sehen, werden sie nicht alle am selben Tag gecrawlt.
  • Um sicherzustellen, dass wir neue Seiten so schnell wie möglich erfassen, haben alle URLs eine höhere Priorität, die wir zuvor noch nicht gecrawlt haben.
  • Jede Seite verfügt über einen eigenen Hash-Code, der uns hilft, das Crawlen eindeutiger Inhalte zu priorisieren.
  • Wir berücksichtigen, wie oft auf der Quellseite neue Links generiert werden.
  • Wir berücksichtigen den Authority Score einer Webseite und Domain.

Wie die Warteschlange verbessert wurde 

  • Mehr als 10 verschiedene Faktoren, um unnötige Links herauszufiltern.
  • Mehr einzigartige und qualitativ hochwertige Seiten dank der neuen Algorithmen zur Qualitätskontrolle.

Crawler

Unsere Crawler folgen internen und externen Links im Internet, um neue Seiten mit Links zu finden. Daher können wir eine Seite nur finden, wenn ein Link auf sie verweist.

Bei der Überprüfung unseres vorherigen Systems haben wir eine Chance gesehen, die Gesamt-Crawling-Kapazität zu erhöhen und bessere Inhalte zu finden - die Inhalte, die Website-Betreiber in unserer Datenbank vorfinden möchten.

Was haben wir getan?

  • Die Anzahl unserer Crawler verdreifacht (von 10 auf 30)
  • Das Crawlen von Seiten mit URL-Parametern beendet, die keinen Einfluss auf den Seiteninhalt haben (& sessionid, UTM usw.)
  • Die Häufigkeit des Auslesens von robots.txt-Dateien auf Websites und Befolgen von den darin enthaltenen Direktiven erhöht

Wie die Crawler verbessert wurden

  • Mehr Crawler (nun 30!)
  • Saubere Daten ohne minderwertige oder doppelte Links
  • Besser darin, die relevantesten Inhalte zu finden
  • Crawl-Geschwindigkeit von 25 Milliarden Seiten pro Tag

Speicher

Im Speicher befinden sich alle Links, die du als Semrush-Nutzer sehen kannst. Der Speicher zeigt die Links zu dir im Tool und bietet Filter, die du anwenden kannst, um das Gesuchte zu finden.

Das Hauptproblem unseres alten Speichersystems war, dass es beim Update vollständig neu geschrieben werden musste. Es wurde also alle 2-3 Wochen neu geschrieben und der Prozess begann von vorne. 

So haben sich während des Updates neue Links im Zwischenspeicher angesammelt und wurden erst verzögert für die Nutzer sichtbar. Wir wollten sehen, ob wir die Geschwindigkeit bei diesem Schritt verbessern konnten.

Was haben wir getan?

Wir haben die Architektur von Grund auf neu geschrieben. Um den Bedarf nach temporärer Speicherung zu eliminieren, haben wir die Anzahl unserer Server um mehr als das Vierfache erhöht. 400 %.

Dies nahm über 30.000 Stunden Entwicklerarbeit in Anspruch, um die neuesten Technologien zu implementieren. Nun haben wir ein skalierbares System, das weder jetzt noch in Zukunft an Grenzen stößt.

Wie der Speicher verbessert wurde

  • 500+ Server insgesamt 
  • 287 TB RAM-Speicher
  • 16.128 Kerne
  • 30 PB Gesamtspeicherplatz 
  • Blitzschnelle Filterung und Berichterstellung
  • DIREKTES UPDATE - kein temporärer Speicher mehr

In einer zweiteiligen Studie haben wir die Geschwindigkeit unseres Backlink-Analytics mit Moz, Ahrefs und Majestic verglichen.

Wenn du genau erfahren willst, wie viel schneller unser Tool im Vergleich zu den anderen SEO-Tools auf dem Markt ist, kannst du diesen Blogartikel lesen. 

Wir sind so stolz auf unsere neue Backlink-Analytics-Datenbank, dass wir allen die Chance geben wollen, selbst zu erleben, was sie zu bieten hat. 

Erhalte KOSTENLOS Zugang, indem du dich einfach für ein kostenloses Semrush-Konto anmeldest, und der ganze Bereich Backlink-Analytics steht dir zur Verfügung.

Probiere es aus und lass uns deine Meinung wissen!

Willkommen in der Zukunft des dynamischen Backlink-Managements!

Teilen
Author Photo
Eugene has served as our Chief Strategy and Corporate Development Officer since March 2016. Before joining Semrush he was Investment Director of Target Global from March 2016 to March 2017 and Partner from November 2014 to March 2016. Prior to that, he served as the Co-Founder and Head of Marketing at AggroStudios from September 2013 to November 2014. Eugene also served as a Partner of Foresight Ventures and as a Senior Systems Analyst at Cloudmach Inc.