Web-Archive: Wayback-Machine, Alternativen, SEO-Nutzen

Das Internet ist gigantisch groß. Jeden Tag kommen neue Projekte und Themen hinzu. Jeden Tag verändern sich Webseiten. Web-Archive leisten einen wichtigen Beitrag, um den Ist-Zustand festzuhalten sowie in Zukunft die Vergangenheit zeigen und Vergleiche im Zeitverlauf darstellen zu können.

Was ist ein Web-Archiv? Welchen Nutzen hat es für die Menschen? Gibt es Anwendungsszenarien für die Suchmaschinenoptimierung? Wir gehen den Fragen nach und stellen dir die bekanntesten Web Archive vor.

Der Nutzen: Sinn und Zweck eines Web-Archivs

Auf die Gesamtheit des Internets ist ein unschätzbarer Wert verteilt: Wissen. Dieses Wissen ist nicht immer akademisch abgesichert, aber es sind Informationen in unglaublicher Vielzahl, Ausrichtung und Art zu finden. Es ist daher sinnvoll, dieses Wissen zu archivieren und für die Nachwelt zu erhalten.

Verschiedene Web-Archive wie Internet Archive folgen diesem Ansatz. Sie versuchen, Inhalte zu kopieren, zu speichern, zu katalogisieren und immer wieder durch neue Versionen von Websites zu aktualisieren. So entsteht ein riesiger Informationsschatz. Damit grenzen sie sich auch von Webkatalogen ab, die eine Art Adressverzeichnis sind. Die Web-Archive speichert dagegen den Inhalt.

Das bekannteste Web-Archiv: Internet Archive

Das festgehaltene Wissen kann dazu beitragen, Fragen und Probleme zu lösen. Außerdem ist es eine Dokumentation und zeigt den Werdegang von großen und kleinen Webseiten.

Es sind viele verschiedene Einsatzbereiche denkbar. Diese reichen von Recherchearbeiten über eine Personensuche bis zum Wiederherstellen von vergangenen Projektversionen. Diese Fundgrube ist auch für Wissenschaftler spannend. Denn sie finden hier Zeugnisse der Vergangenheit, wissenschaftliche Quellen und eine Dokumentation gesellschaftlicher Veränderungen.

Einen Nutzen für alle unterstreicht das größte und bekannteste Web-Archiv: Internet Archive. Denn das Projekt versteht sich als nicht-kommerzielles Angebot. Es steht in der Tradition einer umfassenden Bibliothek. Andere Projekte sind dagegen kommerziell ausgerichtet. Sie verbinden Archivierungsarbeiten mit kostenpflichtigen Services.

Welchen SEO-Nutzen haben Web-Archive?

Unabhängig von der immensen Datenmenge: Diese Archive in Bibliothekform sind eine wichtige Errungenschaft. Nun stellst du vielleicht die Frage: Welchen Vorteil bieten dir solche Datenbanken mit Infos über Webseiten für die Suchmaschinenoptimierung?

Es gibt mehrere Nutzungsszenarien. Keines davon wird deine Webseite sofort auf die erste Google-Seite bringen. Aber die Recherche in Archiven kann inhaltliche und strukturelle Inspirationen bringen. Schau dir den potenziellen SEO-Nutzen von Web-Archiven an Nutzungsbeispielen an:

Expired Domains befüllen: Du findest in den Archiven die Inhalte von früheren Versionen einer Webseite. Hast du eine expired Domain, also eine ehemals projektierte Domain, liegt der Nutzen auf der Hand. Du profitierst von alten eingehenden Links. Dazu ist es jedoch wichtig, die Struktur der alten Version herzustellen. Über Informationen aus dem Archiv kannst du mit Glück die URL-Struktur und die Themen heranziehen, um die Domain neu zu projektieren. Du solltest auf eigenen Content setzen. Denn du darfst die gelöschten Inhalte nur dann nutzen, wenn du die erforderlichen Rechte hast. Gelingt es dir, Themen und Struktur zu rekonstruieren, hast du ein neues Projekt, das mit starken Links startet.
Datenverlust ausgleichen: Vielleicht hattest du eine Version online, deren Daten du verloren hast. Nun möchtest du die Inhalte wiederherstellen. Auch dafür ist ein Archiv gut geeignet. Mit etwas Glück findest du genau die Inhalte, die verloren gegangen sind.
Usability und Strukturen perfektionieren: Anhand der Veränderung großer Projekte kannst du Veränderungen der Usability prüfen. Globale Player wie Google oder Amazon unternehmen selten etwas, ohne Veränderungen ausgiebig zu testen und dem aktuellen Nutzerverhalten anzupassen. Durch den Blick auf verschiedene Versionen großer Webseite in deinem Themenfeld erkennst du vielleicht Änderungen der Usability und des Nutzerverhaltens. Lerne von Großen: Diese Inspirationen solltest du in die strukturelle Ausrichtung deiner Webseite einfließen lassen.
Konkurrenz analysieren: Du kannst nicht nur von den Großen lernen. Auch deine direkte Konkurrenz hat vielleicht einige grundlegende Dinge verändert. Wenn dich die direkten Mitbewerber bei Google übertreffen, solltest du prüfen, ob es erkennbare Änderungen in der Vergangenheit gab. Findest du diese, hast du mögliche Ansatzpunkte, um nachzuziehen und deine Seite anzupassen.
Ursachen für Rankingverluste prüfen: Häufig änderst du Details an einer Webseite, hast aber keine Notizen gemacht. Auch alte Versionen sind nicht immer abgespeichert. Kommt es zu Rankingveränderungen, kannst du kaum noch die ursächliche Veränderung herausfinden. Mit einem möglichst tagesaktuellen Archiveintrag kannst du zumindest optisch einen Vergleich ziehen, was genau Ursache der Probleme sein könnte.
Zitate und Quellen sichern: Hin und wieder berufst du dich auf Quellen im Internet. Diese können sich jedoch ändern. Über ein Web-Archiv kannst du die zitierte oder verlinkte Originalseite prüfen. Einige Archive bieten an, beim Zitieren oder Verlinken einer fremden Seite eine Kopie mit eigener URL anzulegen. Das kann wichtig sein, um die eigene Glaubwürdigkeit zu erhalten oder alte Linkziele zu prüfen.

Gegenüber SEO-Tools haben die Vergleiche zwischen zwei Webseiten Versionen einen eigenen Ansatz. Du kannst die alte und die neue Fassung optisch und inhaltlich miteinander vergleichen. Änderungen fallen so leichter ins Auge.

Robots-Angaben für die Archivierung

Nebenbei betreffen dich diese Archive auch aus einem anderen SEO Grund: Sie crawlen teilweise das ganze Internet ab – auch deine Seite. Damit bist du mit deinem Projekt ebenfalls Teil des Informationsschatzes.

Du kannst die Aufnahme in Archive allerdings etwas steuern. Mit einem Eintrag in die Datei robots.txt oder einer Robots-Angabe im Head-Bereich. Das funktioniert bei vielen Crawlern, aber nicht bei allen.

Häufig kannst du das Nicht-Archivieren über dein CMS oder Shopsystem sitewide oder für einzelne Seiten einstellen. Möglich ist das über die Angabe im Head-Bereich der Webseite:

<meta name="robots" content="noarchive" />

Wenn das nicht möglich ist, ist die robots.txt der Ort für passende Anweisungen. Das gehört dann rein:

User-agent: name_des_crawlersDisallow: /

Den Namen des Crawlers musst du für den Eintrag in die Robots-Datei entsprechend anpassen. Es wird immer wieder neue Crawler geben, sodass du auf diese Weise vermutlich nie alle Archive ausschließen wirst.

Es mag einzelne Seiten geben, die nicht in eine Datenbank sollten. Die meisten Web-Archive leisten jedoch gute Arbeit. Es ist Zeit, dir das bekannteste Web-Archivierung vorzustellen.

Internet Archive und Wayback Machine: die Vorzüge des bekanntesten Archivs

Internet Archive oder kurz archive.org ist ein Projekt, das fast so alt ist wie das in der Breite zugängliche Internet. Seit 1996 ist es Anspruch des nicht-kommerziellen Angebots, die Webseiten zu archivieren und zu dokumentieren. Aber mehr noch: Neben den rund 740 Milliarden Webprojekten sind auch Millionen Bücher, Audiofiles, Videos, Bilder und anderer Medienformen digital gespeichert. Damit kommt Internet Archive der Status einer Bibliothek zu.

Archive It ist der Bereich von Internet Archive, in dem Nutzer Inhalte hochladen können

An dem Archivierungsprozess können sich User ähnlich wie bei Wikipedia über „Archive It“ durch Upload von Inhalten beteiligen. Das nutzen unter anderem Bibliotheken, Hochschulen und staatliche Einrichtungen verschiedener Länder.

Die Wayback Machine zum Suchen alter Webseitenversionen

Für den Online-Bereich ist die Wayback Machine besonders spannend. Du kannst hier alte Versionen von Webseiten suchen. Durch Eingabe einer URL erhältst du eine chronologische, kalendarische Ansicht. Auf dieser sind Speicherpunkte gekennzeichnet, über die du nicht nur Screenshots, sondern die ganze alte Seite abrufen kannst.

Die Wayback Machine: URL eingeben, Datum wählen, Snapshot wählen, alte Version erhalten

Es gibt jedoch Einschränkungen: Wenn die Seite archiviert ist, benötigt sie frühere externe Medien wie CSS, Bilder usw. Sind diese nicht mitgespeichert und inzwischen gelöscht, siehst du nur eine klassische, „undesignte“ HTML-Ansicht. Eine aktuell vorhandene Weiterleitung verhindert möglicherweise sogar die Anzeige der alten Seite. Dennoch ist die Wayback Machine von Internet Archive eine Fundgrube für SEO und Usability-Forschung.

Weitere Web-Archive: Welche Alternativen gibt es zur Wayback Machine?

Internet Archive ist das mit Abstand größte und bekannteste Web-Archiv. Es gibt sogar eine Reihe von anderen Projekten, die auf Daten der Seite zugreifen. Aber es gibt viele Alternativen. Teilweise setzen die Archive besondere Schwerpunkte. Einige stellen wir dir hier vor.

Zeitreise mit Memento

The Memento Project mit Time Travel: Memento ist eine Metasuchmaschine, die Archive durchforstet. Spannend ist unter anderem die Funktion „Time Travel“. Indem du eine URL und ein Datum eingibst, erhältst du eine Liste von Fundstücken, die deiner Anfrage chronologisch am nächsten sind. Weitere Funktionen wie ein Snapshot-Tool, eine Chrome-Erweiterung sowie die Darstellung der Evolution von ausgewählten Projekten („what dit it look like“) sind ebenfalls interessant.

Die Zeitreisefunktion von Memento: URL und Zeitpunkt eingeben, dann zeigt die Meta-Suchmaschine relevante Versionen an

Mehr Content finden mit Archive.today

Archive.today: Das Projekt hat einen umfangreichen Fundus an Archivmaterial. Die Vorteile und Funktionen sind ähnlich wie bei archive.org. Zusätzlich kannst du deine Seite speichern lassen und mit den dabei generierten Links auf alte Versionen deiner Webseite zugreifen. Anders als viele andere Archive speichert archive.today dabei auch Bilder, Inhalte in Frames sowie über Skripte nachgeladene Inhalte.

Seiten im Google-Index prüfen

Google Cache/CachedView: Google hat in der Suche in der Vergangenheit die zuletzt indexierte Fassung einer Seite im Cache angezeigt. Das war hilfreich, um Aktualisierungen im Index zu erkennen. Diese Funktion ist inzwischen hinter Seiteninfos „versteckt“. Eine Alternative kann CachedView sein. Das Projekt greift unter anderem auf abrufbare Daten des Google-Caches zu. Zusätzlich nutzt das Projekt weitere Datenquellen.

Über die Google-Suchergebnisse geht es in Zwischenschritten zur Version im Google-Cache – oder direkt über CachedView

Änderungen vorbeugen mit perma.cc

Perma.cc stammt von der Harvard Law School Library. Diese hat in Kooperation mit anderen juristischen Universitätsbibliotheken ein Problem gelöst. Denn fast drei Viertel aller Verweise im Internet sind nach mehreren Jahren nicht mehr gültig oder verändert. Als User kannst du über perma.cc Links zu einer Seite erstellen und diese automatisiert überwachen und so deine Zitate und Quellen auch nach Änderungen auf der Quellen-Seite sichern.

WebCite – das Archiv für sicheres Zitieren

Ähnlich wie Perma.cc funktionierte auch WebCite. Es ging um das Archivieren von jeweils aktuellen Fassungen von Webseiten, damit diese korrekt zitiert werden können. Das Projekt ist länger nicht aktualisiert worden, jedoch sind ältere Einträge weiterhin abrufbar. Wir listen es dir auf, damit du den Namen einordnen kannst.

Alarm bei Änderungen mit Visualping

Visualping ist ein Projekt, das weniger ein echtes Archiv als ein Monitoring-Tool ist. Du kannst dich über Veränderungen an einer der Webseite informieren lassen. Das ist für Suchmaschinenoptimierung ein interessanter Ansatz, um die Konkurrenz zu beobachten.

Visualping erstellt Warnungen, wenn sich zuvor ausgewählte Bereiche ändern

Bei Bedarf rechtssichere Versionen speichern

Pagefreezer/MirrorWeb/Fluxguard/ChangeTower sind kommerzielle Projekte. Sie bieten dir an, verschiedene Versionen deiner Webseite oder Social-Media-Aktivitäten zu speichern und zu archivieren. Teilweise lassen sich auch Warnungen für durch Malware veränderte Inhalte automatisch zustellen. Je nach Sitz deines Projektes kann ein solcher Dienst sinnvoll sein, um mögliche rechtliche Bedingungen zu erfüllen.

Screenshots mit Stillio abrufen

Stillio: Das kostenpflichtige Angebot speichert Screenshots von Webseiten. Du kannst URL und Zeitabstände angeben. Stillio liefert dir jeweils aktuelle Screenshots als Bild. Das kann zum Beispiel nützlich sein, wenn du Webseiten mit Screenshots vorstellst und diese Bilder aktuell halten möchtest.

Screenshots lassen sich unter anderem mit Stillio erstellen und archivieren

Softwareversionen bei GitHub suchen

GitHub: Eigentlich ist diese Plattform für das Anbieten und Verteilen von Open-Source-Code erschaffen worden. Aber sie enthält eine umfangreiche Archivfunktion. Wenn du auf der Suche nach verschiedenen Versionen einer Software bist, könntest du hier fündig werden.

Sammlung von Themenseiten bei der Nationalbibliothek

Deutsche Nationalbibliothek: Die Deutsche Nationalbibliothek speichert Webseiten zu bestimmten Themen. Dabei geht es um ein Erfassen von relevanten Informationen zu gesellschaftspolitisch wichtigen Vorgängen. Die Daten sind online über die eigene Seite nicht abrufbar, werden aber über Archive It in Internet Archive eingespielt.

Die Deutsche Nationalbibliothek speichert ausgewählte Webfundstücke

Menschen über Personensuchen finden

Es gibt verschiedene Portale, die Daten von Personen im Web crawlen und archivieren. Diese crawlen teilweise selbst Daten oder verstehen sich als Meta-Suchmaschine. Wenn du auf der Suche nach Daten zu Personen bist, kannst du eines der Portale wie yasni.de ausprobieren. Allerdings handelt es sich bei den Daten vieler Angeboten weniger um gespeicherte Inhalte als vielmehr um temporäre Webinhalte und verlinkte Elemente.

Vielfältige Recherche- und Nutzungsmöglichkeiten

Bereits diese Auflistung von ausgewählten Angeboten und Nutzungsoptionen zeigt, was „Webseiten-Bibliotheken“ alles können. Für die Suchmaschinenoptimierung der eigenen Webseite bieten sich dir interessante Einblicke, die speziell mit Blick auf den Verlauf Erkenntnisse bringen können. Aber auch ohne SEO-Nutzen lohnt sich vielleicht eine Recherche. Denn über Web-Archive lassen sich Veränderungen und Trends im Internet gut nachvollziehen.

Die wichtigsten Web-Archive und ihr SEO-Nutzen