Wenn es um die Bewertung und Feststellung von Problemen auf einer Website geht, lassen sich durch einen Blick in den Index, ohne die Site überhaupt aufgerufen zu haben, schon viele Probleme frühzeitig erkennen. Dabei bedient man sich verschiedenster Site-Abfragen, die einfach in Google’s Suchschlitz getippt werden.
Take Aways:
- „Site:domain.TLD“: Überblick der Seiten im Index und das Snippet Design
- „Site:domain.TLD –site:www.domain.TLD“: Subdomains aufspüren
- „Intitle:“ und „Inurl:“: Fehlerseiten, Suchergebnisseiten und weitere Seitentypen finden
- „Filetype:“: Dateien im Index finden
- Abfrageketten: Müll im Index aufdecken
Doch Vorsicht: Die Anzahl gefundener Seiten wird ab einer bestimmten Größe hochskaliert und ist nicht zu 100% exakt.
Die simpelste Abfrage ist die Site-Abfrage: „site:domain.de“. Sie gibt einen ungefähren Überblick über die Anzahl der indexierten Seiten und zeigt grobe Fehler auf. So kann man z.B. in der Bildersuche feststellen, ob überhaupt Bilder indexiert sind, aber auch, ob es generelle Probleme mit der Indexierung der Seite gibt. Wie so etwas aussehen kann zeigt uns Löwenbräu.
Die einfache Site-Abfrage ist nicht zu unterschätzen. Mit ihr kann man nämlich auch Spam finden, der so sicherlich nicht im Index auftauchen sollte (siehe Beispiel Xing.de).
So bekommt man außerdem ein Gefühl für die Snippets. Da die CTR immer wichtiger wird (zurecht), kann sich hier schon mal ein Eindruck über Title und Description Länge, Vorhandensein des Call to Action, oder sprechende URLs gemacht werden. Snippet-Design gehört zwar nicht in die Indexbereinigung, aber mich interessiert doch auch wie meine Seiten im Index auftauchen, bzw. angeteasert werden.
Um sich einen Überblick über alle Subdomains einer Rootdomain zu verschaffen, benutzt am man folgende Abfrage: „site:domain.de –site:www.domain.de“ (.de ist durch eine beliebige TLD zu ersetzen). Am Beispiel von Spiegel.de findet man so alle Subdomains hübsch aufgelistet, die man ohne Tools wohl eher schwierig gefunden hätte.
Nun weiß Ich schon bevor Ich Spiegel.de besucht habe, dass die Mobile Version der Seite mit Hilfe einer Subdomain umgesetzt wurde und es ein Forum und einen Shop auf Spiegel.de gibt.
Weiter geht es mit der Intitle-Abfrage, die sich beispielsweise gut für die Suche nach Suchergebnisseiten eignet. Bekanntlich mag Google ja keine Götter neben sich und so empfiehlt es sich auch nicht, Suchseiten als solche zu kennzeichnen. Per Site:“domain.de intitle:Suchergebnis“ (oder Suche/Suchergebnisse/etc.) findet man auf diese Art und Weise bei dem Beispiel Puma.de ca. 450 Seiten, deren Title und Inhalt man optimieren könnte oder sollte.

Suchergebnisseiten bei Puma.de
Aber auch Fehlerseiten lassen sich im Index aufspüren, bei Audi.de sind es ca. 550.

Fehlerseiten bei Audi.de
Was man auch nicht unbedingt im Index haben möchte sind Dateien, vorausgesetzt es gibt ein HTML-Pendant dazu. Stellt man zum Beispiel Inhalte als PDF-Download zur Verfügung, ist es ratsamer die HTML Version indexieren zu lassen. Dateien findet man mit Hilfe der Abfrage „filetype:pdf“ (oder „Swf“ für Flash, „Doc“für Word-Dokumente, usw.). Das Beispiel Prosieben.de zeigt in diesem Fall ca. 1.500 indexierte PDF-Dateien.
Hier handelt es sich zwar hauptsächlich um Pressemitteilungen, aber warum sollte man diese nicht als HTML-Dokument indexieren lassen und sich damit zusätzlichen Content schaffen?
Eine sinnvolle Methode zum Aufdecken von unerwünschten Inhalten im Index ist auch das Ausschlussverfahren. Mit der Abfrage „-inurl:verzeichnis“ schließt man nach und nach größere Verzeichnisse aus, um am Ende irrelevante Inhalte aufzudecken. Für das Beispiel Esprit.de habe Ich folgende Abfrage verwendet:
„site:www.esprit.de -inurl:meinesprit -inurl:women -inurl:men -inurl:wohnen -inurl:kids -inurl:help -inurl:shop -inurl:terminal -inurl:aktionen -inurl:employee -inurl:promotion„
Auch so lassen sich Seiten, die eigentlich von der Indexierung ausgesperrt werden sollten, finden.
Site-Abfragen können tiefe Einblicke in die Indexierung einer Website gewähren. Vor allem aber machen sie das Leben leichter, weil vieles auf den ersten Blick ersichtlich wird. Natürlich gibt es noch haufenweise andere Abfragen, die auch teilweise hoch sensible Inhalte aufdecken, oder andere Dateitypen anzeigen. Das wichtigste sollte in diesem Artikel allerdings abgedeckt sein.
Wie geht Ihr bei der Indexbereinigung vor? Sind die hier vorgestellten Methoden für eure Arbeit hilfreich? Let me know!
[…] Basics mit einem Artikel über die Index-Recherche per Site-Abfragen liefert Kevin Indig auf dem TRG-Blog.Nicht so einfach ist die Welt, wenn man versucht, Seiten aus dem Index draußen zu halten. Statt […]
[…] SEO Basics: Indexbereinigung mit Hilfe von Site-Abfragen Wenn es um die Bewertung und Feststellung von Problemen auf einer Website geht, lassen sich durch einen Blick in den Index viele Probleme frühzeitig … http://www.reachblog.de/seo-basics-indexbereinigung-mit…/6924/ […]
[…] schönen Artikel gibts von TRG zum Thema Indexkontrolle. Meiner Meinung ein wirklich unglaublich wichtiger Onpage Faktor. Also ruhig mal […]
Sehr schöner Beitrag. Man vergisst doch immer wieder, was man alles ohne Tools rausfinden kann.
Dank den Beispielen wird das Ganze auch anschaulich. Ohne finde ich so Aneinanderreihungen von Befehlen und Parametern immer sehr schnell verwirrend.
Danke für den nützlichen Beitrag … das ist vielen einfachen Webmastern sicher noch nicht bewusst gewesen, was man alles über die eigene Website mit ein paar Strings im Suchschlitz alles herausfinden kann.