Robots.txt-Dateien richtig einsetzen
Suchmaschinen crawlen die komplette Webseite, wenn keine robots.txt-Datei erstellt wurde. Wer nicht will, dass bestimmte Seiten einer Website gecrawlt werden, kann das gezielt verhindern. Dazu muss sich die Datei im Hauptverzeichnis der Webseite befinden und den Namen „robots.txt“ tragen. Bei der Erstellung der Datei ist der robots.txt-Generator der Google Webmaster Tools hilfreich. Falls Subdomains verwendet werden, von der bestimmte Seiten gecrawlt werden sollen, muss für die Subdomain eine weitere robots.txt-Datei erstellt werden.
Es gibt mehrere Möglichkeiten mit denen verhindert wird, dass Content in den Suchergebnissen erscheint:
• „NOINDEX“ zum Meta-Tag „robots“ hinzufügen
• .htaccess einsetzen um Verzeichnisse durch Passwörter zu schützen
• Google Webmaster-Tools für die Entfernung von bereits gecrawltem Content verwenden
Heikle oder vertrauliche Inhalte sollten nicht mit robots.txt blockiert werden. Falls es irgendwo im Internet Links zu den URLs gibt (z.B. in Referrer-Logs), können die Suchmaschinen immer noch auf die blockierten URLs verweisen. Dann wird lediglich die URL angezeigt, Titel oder Snippet aber nicht. Zwielichtige oder nicht konform arbeitende Suchmaschinen könnten zudem den Robots Exclusion Standard nicht akzeptieren und Anweisungen in der robots.txt-Datei einfach missachten. Somit könnte jeder Unbefugte sämtliche Verzeichnisse und Unterverzeichnisse in der robots.txt-Datei einsehen und die URLs von Inhalten die eigentlich verborgen bleiben sollen entdecken. Sinnvolle Alternativen sind der Passwortschutz mit .htaccess oder das Verschlüsseln des Contents.
Crawlen unerwünscht
Seiten die an Suchergebnisse erinnern sollte man nicht crawlen lassen. Nutzer sind nicht begeistert, wenn sie die Seite mit Suchergebnissen verlassen, um auf einer ähnlichen Seite mit minimalem Mehrwert zu landen. Abzuraten ist auch Seiten crawlen zu lassen, die das Ergebnis von einem Proxy Server sind.
Bildquelle: © Lupo / pixelio.de