Googlebot

Fast jede Suchmaschine indiziert die Seiten mit Hilfe von Robotern also kleinen Programmen, die Webseiten über die Hypertext-Links durchforsten. Die Lösung bietet die weltbeste Suchmaschine Google mit ihrem eigenen Roboter (oder Spider, Crawler, Agent), der einen eigenen Namen trägt: Der Googlebot.

 

Wenn eine Website oder besser die Website-Adresse (URL) vorgelegt wird, kommt diese in einer Art Warteschlange und wartet darauf von den Robotern besucht und aufgenommen zu werden. Wenn die Seite nicht auf die traditionelle Art über die Add Url- Seite nicht angemeldet wurde, wird sie trotzdem im Laufe der Zeit von den Robotern gefunden. Dafür reichen die Links von anderen Websites zu dieser Website aus. Diese Art ist der häufigste Weg, um effizient und effektiv als herkömmliche Add Url-Methode Ihre Homepage auf natürliche Weise zu indizieren.

 

Wenn also der Googlebot Ihrer Zielseite erreicht, so überprüft er ob die Datei robots.txt auf Ihrem Server vorhanden ist. Diese Datei wird verwendet, um den Betrieb von Robotern auf der Website zu beschränken und diese ansteuern zu können.

Die Datei robots.txt sollte im Root-Verzeichnis des Servers liegen. Die Datei robots.txt ist eine reine Textdatei, ohne HTML-Tags. Robots.txt verwendet ein spezielles Protokoll – Robots Exclusion Protocol, mit dessen Hilfe der Administrator festlegen kann, welche Ordner / Dateien auf dem Server nicht von der Google-Roboter und anderem Robotern besucht werden können/ dürfen. Wir können auf diese Art und Weise den Zugang zu bestimmten Homepage-Bereichen wie z.B. CGI-Verzeichnis, privat oder temporäres Verzeichnis sperren (disallow).

Der Aufbau einer Robots.txt Datei

 

User-agent: *
Disallow:

Sternchen bedeutet (*) User-agent (Roboter-Name), ist ein Kürzel und steht für “alle Roboter”. Nichts ist untersagt, damit ist alles erlaubt.
 

 

 

User-agent: *
Disallow: /cgi-bin/
Disallow: /privat/
Disallow: /kein-zugang/

In diesem Beispiel können alle Roboter auf die Homepage zugreifen, außer den drei Verzeichnissen: cgi-bin, privat und kein-zugang
 

 

User-agent: CosBot
Disallow: /

In diesem Beispiel kann der Roboter mit dem Namen: CosBot keine Datei oder kein Verzeichnis indixieren der auf diesem Server liegt ( “/” – steht für alle Verzeichnisse)
 

 

 

User-agent: CosBot
Disallow: /privat/
Disallow: /kein-zugang/
Disallow: /bilder/album.html

User-agent: *
Disallow: /privat/
Disallow: /kein-zugang/

Diese Befehle bieten keinen Zugang für den Suchroboter mit dem Namen (Cosmubotowi) zu den Verzeichnissen: privat, kein-zugang und auf die Datei Album.html . All die anderen Robots dagegen können nicht auf die Verzeichnisse privat und kein-zugang zugreifen. Aber auf die Datei Album.html schon.