Zum Navigations-Menü
Kein Layout? Lesen Sie hier, warum...

Webplain.de Infosite

robots.txt



Dieser Beitrag entstand aufgrund meiner aktuellen Probleme mit Fireball. Die Datenbank meldete nach einer Neuanmeldung meiner Seiten »Suchroboter nicht zugelassen«.
Ich informierte mich also über die Datei robots.txt.

Wofür ist das Teil gut?

Robots (Spider, Agents, Bots, Crawler etc.) sind die Programme einer Suchmaschine, die losziehen, um Internetseiten aufzusuchen, zu indizieren und in die Datenbank aufzunehmen.
Und wie hält man einen Robot jetzt davon ab, sich eine Seite einzuverleiben? Mit einer Datei namens »robots.txt« im Hauptverzeichnis des Servers oder speziellen Meta-Tags im HTML-Dokument.
Wenn der Spider jetzt auf eine Website kommt, checkt er zuerst den Pfad nach dieser Datei ab (z. B. http://www.webplain.de/robots.txt).

Das Robots Exclusion Protocol

Die robots.txt muss im Hauptverzeichnis des Servers liegen, in Unterverzeichnissen wird sie ignoriert. Wichtig sind die Kleinbuchstaben, RoBoTs.TXT geht also genauso wenig wie ROBOTS.TXT.
Inhaltsmäßig sieht die robots.txt etwa so aus:

User-agent: *
Disallow: /stats/
Disallow: /cgi-bin/
Disallow: /~user/privat/

Hier sind drei Verzeichnisse ausgeschlossen. Wichtig ist, das jedes Verzeichnis seine eigene Zeile bekommt.
Das * bei User-agent: bedeutet »alle Robots«. Solche Wildcards (*, ?) sind sonst nicht erlaubt (z. B. Disallow: /*.gif geht nicht).
Zeilen mit Kommentaren in einer robots.txt ist ein # vorangestellt.

Weitere Beispiele:
Verbot für den ganzen Server für alle Robots:

User-agent: *
Disallow: /

Voller Zugriff für alle Robots:
Leere robots.txt oder

User-agent: *
Disallow:

Einzelne Robots ausschließen:

User-agent: BoeserBot
Disallow: /

Einzelnen Robot erlauben:

User-agent: GuterBot
Disallow:

User-agent: *
Disallow: /

Einzelne Dateien ausschließen:

User-agent: *
Disallow: /login.html
Disallow: /doks/privat.html

Einzelne Dateien zu erlauben ist nicht möglich, so etwas wie Allow: gibt es nicht.

Der Robots Meta-Tag

Haben Sie nicht die Möglichkeit, eine robots.txt auf Ihrem Server zu erstellen (z. B. bei Freespace-Providern), können Sie Ihre HTML-Dateien auch mit einem speziellen Meta-Tag ausstatten, der das Verhalten der Robots bestimmt. Leider wird dies nicht von allen Spidern unterstützt.
Der Meta-Tag im Head-Abschnitt kann z. B. so aussehen:

<meta name="robots" content="index, follow" />

Hierbei wird die Seite indiziert und Links weiterverfolgt.
Der Content kann folgende Inhalte haben:

index = Die Seite wird indiziert.
follow = Links auf der Seite werden verfolgt.
noindex = Die Seite wird nicht indiziert.
nofollow = Links auf der Seite werden nicht verfolgt.
all = index und follow
none = noindex und nofollow

Weitere Beispiele:

<meta name="robots" content="index,follow" />
<meta name="robots" content="noindex,follow" />
<meta name="robots" content="index,nofollow" />
<meta name="robots" content="noindex,nofollow" />

Nicht erlaubt sind natürlich sich widersprechende oder wiederholte Attribute, z. B. <meta name="robots" content="index,noindex,follow,follow" />.

Weitere Informationen

FAQ, Robotsliste, weitere Links (englisch)
http://www.robotstxt.org/wc/robots.html

Kommentare

Es gibt 8 Kommentare zu »robots.txt«.
Neuen Kommentar posten...

1 Am 04. Feb. 2003 schrieb wijo:

sehr gute interpretation der robots.txt....
Kann ich sicher gebrauchen.
Willi

2 Am 21. Feb. 2003 schrieb Ronny:

Beim meta-tag "follow" indexieren die robots weiterführende Links im HTML-Body. Wer weiss ob diese auch im Javascript, speziell in externen JS-Dateien gelesen werden? Ich glaube das der robot nur den Quelltext nach Links durchsucht, aber nichts ausführt und Links in externen JS-Dateien deshalb nicht findet. Wer weiss was ?

3 Am 12. Okt. 2004 schrieb W.Drath:

Hallo Leute,
ich habe für meine Webseite eine indexseite mit der Definition der Frames. (Haupt,Oben und links). Nach dem Suchmaschineneintrag wurde neben der Hauptdomain auch die Obenseite in der nicht viel drin ist aufgeführt. Was habe ich mit den Robots falsch gemacht? Sollen die Robots-Angaben nur in der index-Seite angegeben werden?
Besten Dank im Voraus.
Werner. D.

4 Am 13. Mär. 2006 schrieb Uli:

Moin zusammen,

habe auf einer Free-Domain (home.arcor.de) die metatags entsprechend gesetzt, die robots funktionieren aber nicht! Ein offizieller RFC wure nicht bearbeitet ... kann mir jemand Auskunft geben????? Danke schon mal!
Uli

5 Am 09. Mai. 2006 schrieb Compiler:

Danke für die kleinen Snippets.
Haben mir geholfen. Fireball sollte das Problem nicht haben.

Compiler
[www.pcmasters.de]

6 Am 30. Apr. 2010 schrieb Marcel:

Auch wenn der letzte Eintrag schon länger her ist, hat mir dieser Beitrag sehr weitergeholfen.

Vielen Dank!!

Marcel

(www.pc-pedia.de)

7 Am 21. Mai. 2010 schrieb accesbsurn:

Sehr informativ ... gefällt mir...

Hab länger gesucht aber das aussperren einer einzelnen Datei nicht ergooglen können ... außer hier !

Grüße aus Ffm
Toby



[www.accessburn.de]

8 Am 19. Jul. 2010 schrieb Philip Kaie:

Vielen Dank für den Artikel. Wollte schon immer genau wissen was es mit robots/crawlern auf sich hat.

[www.senioren65plus.de]

Neuer Kommentar

Richten Sie generelle Fragen bitte ins Webdesign & Internet-Forum!









Nach oben
© 2000-2010 Clemens Weiß | Webplain.de
Link zu dieser Seite | Letzte Änderung: 26. Okt. 2008