# robots.txt zu http://www.sanadiel.de/ User-agent: * # User-agent: mein-Robot Disallow: /Friends_Zone/ Disallow: /navigate/ Disallow: /privat_zone/ Disallow: /logs/ Disallow: /passwords/ Disallow: /Basketball/bbw_navi01_dateien/ Allow: /Basketball/index.html # ------------------------------------------------------------------------------------------------ # # Erläuterung # # Die erste Zeile ist lediglich eine Kommentarzeile. Kommentarzeilen werden durch ein Gatterzeichen # eingeleitet. # # Ansonsten besteht eine robots.txt aus Datensätzen (records). Im obigen Beispiel sind zwei solcher Datensätze notiert. Ein Datensatz besteht grundsätzlich aus zwei Teilen. Im ersten Teil wird angegeben, für welche Robots (User-agent) die nachfolgenden Anweisungen gelten. Im zweiten Teil werden die Anweisungen selbst notiert. Die Anweisungen bestehen darin, den zuvor bestimmten Robots etwas zu verbieten (Disallow) oder zu erlauben (Allow). # # Jede Zeile eines Datensatzes beginnt mit einem der drei erlaubten Schlüsselwörter User-agent, Disallow oder Allow. Dahinter folgt, durch ein Doppelpunkt und Leerzeichen getrennt, die zugehörige Angabe. Zwischen den Datensätzen wird eine Leerzeile notiert. Innerhalb eines Datensatzes muss zunächst mindestens eine Zeile mit User-agent: beginnen. Dahinter ist immer nur eine Angabe möglich. Wenn Sie mehr als einen bestimmten Robot ansprechen möchten, müssen Sie mehrere Zeilen untereinander notieren, die mit User-agent: beginnen - so wie im ersten Datensatz des obigen Beispiels. Unterhalb der Zeilen, die mit User-agent: beginnen, werden die Zeilen notiert, die mit Disallow oder Allow: beginnen. Die Angaben dazu werden dann von den Robots beachtet, die im gleichen Datensatz mit User-agent spezifiziert wurden. # # Bei User-agent: ist entweder die Angabe * (Sternzeichen) erlaubt, was so viel bedeutet wie "alle Robots", oder der Name eines bestimmten Robots. Diesen Namen müssen Sie allerdings kennen. Wenn Sie * angeben, sollte in dem gleichen Datensatz keine weitere Angabe zu User-agent folgen, da dies dem Platzhalter für "alle" widersprechen würde. # # Hinter jeder Zeile, die mit Disallow: oder Allow: beginnt, können Sie jeweils eine Pfadangabe notieren. Benutzen Sie im Zweifelsfall so viel wie möglich die Angabe Disallow: und so wenig wie möglich die Angabe Allow:. Der Grund ist, dass Disallow: früher in die Spezifikation der robots.txt aufgenommen wurde und von mehr Robots verstanden wird als Allow:. # # Bei den Angaben zu Disallow: und Allow: können Sie Verzeichnispfade und einzelne Dateien mit Pfadangabe angeben. Wildcards wie * oder *.* sind dabei nicht erlaubt. Achten Sie darauf, bei Verzeichnispfaden einen abschließenden Schrägstrich / zu notieren. Wenn Sie nämlich beispielsweise /index notieren, wäre auch die Datei /index.html betroffen, und nicht nur das Unterverzeichnis /index/. # # Im ersten der obigen Beispiel-Datensätze wird angenommen, dass ein superschlauer Robot namens UniversalRobot/1.0 sowie ein selbstgestrickter Robot namens mein-Robot Daten aus dem Verzeichnis /quellen/dtd/ in ihre Suchmaschinen einspeisen. Das ist aber nicht erwünscht, weil in diesem Verzeichnis beispielsweise DTDs für XML-Dateien abgespeichert sind. Deshalb wird speziell diesen beiden Robots der Zugriff auf dieses Verzeichnis (und alle Unterverzeichnisse davon) verboten. Nur die Datei index.html, die im Verzeichnis für die DTDs ebenfalls abgelegt ist, dürfen die beiden Robots trotzdem auslesen. # # Im zweiten Datensatz wird allen Robots verboten, die beiden Unterverzeichnisse /unsinn/ und /temp/ auszulesen. Die Verzeichnisnamen sprechen ja für sich, und es ist leicht ersichtlich, wozu dieses Verbot gut ist: nämlich um überflüssigen Datenmüll in den großen Suchmaschinen zu vermeiden. Ferner wird der Zugriff auf die Datei newsticker.shtml verboten. Der Grund könnte sein, dass diese Datei von einem über Server Side Includes eingebundenen CGI-Script laufend aktuelle Daten erhält, weswegen es keinen Sinn macht, diese Datei in Suchmaschinen aufzunehmen. # Beachten Sie: # # Mit der folgenden Syntax erlauben Sie keinem Suchmaschinen-Robot, auch nur irgendetwas von ihren Daten auszulesen: # User-agent: * # Disallow: / # Mit / bestimmen Sie "alle Daten dieses Verzeichnisses und aller Unterverzeichnisse". # # Mit der folgenden Syntax nehmen Sie einen bestimmten Robot namens mein-Robot von allen anderen Verboten aus: # User-agent: mein-Robot # Disallow: #Durch eine fehlende Angabe hinter Disallow: wird alles erlaubt! #