Robots.txt

Robots.txt est un simple fichier texte que vous placez dans le répertoire racine de votre site web. Les araignées demandent ce fichier en premier, et le traitent avant de parcourir votre site. Robots.txt indique à l’araignée les pages qu’ils sont autorisés à aller chercher.

Un exemple pour bien comprendre comment cela fonctionne. Le plus simple fichier robots.txt possible est le suivante:

User-agent: *
Disallow:

Ça y est! La première ligne identifie l’agent utilisateur (le robot ciblé) – un astérisque signifie que les lignes qui suivent s’appliquent à tous les agents. Le vide derrière le Disallow « : » signifie que rien n’est limité. Ce fichier robots.txt ne fait rien – il permet à tous les agents utilisateurs de tout voir sur le site.

Maintenant, nous allons faire un peu plus complexe – cette fois, nous voulons garder toutes les araignées hors de notre répertoire / faq:

User-agent: *
Disallow: /faq/

Vous voyez comment c’est simple? Le slash est nécessaire pour indiquer qu’il s’agit d’un répertoire. Sans la barre oblique finale, non seulement le répertoire /faq, mais tout fichier dont le nom commence par « FAQ » serait rejeté. Nous pouvons aussi ajouter d’autres répertoires à la liste “refusée”:

User-agent: *
Disallow: /faq/
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /info/about/

Cela est facile. Mais que faire si nous voulons interdire l’accès à un seul fichier? C’est simple:

User-agent: *
Disallow: about.html
Disallow: /faq/faqs.html

Maintenant, soyons plus spécifique. Jusqu’à présent, nous avons créé des règles qui s’appliquent à toutes les araignées, mais comment faire pour une seule araignée? Il suffit d’utiliser son nom:

User-agent: Googlebot
Disallow: /faq/

Maintenant, nous allons combiner le contrôle d’une araignée individuelle avec un fourre-tout:

User-agent: Googlebot
Disallow: /

User-agent: *
Disallow: /faq/

Cet ensemble commande à Googlebot d’aller se faire voir – le caractère slash (« / ») par lui-même signifie que l’ensemble du site est interdit. Pour tous les autres agents, que nous les écartons hors du répertoire / faq.

Chaque enregistrement dans un fichier robots.txt se compose d’une ligne “user-agent”, suivie par une ou plusieurs directives Disallow.

La ligne vierge entre les enregistrements de deux agents «utilisateur» est nécessaire pour que le fichier soit traité correctement.

Si vous souhaitez ajouter des commentaires, vous pouvez utiliser le caractère « # » comme ceci:

# Garder les araignées hors de l'annuaire FAQ
User-agent: *
Disallow: / faq /

Vous pouvez utiliser n’importe quel éditeur de texte qui sauve les textes dans un format Web convivial. J’aime le Notepad ou Unixedit, qui sont tous deux gratuits.

Google a créé sa propre extension au format robots.txt, qui permet l’utilisation de « jokers » pour faire de la reconnaissance partielle sur les noms de fichiers. Yahoo la prend désormais en charge, et leur documentation (http://www.ysearchblog.com/archives/000372.html) est
beaucoup mieux que celle de Google.