Table des matières
Un petit rappel qui pourra vous être utile. J’ai eu plusieurs discussions cette semaine sur le rôle de ce fichier et ses limites. Alors pour m’en souvenir ultérieurement je crée cette note.
Le fichier robots.txt qu’est-ce que c’est?
C’est un fichier qui est placé à la racine de votre domaine www.google.com/robots.txt et qui informe les robots crawlers d’une série de directives sur ce que vous souhaitez leur partager ou pas.
L’objectif est donc de réduire les possibilités que certains dossiers et/ou certains fichiers soient parcouru et in fine indexés. Tout contenu trouvé n’est pas forcément indexé
C’est n’est pas non plus une protection infaillible. Si des liens pointent sur ces parties « interdites » (liens internes à votre site ou liens externes), il est fort possible que ces contenus soient quand-même indexés. En partie pour une raison simple, il n’y a pas qu’un seul GoogleBot qui passe vous voir (et qui donc retiendrait les explications proposées dans le fichier robots.txt) mais plusieurs en fonction des piles de liens qu’ils reçoivent à explorer. Et il leur est impossible de se passer le mot sur votre robots.txt.
Pour compléter ce travail vous devez marquer les contenus interdits à l’aide de balise Meta robots ou activer des en-tête HTTP x-robots-tag voir encore activer des redirection 301 pour différents usages. Balises et en-tête sur lesquelles je reviendrai un autre jour avec plus de détails, et qui elles sont interprétées correctement.
Les 3 niveaux d’instructions :
- User-agent: s’adresse à un ou plusieurs robots
- Allow ou Disallow : autorise ou pas l’accès
- Dossier ou ressource : à tel dossier ou telle ressource (fichier, url, …)
Exemple où on interdit à GoogleBot d’indexer tous les fichiers qui se terminent par …
[cc lang=’robots’ line_numbers=’false’]
User-agent: Googlebot Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$
[/cc]
Comment disparaître de l’indexe Google?
- Retirer un site entier ou partie d’un site
- Retirer des pages individuelles
- Retirer des pages copiées en cache
- Retirer des snippets qui apparaissent en dessous du titre dans les classements
- Retirer des pages qui ne sont plus à jour
- Retirer des images de Google image
- Retirer un flux rss de l’agent FeedFetcher
- Retirer des pages re-formattées pour les navigateurs mobiles
- Utiliser Google WebMaster tools pour diverses opérations
Exemple de fichier pour WordPress
[cc lang=’robots’ line_numbers=’false’]
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /author User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / User-agent: ia_archiver-web.archive.org Disallow: / Sitemap: http://www.mon-domaine.com/sitemap.xml
[/cc]
L’agent ia_archiver est celui de WayBack Machine qui garde des copies historiques des sites …
Ne pas oublier votre sitemap si vous avez généré un fichier à partager.
Exemple de code à ajouter à votre fichier header.php
[cc lang=’php’ ]
[/cc]
Quelques liens intéressants
Si vous souhaitez obtenir d’autres lectures pour comprendre quelques astuces, je vous invite à lire:
- la note de Daniel Roch (SEOmix) sur le robots.txt
- la page officielle du codex WordPress (anglais)
- les recos officielles de Google sur le robots.txt avec une explication sur la façon de tester votre robots.txt
- une page très détaillée sur toutes les opérations (presque toutes) possible autour du robots.txt (anglais)