SEO Robots.txt pour WordPress

Un petit rappel qui pourra vous être utile. J’ai eu plusieurs discussions cette semaine sur le rôle de ce fichier et ses limites. Alors pour m’en souvenir ultérieurement je crée cette note.

Le fichier robots.txt qu’est-ce que c’est?

C’est un fichier qui est placé à la racine de votre domaine  www.google.com/robots.txt et qui informe les robots crawlers d’une série de directives sur ce que vous souhaitez leur partager ou pas.

L’objectif est donc de réduire les possibilités que certains dossiers et/ou certains fichiers soient parcouru et in fine indexés. Tout contenu trouvé n’est pas forcément indexé

C’est n’est pas non plus une protection infaillible. Si des liens pointent sur ces parties « interdites » (liens internes à votre site ou liens externes), il est fort possible que ces contenus soient quand-même indexés. En partie pour une raison simple, il n’y a pas qu’un seul GoogleBot qui passe vous voir (et qui donc retiendrait les explications proposées dans le fichier robots.txt) mais plusieurs en fonction des piles de liens qu’ils reçoivent à explorer. Et il leur est impossible de se passer le mot sur votre robots.txt.

Pour compléter ce travail vous devez marquer les contenus interdits à l’aide de balise Meta robots ou activer des en-tête HTTP x-robots-tag voir encore activer des redirection 301 pour différents usages.  Balises et en-tête sur lesquelles je reviendrai un autre jour avec plus de détails, et qui elles sont interprétées correctement.

Les 3 niveaux d’instructions :

  1. User-agent: s’adresse à un ou plusieurs robots
  2. Allow ou Disallow : autorise ou pas l’accès
  3. Dossier ou ressource : à tel dossier ou telle ressource (fichier, url, …)

Exemple où on interdit à GoogleBot d’indexer tous les fichiers qui se terminent par …

[cc lang=’robots’ line_numbers=’false’]

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

[/cc]

Comment disparaître de l’indexe Google?

Exemple de fichier pour WordPress

[cc lang=’robots’ line_numbers=’false’]

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /author

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

Sitemap: http://www.mon-domaine.com/sitemap.xml

[/cc]

L’agent ia_archiver est celui de WayBack Machine qui garde des copies historiques des sites …

Ne pas oublier votre sitemap si vous avez généré un fichier à partager.

Exemple de code à ajouter à votre fichier header.php

[cc lang=’php’ ]






[/cc]

Quelques liens intéressants

Si vous souhaitez obtenir d’autres lectures pour comprendre quelques astuces, je vous invite à lire: