SEO Robots.txt pour WordPress – Référencement SEO Décollage Immédiat

Table des matières

Un petit rappel qui pourra vous être utile. J’ai eu plusieurs discussions cette semaine sur le rôle de ce fichier et ses limites. Alors pour m’en souvenir ultérieurement je crée cette note.

Le fichier robots.txt qu’est-ce que c’est?

C’est un fichier qui est placé à la racine de votre domaine www.google.com/robots.txt et qui informe les robots crawlers d’une série de directives sur ce que vous souhaitez leur partager ou pas.

L’objectif est donc de réduire les possibilités que certains dossiers et/ou certains fichiers soient parcouru et in fine indexés. Tout contenu trouvé n’est pas forcément indexé

C’est n’est pas non plus une protection infaillible. Si des liens pointent sur ces parties « interdites » (liens internes à votre site ou liens externes), il est fort possible que ces contenus soient quand-même indexés. En partie pour une raison simple, il n’y a pas qu’un seul GoogleBot qui passe vous voir (et qui donc retiendrait les explications proposées dans le fichier robots.txt) mais plusieurs en fonction des piles de liens qu’ils reçoivent à explorer. Et il leur est impossible de se passer le mot sur votre robots.txt.

Pour compléter ce travail vous devez marquer les contenus interdits à l’aide de balise Meta robots ou activer des en-tête HTTP x-robots-tag voir encore activer des redirection 301 pour différents usages. Balises et en-tête sur lesquelles je reviendrai un autre jour avec plus de détails, et qui elles sont interprétées correctement.

Les 3 niveaux d’instructions :

User-agent: s’adresse à un ou plusieurs robots
Allow ou Disallow : autorise ou pas l’accès
Dossier ou ressource : à tel dossier ou telle ressource (fichier, url, …)

Exemple où on interdit à GoogleBot d’indexer tous les fichiers qui se terminent par …

[cc lang=’robots’ line_numbers=’false’]

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

[/cc]

Comment disparaître de l’indexe Google?

Retirer un site entier ou partie d’un site
Retirer des pages individuelles
Retirer des pages copiées en cache
Retirer des snippets qui apparaissent en dessous du titre dans les classements
Retirer des pages qui ne sont plus à jour
Retirer des images de Google image
Retirer un flux rss de l’agent FeedFetcher
Retirer des pages re-formattées pour les navigateurs mobiles
Utiliser Google WebMaster tools pour diverses opérations

Exemple de fichier pour WordPress

[cc lang=’robots’ line_numbers=’false’]

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /author

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

Sitemap: http://www.mon-domaine.com/sitemap.xml

[/cc]

L’agent ia_archiver est celui de WayBack Machine qui garde des copies historiques des sites …

Ne pas oublier votre sitemap si vous avez généré un fichier à partager.

Exemple de code à ajouter à votre fichier header.php

[cc lang=’php’ ]

[/cc]

Quelques liens intéressants

Si vous souhaitez obtenir d’autres lectures pour comprendre quelques astuces, je vous invite à lire:

la note de Daniel Roch (SEOmix) sur le robots.txt
la page officielle du codex WordPress (anglais)
les recos officielles de Google sur le robots.txt avec une explication sur la façon de tester votre robots.txt
une page très détaillée sur toutes les opérations (presque toutes) possible autour du robots.txt (anglais)

Le fichier robots.txt qu’est-ce que c’est?

Comment disparaître de l’indexe Google?

Exemple de fichier pour WordPress

Exemple de code à ajouter à votre fichier header.php

Quelques liens intéressants

Continuez à lire: