Définition du budget de crawl en SEO

Définition: le budget de crawl en SEO pour Google

Le budget de crawl est en fait la combinaison de 2 facteurs importants sur les ressources que les Googlebots affecteraient à votre site (donc l’énergie et le temps consacrés pour découvrir les URLs de votre site web) :

1) Le taux limite de crawl
2) La demande de crawl

Voici un article qui illustre l’impact de l’hébergement de votre site sur le nombre de pages crawlées par Google.

[1] LE TAUX LIMITE DE CRAWL

Simplement Google calcule une limite de pages à demander pour ne pas faire « tomber » votre serveur, ni impacter le service des pages à vos visiteurs.

C’est lié au nombre maximum et simultané de connexions possibles sur votre site tenant compte du cycle de temps complet entre DEMANDER une page … et ATTENDRE avant de demander la page SUIVANTE.

C’est un paramètre que vous pouvez régler sur la Google Search Console (GSC)

Pour limiter la vitesse d’exploration :

  1. Sur la page d’accueil de la Search Console, cliquez sur le site de votre choix.
  2. Cliquez sur l’icône en forme de roue dentée , puis sur Paramètres du site.
  3. Dans la section Vitesse d’exploration, sélectionnez l’option de votre choix, puis limitez la vitesse d’exploration comme vous le souhaitez.

La nouvelle vitesse d’exploration sera valable pendant 90 jours.

[2] LA DEMANDE DE CRAWL

La demande de crawl est déterminée par la popularité de votre site, le nombre d’URLs ( pages + ressources) et d’autres paramètres techniques.

Donc même si Google n’a pas épuisé se limite de crawl … si la demande est trop faible : Google ne crawlera pas plus de pages sur votre site. Et il ne reviendra pas plus souvent pour voir si vous avez modifié des contenus, ajouté de nouvelles pages, …

Publier régulièrement des contenus est donc une façon d’attirer l’attention pour le motiver à passer plus régulièrement.

Avoir beaucoup de tête de ponts à l’intérieur de vos pages (aka des pages qui reçoivent beaucoup de liens internes) est une autre astuce car Google a souvent tendance à venir les explorer en priorité.  Donc plus vous aurez de tête de pont stratégiques, plus vous augmenterez les visites des pages qui sont liées. Et plus vous aurez de chances de voir ces pages de deuxièmes niveaux classées.

Donc l’architecture interne de votre site est une dimension stratégique à développer.

[3] LE BUDGET DE CRAWL

Il représente le nombre d’URLs que les GoogleBots peuvent et veulent crawler.

Donc vous voyez rapidement toute une série d’impacts sur cette logique … si vous avez un mauvais hébergement et beaucoup de pages.

Mais toute la panoplie des soucis techniques ( URLs/contenu dupliqués, Loopholes liés à une navigation incontrôlée (systèmes à facettes par exemple), les erreurs softs (404, …), … ) vient évidemment pénaliser la « demande ».

Et l’élément stratégique est l’architecture interne du site. Un site sans relief … sans sculpture de PageRank n’aura pas beaucoup de sex appeal pour les robots.

Plus vous aurez de pages, plus cet aspect d’architecture interne sera vital.

C’est comme cela qu’on passe d’un trafic organique de 200.000 à 1.000.000 de visiteurs par mois. (cela fait rêver hein … mais quand vous avez les moyens de produire/gérer beaucoup de contenu, cela est à votre portée).