Définition du budget de crawl en SEO

Voici un article qui illustre l’impact de l’hébergement de votre site sur le nombre de pages crawlées par Google.

Le budget de crawl est en fait la combinaison de 2 facteurs importants :

1) Le taux limite de crawl
2) La demande de crawl

[1] LE TAUX LIMITE DE CRAWL

Simplement la limite que Google calcule pour ne pas faire « tomber » votre serveur, ni impacter le service des pages à vos visiteurs.

C’est lié au nombre maximum et simultané de connexions possibles sur votre site tenant compte du temps complet entre DEMANDER une page … et ATTENDRE avant de demander la page SUIVANTE.

C’est un paramètre que vous pouvez régler sur GSC

https://support.google.com/webmasters/answer/48620?hl=en

[2] LA DEMANDE DE CRAWL

La demande de crawl est déterminée par la popularité de votre site, le nombre d’URLs ( pages + ressources) et d’autres paramètres techniques.

Donc même si Google n’a pas épuisé se limite de crawl … si la demande est trop faible : Google ne crawlera pas plus de pages sur votre site.

[3] LE BUDGET DE CRAWL

Il représente le nombre d’URLs que les GoogleBots peuvent et veulent crawler.

Donc vous voyez rapidement toute une série d’impacts sur cette logique … si vous avez un mauvais hébergement et beaucoup de pages.

Mais toute la panoplie des soucis techniques ( URLs/contenu dupliqués, Loopholes liés à une navigation incontrôlée (systèmes à facettes par exemple), les erreurs softs (404, …), … ) vient évidemment pénaliser la « demande ».

Et l’élément stratégique est l’architecture interne du site. Un site sans relief … sans sculpture de PageRank n’aura pas beaucoup de sex appeal pour les robots.

Plus vous aurez de pages, plus cet aspect d’architecture interne sera vital. C’est comme cela qu’on passe d’un trafic organique de 200.000 à 1.000.000 de visiteurs par mois. (cela fait rêver hein … mais quand vous avez les moyens de produire/gérer beaucoup de contenu, cela est à votre portée).