Que fait une Araignée (un spider ou un bot) sur votre site web?

La première chose que vous devez comprendre est ce qu’est “le Spider” d’un moteur de recherche et comment il fonctionne.

Une araignée (aussi connue comme un « robot » ou « crawler ») est un logiciel que les moteurs de recherche utilisent pour trouver ce qui existe sur un Web en constante évolution.

Il existe plusieurs types d’araignées, mais pour l’instant intéressons-nous à celle qui « rampe » sur  la toile les liens du web pour trouver des pages.

C’est un peu simpliste comme image, mais fondamentalement, ce programme commence par analyser un site Web.

Il charge ses pages et suit uniquement les liens hypertextes qui le conduisent à de nouvelles pages.

De cette façon, la théorie veut que tout le web finisse par être trouvé, puisque l’araignée rampe d’un site à l’autre.

Les moteurs de recherche peuvent exécuter des milliers d’instances simultanées de leur programme d’exploration, et ceci, sur plusieurs centaines de serveurs.

  1. Quand un robot d’exploration « visite » vos pages web, il charge le contenu de la page dans une base de données.
  2. Une fois qu’une page a été récupérée, le texte extrait de la page est injecté dans l’index du moteur de recherche.

L’index est une gigantesque base de données qui enregistre les mots et les positions où ils apparaissent sur les différentes pages Web.

Donc, il y a en réalité trois étapes dans l’activité d’une araignée.

  1. Elle commence par ramper (télécharger une page),
  2. puis par indexer (décomposer une page en mots pour l’index),
  3. et enfin une étape finale où les liens trouvés ( les adresses Web des pages / les URLs) sont renvoyés à l’araignée pour qu’elle recommence son exploration.

Quand l’araignée ne trouve pas une page (certaines d’entre elles vérifient plus tard qu’une page est vraiment hors ligne), elle finira par être supprimée de l’index.

C’est une des raisons pour lesquelles il est important d’utiliser un fournisseur d’hébergement Web fiable.

Votre serveur doit pouvoir répondre aux sollicitations des crawlers dans les meilleurs délais. Cela a un impact direct sur l’indice « qualité » de vos pages. Et donc sur vos classements.

Note: La pondération des mots (et des expressions à 2, 3, 4 termes) de vos pages est stratégique. Mais malheureusement (pour nous) ce n’est pas le critère unique. Google a annoncé qu’ils combinaient jusqu’à 200 critères pour évaluer la pertinence de vos contenus.