Google sur la détection et la canonisation des doublons

Article traduit librement depuis Google sur la détection et la canonisation des doublons

Ce matin, nos amis de Google, John Mueller, Martin Splitt, Gary Illyes et aussi Lizzi Harvey (rédactrice technique de Google) a posté un nouveau podcast. C’était évidemment amusant à écouter, mais Gary Illyes y est allé très loin sur la manière dont Google gère la détection des contenus dupliqués, c’est-à-dire la détection des doublons et ensuite la canonisation. Ce n’est pas la même chose.

La version courte est que Google crée une somme de contrôle pour chaque page, c’est en gros comme une empreinte digitale unique du document basée sur les mots de la page. Ainsi, si deux pages ont la même somme de contrôle, c’est en gros la façon dont Google détermine quelles pages se répètent. Une somme de contrôle est une donnée de petite taille dérivée d’un bloc de données numériques dans le but de détecter les erreurs qui ont pu être introduites lors de sa transmission ou de son stockage. Les sommes de contrôle sont souvent utilisées pour vérifier l’intégrité des données, mais ne sont pas utilisées pour vérifier l’authenticité des données.

La détection des doublons et la canonisation ne sont pas la même chose. Gary a dit « d’abord, vous devez détecter les doublons, les regrouper, en disant que toutes ces pages sont des doublons les unes des autres, et ensuite vous devez trouver une page de tête pour chacune d’entre elles ». « Et c’est la canonisation. Donc, vous avez la duplication, qui est le terme entier, mais à l’intérieur de cela vous avez la construction de groupes, comme la construction de groupes de dupe, et la canonisation », a-t-il ajouté.

Comment fonctionne la détection de la fraude ? Gary a déclaré : « Pour la détection des doublons, ce que nous faisons, c’est que nous essayons de détecter les doublons. Et c’est peut-être la façon dont la plupart des utilisateurs d’autres moteurs de recherche le font, c’est-à-dire en réduisant le contenu en un hachage ou une somme de contrôle, puis en comparant les sommes de contrôle. Et c’est parce qu’il est beaucoup plus facile de faire cela que de comparer peut-être 3 000 mots, ce qui est le minimum pour être bien classé dans n’importe quel moteur de recherche ».

Ils ont fait une blague sur les 3 000 mots d’une page pendant un moment.

Gary poursuit en expliquant que « nous réduisons le contenu en une somme de contrôle. Et nous faisons cela parce que nous ne voulons pas scanner tout le texte, parce que cela n’a tout simplement pas de sens, essentiellement. Cela demande plus de ressources et le résultat serait à peu près le même. Donc, nous calculons plusieurs types de sommes de contrôle sur le contenu textuel de la page et nous comparons les sommes de contrôle ».

Il ne s’agit pas seulement de doublons exacts, mais de quasi-doublons, a expliqué Gary. Il a dit « Il peut attraper les deux », il a dit « il peut aussi attraper les quasi-doublons ». « Nous avons plusieurs algorithmes qui, par exemple, essaient de détecter puis d’enlever la plaque chauffante des pages. Ainsi, par exemple, nous excluons la navigation du calcul de la somme de contrôle, nous supprimons également le pied de page, et nous nous retrouvons avec ce que nous appelons la pièce centrale, qui est le contenu central de la page », a-t-il ajouté.

Puis ils se sont mis à faire des blagues sur la viande et les végétariens, dont beaucoup sont végétariens. Gary et Liz et beaucoup d’autres semblent filtrer les e-mails de leur patron, Sundar Pichai. 🙂

Gary va plus loin dans la détection de ces dupes :

Oui. Et puis, en gros, si le numéro change, alors la grappe de dupe sera, encore une fois, différente, parce que le contenu des deux grappes sera différent, parce que vous avez un nouveau numéro dans la grappe. Donc, cela va juste dans une autre grappe, essentiellement, une qui est pertinente pour ce numéro.

Et puis, une fois que nous avons calculé ces sommes de contrôle et que nous avons le groupe de doublons, nous devons sélectionner un document que nous voulons faire apparaître dans les résultats de la recherche.

Pourquoi faisons-nous cela ? Nous le faisons parce que, généralement, les utilisateurs n’aiment pas que le même contenu soit répété dans de nombreux résultats de recherche. Et nous faisons cela aussi parce que notre espace de récit dans l’index n’est pas infini.

Fondamentalement, pourquoi voudrions-nous stocker des doublons dans notre index alors que les utilisateurs ne l’aiment pas de toute façon ? Donc, nous pouvons, en gros, simplement réduire la taille de l’index.

Mais calculer laquelle sera la canonique, quelle page mènera le groupe, n’est en fait pas si facile, car il existe des scénarios où même pour les humains, il serait assez difficile de dire quelle page devrait être celle qui se trouve dans les résultats de la recherche.

Nous utilisons donc, je pense, plus de 20 signaux. Nous utilisons plus de 20 signaux pour décider quelle page choisir comme canonique dans un groupe de dupes.

Et la plupart d’entre vous peuvent probablement deviner ce que seraient ces signaux. Comme l’un d’entre eux est, évidemment, le contenu. Mais il pourrait aussi s’agir de choses comme le Page Rank, par exemple, comme la page qui a le Page Rank le plus élevé, parce que nous utilisons toujours le Page Rank après toutes ces années.

Il pourrait s’agir, notamment sur le même site, de savoir quelle page se trouve sur une URL HTTPS, quelle page est incluse dans un plan du site. Ou bien, si une page redirige vers l’autre, c’est un signal très clair que l’autre page doit devenir canonique.

L’attribut rel=canonical, c’est aussi… Est-ce un attribut ? Tag. Ce n’est pas un tag.

Ainsi, après la détection des doublons, Google fait la partie canonique. Où Google prend toutes les URL dupliquées et décide laquelle doit être affichée dans la recherche. Comment Google décide-t-il laquelle afficher ? Cette partie est composée d’une vingtaine de signaux différents, a expliqué M. Gary. Les signaux comprennent :

  • Contenu
  • &#13 ;

  • PageRank
  • &#13 ;

  • HTTPS
  • &#13 ;

  • La page est-elle dans le fichier sitemap
  • &#13 ;

  • Un serveur qui redirige le signal
  • &#13 ;

  • rel canonique

Ils n’attribuent pas de poids à ces signaux manuellement, ils utilisent pour cela l’apprentissage machine. Pourquoi ne pas attribuer des poids manuellement, eh bien, cela peut poser des problèmes s’ils se contentent d’attribuer manuellement des poids aux choses. Mais une redirection et une balise canonique sont plus pondérées par l’apprentissage machine.

Gary a expliqué pourquoi utiliser l’apprentissage machine :

C’est donc une très bonne question. Et il y a quelques années, j’ai travaillé sur la canonisation parce que j’essayais d’introduire un lien GIF dans le calcul comme signal et c’était un cauchemar d’ajuster les poids manuellement.

Parce que même si vous changez le poids par 0,1 chiffre – je ne pense pas qu’il y ait de mesure -, cela peut faire apparaître un autre chiffre et soudain, des pages dont l’URL est plus courte, par exemple, peuvent apparaître ou ont plus de chances d’apparaître dans les résultats de recherche, ce qui est un peu idiot parce que, par exemple, pourquoi regarder cela, qui se soucie de la longueur de l’URL ?

C’était donc un cauchemar absolu de trouver le bon poids quand on introduisait, par exemple, un nouveau signal. Et puis, vous pouvez aussi voir des insectes. Je sais que, par exemple, John escalade pas mal pour indexer les dupes, essentiellement, en fonction de ce qu’il capte sur Twitter ou les forums ou autre.

Et puis, parfois, il escalade un véritable bug où l’équipe du dupe dit que… Pourquoi tu ris, John ? Tu ne devrais pas rire. Il s’agit de toi. Je te mets sur la sellette, tu devrais apprécier ça. Mais, de toute façon.

Donc, il escalade un bug potentiel, et il est confirmé que c’est un bug et qu’il est lié à un poids. Disons que nous utilisons, je ne sais pas, le signal du plan du site pour… ou que le poids du signal du plan du site est trop élevé.

Et puis disons que l’équipe du dupes dit : « Ok, réduisons un peu ce signal. » Mais ensuite, quand ils réduisent ce signal un tout petit peu, alors un autre signal devient plus puissant. Mais vous ne pouvez pas vraiment contrôler quel signal parce qu’il y en a une vingtaine.

Et puis vous modifiez cet autre signal qui est soudainement devenu plus puissant ou plus lourd, et qui envoie encore un autre signal. Et puis vous modifiez celui-là et, en gros, c’est un jeu sans fin.

Donc, c’est un coup de folie. Donc, si vous envoyez tous ces signaux à un algorithme d’apprentissage machine plus tous les résultats souhaités, vous pouvez l’entraîner à fixer ces poids pour vous et ensuite utiliser les poids qui ont été calculés ou suggérés par un algorithme d’apprentissage machine.

Bien sûr, John sait ce que pensent les OSE, alors John a posé à Gary une question de softball : « Ces poids sont-ils aussi un facteur de classement ? Comme, vous avez mentionné comme est-ce dans le fichier sitemap, dirions-nous, « Eh bien, si c’est dans un fichier sitemap, il sera mieux classé ». Ou est-ce que la canonisation est indépendante du classement ? »

Gary a répondu « donc, la canonisation est complètement indépendante du classement. Mais la page que nous choisissons comme canonique, qui finira dans les pages de résultats de recherche et qui sera classée, mais pas en fonction de ces signaux ».

Voici le podcast audio, il commence vers 6h05 dans le podcast :

Forum de discussion à Twitter.