Contenu dupliqué et Boucles infinies

Les pièges à éviter

Il existe plusieurs façons de vous causer des problèmes avec les moteurs de recherche, en dehors d’essayer de les spammer … ces choses ne sont généralement pas mortelles, mais elles peuvent être dangereuses si vous ne les gérez pas. Le premier est contenu en double ou contenu dupliqué, et il est étroitement lié « aux pièges à araignées » soit les boucles sans fin.

Contenu dupliqué

J’ai déjà parlé du problème de la duplication de contenu, dans sa forme la plus banale – les pages qui ont le même contenu, ou très peu de contenu unique. Il y a une forme plus subtile qui peut découler des sites dynamiques, où l’on peut avoir des dizaines voire des centaines de milliers d’URL qui offrent le même contenu, si le script n’est pas bien écrit.

GSite Crawler détecte la « copie exacte » de contenu, de sorte que si vous l’utilisez, il vous aidera à identifier les pires problèmes de contenu dupliqué.

Les boucles infinies des araignées | des crawlers

Une boucle pour araignée est une logique interminable de série de pages qui pointent vers des pages qui pointent vers des pages … sans que cela ne s’arrête jamais. vous voyez l’idée. Avec les logiques dynamiques, vous avez souvent des paramètres passés dans les URLs, soit qui s’incrémentent à l’infini, soit qui combinés entre eux vous proposent une logique factorielle de combinaisons produisant autant d’URLs à investiguer. Et ces combinaisons affichent des listes de résultats qui ont déjà été affichés ailleurs. Vous arrivez à dupliquer vos contenus à l’infini.

Le meilleur (voir le pire) exemple est le « calendrier perpétuel » qu’on trouve souvent sur les sites Web, qui affiche un calendrier des événements. La page « mai 2010 », comporte un lien vers « Juin 2010 », qui si vous la suivez relie à « Juillet 2010 », et ainsi de suite jusqu’à la fin des temps. La plupart d’entre eux remontent également dans le temps ainsi, à l’aube de l’Univers.

Comme une araignée ne sait jamais ce qui va se passer, elle avance … si elle est bien programmée, elle finira par arrêter son processus. C’est mieux d’utiliser le robots.txt pour garder les araignées loin des boucles d’araignée.