Les causes du contenu dupliqué
Le contenu dupliqué est provoqué par plusieurs facteurs. La plupart de ces facteurs sont techniques. En effet, il est très rare qu’un humain décide de publier le même contenu sur deux emplacements distincts sans spécifier lequel est l’original, sauf si vous avez reproduit et publié un post sans faire exprès.
Il existe un tas d’autres raisons techniques qui pourraient avoir causé le contenu dupliqué. La plupart du temps, cela est dû au fait que les développeurs ne réfléchissent pas comme un navigateur web ou comme un utilisateur, sans mentionner les robots des moteurs de recherche.
-
Incompréhension du concept d’URL
Les développeurs ne reconnaissent pas qu’ils font de la duplication de contenu. Ils ne comprennent pas le langage des urls.
-
Identificateur de session (ou Identifiant de session)
Les entreprises souhaitent souvent garder une trace de leurs visiteurs et leur permettre de placer des articles dans un panier. Pour ce faire, vous devez leur attribuer un identifiant de session.
Certains systèmes utilisent des identifiants de session dans l’URL. Cela signifie que cet identificateur de session est ajouté à l’URL de l'ensemble des liens internes du site web. Puisque cet identifiant est unique pour chaque session, il crée une nouvelle URL, et donc un contenu dupliqué. La session d’un internaute peut donc générer du duplicate content.
-
Paramètres d’URL et de tracking
L’usage de paramètres d’URL qui ne modifient pas le contenu d’une page web, comme par exemple les liens de suivi, est également une cause du contenu dupliqué. Cela ne s'applique pas seulement aux paramètres de suivi, mais également à tous les paramètres que vous pouvez ajouter dans une URL et qui ne modifient pas la partie essentielle du contenu. Ils génèrent tous du contenu dupliqué : que ce soit pour “modifier la classification d’une série de produits” ou “pour afficher une barre d’outil (une barre latérale ou un sidebar)”. Il faut les éviter car vous ne pouvez pas anticiper leurs conséquences. De plus, ils sont en général mal indexés ou mal classés par google.