Les contenus dupliqués ? Un outil : siteliner.com

Les contenus dupliqués sont souvent associés, dans nos esprits, à des copies plus ou moins légales de nos contenus (textes, images…) sur d’autres sites qui en profitent pour se faire du SEO sur notre dos. Pourtant, c’est souvent au sein de nos propres sites que le problème existe.

Mais en quoi c’est un problème ?

Un contenu dupliqué est un mauvais indicateur pour les moteurs de recherche car il signifie que vos textes ne sont pas organisés dans des pages thématiques uniques. Il n’y a pas de raison qu’un texte réapparaisse sur une autre page. Si c’est le cas, l’organisation du site serait peut-être à revoir puisqu’elle oblige à répéter des informations déjà présentes.

Ça, c’est la théorie. Mais il est important de l’avoir en tête.

Il est nécessaire de ne pas se plagier, de ne pas afficher sur plusieurs pages les mêmes textes et donc de ne pas faire du duplicate content. Cela brouille les signaux pour le référencement des pages.

Il existe de nombreuses techniques pour limiter l’impact de ces répétitions, en voici quelques unes :

L’attribut rel canonical

En affichant dans les liens un rel canonical pour indiquer où se trouve la source de ce contenus et il est possible d’éviter la confusion pour les robots des moteurs de recherche. Certains CMS (plateforme pour gérer les contenus d’un site comme WordPress par exemple) le font plus ou moins automatiquement (ou via des extensions). Les pages de catégories, par exemple, affichent une liste d’articles avec un résumé qui, généralement, reprend le début de l’article. Ce qui produit un texte dupliqué. La balise link avec l’attribut rel canonical, indiquera précisément qu’elles sont les pages (les articles en question) originales à prendre en compte.

<link rel=”canonical” href=”url” />

Cette ligne de code sera présente sur chaque article.

Le sitemap

Autre élément important pour aider correctement les moteurs de recherche à indexer les bonnes pages, c’est le sitemap, qui est un fichier xml qui liste les urls de toutes les pages du site.

Pour le mettre en place sur un site, très souvent il sera conseillé de rajouter une extension. WordPress n’a pas de sitemap en natif. Il existe de nombreuses extensions qui le propose. Ce sitemap apprarait donc dans un fichier dont l’url sera à indiquer dans le fichier robots.txt de votre site et/ou dans la search console de Google, ou les outils correspondant à chaque moteur de recherche.

Il est possible même d’afficher des sitemaps plus organiser avec un pour les pages du sites, un pour les produits, un autre pour les actualités…

Le noindex

L’objectif du noindex c’est indiquer de ne pas indexer la page, tout simplement.

<meta name="robots" content="noindex">

Mise en place pour limiter l’impact de lien partagé dans les commentaires des blogs, la meta robots noindex est très utiles mais n’est plus suffisante.

Des moteurs de recherche comme Google ont tendance à plus ou moins respecter cette information, jugeant parfois utile l’indexation de la page malgré le noindex.

Attention cependant, comme l’indique Google, il ne faut pas bloquer la ou les pages en question dans le robots.txt qui est vraiment le cœur de votre relation avec les moteurs de recherche :

Important : pour que la directive noindex soit efficace, la page ne doit pas être bloquée par un fichier robots.txt. Si la page est bloquée par un fichier robots.txt, la balise noindex n’est pas détectée par le robot d’exploration, et la page peut encore s’afficher dans les résultats de recherche, par exemple si d’autres pages contiennent des liens vers celle-ci.

Il peut être intéressant, dans certains cas, de mettre en noindex les pages catégorielles d’un site pour valoriser les pages où se trouvent les contenus plutôt que les pages de transitions. Mais il n’y a que des cas particulier car il peut être aussi important pour un site ecommerce, par exemple, d’indexer tous les produits en liste par rapport à une recherche :

Je cherche des chaussures de sport rouges, je n’arrive pas via un moteur de recherche sur une page d’une paire de chaussure de sport rouge mais sur une sélection de tous les produits correspondant à ma demande.

Les résumés ?

WordPress propose de rédiger, pour les articles, des résumés plutôt que d’afficher automatiquement le début des articles sur les pages catégorielles du site ou via des widgets sur la page d’accueil (avec la fonction the_excerpt pour les développeurs).

Cette solution est très utile car elle préserve vraiment l’aspect canonique des articles par rapport aux catégories. Il est possible pourtant que les catégories, entre elles, se répètent sur les résumés affichés parce qu’un article apparaît dans plusieurs catégories. Si les catégories ne sont pas des landing pages importantes dans la stratégie du site, elles pourront être placées en noindex.

Et pour le reste ?

Malgré toutes les précautions, il restera toujours du contenu dupliqué parce qu’à un moment donné, pour aller vite, un copié collé de texte a été fait sur plusieurs pages, ou parce que mécaniquement, la même phrase ou le même paragraphe est répété.

Pour repérer ce genre de contenu dupliqué il existe des outils dont un qui est particulièrement efficace : https://www.siteliner.com/. Cet outil en ligne va scanner le site et établir une liste de pages détectées puis sur chacune des pages une liste où des contenus dupliqués apparaissent, et il y en a toujours un peu sur un site.

Sur les pages où il y a des contenus dupliqués, ceux-ci seront surlignés d’une couleur qui sera reprise dans la colonne de droite pour indiquer la page où se trouve les contenus identiques ou très proche.

Il ne reste plus ensuite qu’à réécrire sur une des pages un texte formulé différemment. Cela prend du temps mais ça vaut le coup et sera l’occasion d’enrichir vos textes de mots clés proches, de synonymes, et donc d’élargir les possibilités de trouver vos pages.

N’hésitez pas à nous contacter si vous avez des questions autour de ce sujet et du SEO en général.

Pour votre stratégie digitale

Il est nécessaire de ne pas se plagier, de ne pas afficher sur plusieurs pages les mêmes textes et donc de ne pas faire du duplicate content. Cela brouille les signaux pour le référencement des pages.

L’attribut rel canonical

Le sitemap

Le noindex

Les résumés ?

Et pour le reste ?

Vous devriez également aimer

Réseaux sociaux : davantage de visibilité pour vos publications

Définir sa stratégie digitale : oui mais… comment ?

La communication, c'est raconter des histoires