L
e duplicate content ou « contenu dupliqué » est une erreur qui impact fortement le SEO d’un site internet. La bonne nouvelle, c’est qu’il s’agit d’une des plus rapides à corriger. Dans cet article, nous allons vous expliquer pourquoi vous devriez vous méfier du duplicate content, comment l’identifier et surtout l’éliminer.
Pourquoi le duplicate content pénalise votre SEO ?
Cela fait plus de 10 ans que Google traque le duplicate content.
Pour la petite histoire, c’est avec la propagation de Google Panda 🐼, en février 2011, que le moteur de recherche a déclaré la guerre au contenu dupliqué.
Panda a été mis à jour à plusieurs reprises depuis lors pour améliorer ses capacités de détection du contenu dupliqué.
L’objectif principal de Google Panda est de filtrer les sites web qui ont un contenu de faible qualité, du contenu dupliqué ou peu pertinent pour les utilisateurs.
L’algorithme évalue la qualité globale d’un site web en analysant divers facteurs tels que la pertinence du contenu, la convivialité, l’expérience utilisateur et l’autorité du domaine.
Si un site est identifié comme ayant du contenu dupliqué, cela entraîne une baisse de son classement.
Panda a eu un impact significatif sur les sites qui se sont appuyés sur le contenu dupliqué pour améliorer leur visibilité.
A noter que Panda n’est pas le seul algorithme de Google qui traite le problème du contenu dupliqué.
D’autres algorithmes, tels que Google Penguin🐧, ont également des mécanismes pour détecter et pénaliser les pratiques de spam liées au contenu dupliqué ou à d’autres tactiques de référencement abusives.
Vous l’aurez compris, il n’est pas possible d’échapper aux algorithmes.
Comment identifier le duplicate content ?
La réalisation d’un audit SEO permet d’identifier rapidement les éventuelles erreurs qui influencent négativement la position du site sur les moteurs de recherche.
Cette analyse approfondie permet notamment de mettre en avant les problèmes de duplicate content.
Cette erreur est la plus commune.
Toutefois, il ne faut pas pour autant sous-estimer son impact.
D’ailleurs, les outils SEO placent le duplicate content dans la catégorie des « erreurs », tel un statut 400 ou 500.
Un contenu identique d’une page à l’autre a de graves répercussions.
C’est pour cela, qu’il faut le traquer et surtout le supprimer le plus rapidement possible.
Les outils de détection du duplicate content
De nombreux outils permettent de détecter la présence de duplicate content sur un site.
Voici une sélection de duplicate checker :
Screaming Frog 🐸
Screaming Frog est l’un des crawlers les plus utilisés du marché.
Il est utilisé pour identifier de nombreux problèmes de SEO technique tels que les erreurs de connectivité, les problèmes de redirection, mais aussi le duplicate content.
Cette plateforme est en mesure de pointer tous les éléments qui peuvent être concernés par le duplicate content :
- Les balises title
- Les meta description
- Les H1
- Les H2
- Le contenu courant
SemRush
En lançant un audit de site sur SemRush, la plateforme affiche les pages qui ont du contenu dupliqué.
Consultez les url concernées pour trouver facilement les pages dont il faudra s’occuper en priorité.
DupliChecker
DupliChecker est un outil en ligne gratuit qui permet de détecter le contenu dupliqué.
Il vous permet de coller votre texte ou de télécharger un fichier pour effectuer la vérification.
Moz Pro
Moz Pro est une suite d’outils SEO qui comprend également un vérificateur de contenu dupliqué.
Il vous permet d’analyser votre site web pour identifier les problèmes de contenu dupliqué et d’autres problèmes de référencement.
Grammarly
Grammarly est principalement un correcteur orthographique et grammatical, mais il dispose également d’une fonctionnalité pour vérifier le contenu dupliqué.
Il compare votre texte avec des milliards de pages web pour détecter les similitudes.
Une petite astuce pour détecter du duplicate content consiste à utiliser directement Google.
Copier-coller quelques phrases de votre page dans la barre de recherche et regardez quels résultats apparaissent.
Si votre site est le seul à ressortir alors vous saurez que le contenu est unique.
Dans le cas où d’autres pages apparaîtraient, il vous suffira de cliquer dessus pour vérifier si tout le contenu est dupliqué.
Où se cache le duplicate content ?
Le duplicate content se cache en règle générale à trois endroits :
- Dans les balises title SEO
- Dans la structure Hn
- Dans le texte courant
Balise H1 et balise title en duplicate content
Il arrive souvent que le duplicate content se manifeste sur le titre H1 d’une page et sa balise title.
Dans la grande majorité des cas, ce type d’erreur est parfaitement involontaire.
Il est le résultat d’un mauvais développement au niveau du CMS qui ne permet pas de générer un H1 et une balise title distinct.
Du contenu dupliqué http et https
Trouver du contenu dupliqué entre les versions HTTP et HTTPS d’un même site est une situation courante et peut être causée par plusieurs facteurs :
- Redirections insuffisantes : Lorsque vous migrez votre site de HTTP à HTTPS, il est essentiel de mettre en place des redirections appropriées pour diriger le trafic de l’ancienne version HTTP vers la nouvelle version HTTPS. Si les redirections ne sont pas correctement configurées ou si certaines pages sont exclues des redirections, les deux versions (HTTP et HTTPS) peuvent coexister, ce qui entraîne du contenu dupliqué.
- Liens internes incorrects : Si votre site utilise des liens internes qui pointent vers des URL HTTP au lieu de HTTPS, cela peut créer des liens vers des versions en double du même contenu. Assurez-vous de mettre à jour tous les liens internes pour pointer vers les versions HTTPS correspondantes.
- Canonicalisation incorrecte : L’utilisation de balises canoniques est importante pour indiquer à Google quelle version de la page est la version préférée et devrait être indexée. Si les balises canoniques ne sont pas correctement mises en place sur votre site après la migration vers HTTPS, les deux versions (HTTP et HTTPS) peuvent être considérées comme des pages distinctes avec du contenu dupliqué.
- Indexation antérieure de l’ancienne version HTTP : Si Google a déjà indexé des pages de votre site en HTTP avant la migration vers HTTPS, il est possible que ces anciennes versions continuent d’apparaître dans les résultats de recherche pendant un certain temps, même après la migration. Cela peut entraîner une présence simultanée de contenu dupliqué en HTTP et en HTTPS.
Du contenu dupliqué entre les versions d’un site en www et sans
Si vous migrez votre site d’une version avec www vers une nouvelle qui les exclue, il arrive qu’un problème de duplicate content apparaisse.
Plusieurs raisons peuvent entraîner ce type de problème :
- Configuration du serveur : Parfois, la configuration du serveur peut être telle que le site est accessible à la fois avec et sans le préfixe « www ». Cela peut créer des versions en double du site, ce qui conduit au duplicate content.
- Liens internes : Si votre site contient des liens internes qui pointent vers différentes versions (avec et sans « www »), les moteurs de recherche peuvent indexer les deux versions comme des pages distinctes, créant ainsi du contenu dupliqué. Il est important d’utiliser des liens internes cohérents pour éviter cela.
- Backlinks : Si d’autres sites web ont des liens pointant vers différentes versions de votre site (avec et sans « www »), les moteurs de recherche peuvent également considérer ces versions comme du contenu dupliqué. Vérifiez et corrigez les liens entrants pour qu’ils pointent tous vers une seule version cohérente.
Une méconnaissance des règles SEO
Lorsque le problème n’est pas au niveau technique, il résulte d’une méconnaissance des règles SEO.
Par exemple, des content managers ont tendance à copier-coller le titre H1 de leur page dans la balise title.
Que le duplicate content se trouve sur les balises titres ou sur le texte courant, il faut le rendre unique.
Bon à savoir : les termes « duplicate content » s’appliquent en général à du contenu appartenant à un même site qui se retrouve à plusieurs endroits.
Toutefois, il arrive que le « duplicate content » désigne un texte récupéré depuis un autre site internet.
Dans ce cas, il s’agit de plagiat.
Le duplicate content sur les sites e-commerce
Les sites e-commerce sont particulièrement vulnérables au duplicate content.
En effet, lorsqu’une plateforme propose des produits avec des déclinaisons de taille ou de couleur, il est difficile de ne pas utiliser du contenu dupliqué.
En règle générale, ce problème se règle avec l’utilisation d’url dynamiques et l’utilisation de balises canoniques.
Toutefois sur des CMS anciens ou non adaptés aux pratiques dynamiques, il arrive de trouver des pages statiques qui proposent des produits dits “variants”.
Autrement dit, des produits quasiment identiques à un détail près.
Comment supprimer du contenu dupliqué ?
Une fois le problème identifié et les pages présentant du contenu dupliqué connues, il faut réagir.
Deux solutions s’offrent à vous :
- Une solution technique
- Une solution d’optimisation on page
Corriger des erreurs de duplicate content avec le SEO technique
Il est tout à fait pertinent d’utiliser le SEO technique pour régler des erreurs de contenu dupliqué.
Cette solution est rapide et radicale, elle n’implique pas d’intervention humaine sur chaque page.
La redirection de vos pages dupliquées
Comme nous l’avons vu précédemment, il arrive que du contenu dupliqué apparaissent entre deux versions de votre site (la version http et la version https) ou encore entre la version en www et celle sans.
Dans ces deux cas de figure, utiliser une redirection 301 permettra de mettre fin au contenu dupliqué.
En ajoutant une redirection dans le code source de la page, vous indiquez à Google qu’il ne doit pas prendre en compte le contenu présent et doit automatiquement rediriger les visiteurs vers la bonne version de votre site.
La redirection va donc corriger les erreurs de duplicate content.
Certains sites préfèrent utiliser la redirection 302.
Si ce code est pertinent pour un site e-commerce dont un des produits est en rupture de stock momentanée, pour les autres il est recommandé de préférer une redirection 301.
Ce code indique une redirection permanente.
Canoniser ses pages pour supprimer le contenu dupliqué
La balise canonique est l’autre technique SEO pour éviter le duplicate content.
L’utilisation de ces balises est conseillée notamment dans les cas suivants :
- Avec des url dynamiques, une canonique permet de diriger les pages variantes vers la page principale.
- Pour régler un problème de pagination, par exemple si votre blog comprend plusieurs pages, la balise canonique permet d’éviter le duplicate content.
La balise canonique est un outil puissant pour signaler aux moteurs de recherche quelle version ou quelle source de contenu vous souhaitez qu’ils considèrent comme la principale.
Cela contribue à améliorer l’indexation, à éviter les problèmes de contenu dupliqué et à maintenir la pertinence de vos pages.
Corriger des erreurs de duplicate content avec le SEO on page
L’optimisation on page consiste à améliorer le contenu de vos pages pour faire progresser leur référencement naturel.
Si des pages contiennent du contenu dupliqué, vous pouvez parfaitement faire les corrections depuis le back office.
La résolution du problème consiste à supprimer le contenu dupliqué et à écrire du contenu unique d’une page à l’autre du site.
En l’absence d’un service marketing incluant un content manager capable de prendre en charge ce type d’erreur, il est possible d’externaliser cette prestation.
Des agences de contenu proposent ce type de prestation.
Quel sera l’impact de ces correctifs sur votre référencement naturel ?
Remplacer du contenu dupliqué par un texte original permet d’obtenir rapidement des résultats.
En effet, dès lors que les bots repassent sur le site et constatent que le texte dupliqué a été supprimé, ils améliorent le positionnement sur les SERPS.
Il faut compter en moyenne deux à trois semaines pour voir une nette amélioration que ce soit au niveau du score de santé du site ou encore sur le positionnement des mots clés.
Petite astuce pour améliorer son ranking : si vous investissez du temps et de l’argent pour éliminer du duplicate content autant en profiter pour optimiser les pages de votre site internet.
La réécriture de contenu dupliqué est aussi l’occasion d’ajouter de nouveaux mots clés et ainsi de diversifier le champ sémantique de son site internet.
Il n’est pas rare que lors d’une telle opération en optimisant un nouveau contenu original, le référencement naturel du site connaisse une belle amélioration.
Combien coûte la création de contenu original ?
En fonction de la quantité de pages à corriger et du contenu à créer, le prix de cette prestation varie.
Il est difficile d’établir un tarif pour réécrire du contenu unique sur un site.
Cela nécéssite de connaître le nombre de pages concernées et la quantité de texte dupliqué.
Réécrire les balises title d’une centaine de pages sera bien moins cher que des paragraphes entiers dupliqués.
Le meilleur moyen est de demander un devis pour de la création de contenu unique.