J’entends encore tout et son contraire à propos du contenu dupliqué.
C’est le méga marronnier du référencement, qui trône dans notre jardin depuis une éternité.
Déjà, qu’est ce qu’une pénalité ?
Pour moi, il y a plusieurs niveaux d’interprétation.
Deux grandes catégories s’imposent avec les actions manuelles et les actions purement algorithmiques.
Le plus grave est le blacklistage où le site sera dégagé de l’index. Cela découle d’une action manuelle, qui peut être déclenchée par un red flag automatique ou plus couramment sur dénonciation (spam report).
Après, la pénalité globale va affecter l’intégralité d’un site. Les plus connues en ce moment sont Panda et Pingouin, mais il en existe une gamme large et variée en algorithmique et manuelle.
Une pénalité ciblée va aussi affecter partiellement le site. Par exemple, pour une pénalité manuelle de type « liens artificiels », une page sera déclassée sur une requête, alors que le reste du site continue de performer.
Aussi, les filtres algorithmiques peuvent être assimilés à des pénalités. Sauf qu’ils peuvent être considérés comme des nettoyeurs de requêtes, alors que le cas précédent va s’occuper d’un site en particulier.
On entre ensuite dans le cas de la « non valorisation », qui empêche une URL de monter ou la déclasse. L’URL n’est pas plombée, comme dans le cas d’une pénalité. Elle pourra réagir dans d’autres conditions, mais c’est cuit pour la requête visée.
Le cas du contenu dupliqué
Il y a deux cas : externe et interne. Le contenu peut être dupliqué à l’intérieur d’un site ou entre deux sites différents.
Le Web contiendrait 30% de contenu dupliqué (source Matt Cutts je crois).
Pour moi, le contenu dupliqué interne est moins problématique. Bien sûr que j’ai vu des cas où cela causait des perturbations, mais les moteurs et Google en particulier ont évolué à ce niveau.
Ils arrivent à repérer des footprints, empêchant de mettre dans le pétrin un paquet de sites où les cas de contenu dupliqué interne sont massifs.
Le contenu dupliqué bien géré en interne peut même être un atout, comme par exemple avec ma technique de rédaction rapide sur la base de templates à faible granularité (j’en dirais plus là dessus un autre jour).
Ensuite, il faut parler du contenu dupliqué en externe. C’est un problème et cela ne semble pas être prêt de se résoudre.
Franchement, je ne sais pas si on peut qualifier de pénalité le problème du contenu dupliqué externe.
Je crois plutôt qu’il s’agit d’une énorme faiblesse algorithmique.
On pourrait croire que c’est simple de mettre en avant l’antériorité.
Pourtant, la réalité est à l’écran et une page peut tout à fait se faire shooter intentionnellement ou pas.
À partir d’un certain moment, le facteur popularité prend le dessus sur l’antériorité.
Peut-on se prémunir ?
À mon avis, il est impossible de protéger une page isolée. Par contre, un domaine puissant sera impossible à faire tomber.
Nul besoin pour autant de tripper, dès qu’on voit un scraper se pointer. La page qui reprend le contenu doit avoir du juice pour être capable de passer outre l’antériorité de la page originelle.
Pour le contenu dupliqué en interne c’est beaucoup plus simple. La meilleure solution est clairement l’analyse de logs. Vous pouvez voir certaines choses dans les Webmaster Tools, mais je ne fais jamais entièrement confiance à l’information distillée par Google ou les autres moteurs.
Surtout, en amont, maîtrisez bien votre script et votre méthodologie de publication et tout devrait bien se passer.
Et oui c’est tellement une faille, que c’est même utilisé en masse par certains…
Ca me fait aussi penser à l’affront de Paul Sanches à Matt Cutts (Il a des corones notre Tiger) http://www.seoblackout.com/2014/02/01/negative-seo-duplicate-content-mattcutts/
Et dans l’hôtellerie, je vis ça à longueur d’année avec des centaines de portails hôteliers qui naissent par an et qui sont construits en piquant tout ou partie du contenu de la home des sites d’établissements et qui rien que par leur volume de pages deviennent plus populaires que les sites qui sont à l’origine du contenu…
Ah oui zut, j’aurais pu faire un lien vers cette belle démo de l’ami Paul.
En fait, j’ai écris ça à la volée en buvant mon café ce matin et pas trop réfléchi à chercher des liens d’exemple, etc.
Bizarre, tu n’as pas repéré de coquille ? C’est bien la première fois.
lol, pas de BIG coquille dans les premières lignes 😉
Perso je pense que le contenu dupliqué est problématique pour les petits sites. Vous savez les sites que l’on trouve dans nos régions. Le site d’un hôtel par exemple qui se fait piquer sa contenue par un gros portail. Ou bien le site du restaurant de quartier.
Bonjour Laurent, donc plus on a d’autorité et de puissance, plus on peut se permettre de pratiquer du contenu dupliqué sans risques ?
Autorité + Popularité = contenu dupliqué assuré ! en quelque sorte 🙂 Selon toi, dans ce cas précis, il n’existe réellement aucune solution pour lutter contre ce genre de tactique ? Et c’est le contenu d’origine qui risque d’être pénalisé puisque classé derrière …
Bonjour Laurent,
C’est vrai que Google est long à la détente pour le problème du duplicate en externe. Ce n’est pourtant pas la faute de gens comme Paul de les en alerter, mais comme souvent, il y a d’autres priorités… C’est dommage. D’autant plus que quand il y a un grand écart au niveau de la popularité, l’antériorité ne dure généralement pas très longtemps. Vous pouvez sourire vous qui ne voulez pas que Wikipédia crée une page sur votre mot clé 😉
C’est typiquement le cas d’un client (dans la vente de vin) qui après avoir inscrit son site sur des plateformes externes (comparateurs, etc.) se retrouve avec ses fiches produits déclassées dans les SERP par les pages de résultats de ses « partenaires » qui réutilisent ses descriptions produits. Ces pages étaient indexées depuis plus d’un an et en une dizaine de jour il est passé en haut de 2ème page. Il s’est tiré une balle dans le pied sans le savoir. Il n’a plus qu’à rédiger une double description exclusive à sa boutique.
Concernant le duplicate content, d’un point de vu globale, ce n’est pas approprié. Néanmoins, c’est un choix des propriétaires des sites. Les robots n’ont qu’à ignorer les pages similaires. Idem pour les actions off-sites.
Ah si, une coquille > « Sauf qu’ils peuvent être considérés comment des nettoyeurs de requêtes »
Sinon, malheureusement je trouve que le pire du DC externe n’est pas de se faire piquer des places (car en général on découvre le faussaire) mais de se faire piquer du contenu qui, spinné, sert tranquillement à alimenter des pages…
@Baptiste : oui les petits sites locaux sont de bons exemples.
@Sandrine : pas besoin d’être un monstre d’autorité et popularité pour piquer tranquillement du contenu.
Je pense notamment aux proxies.
En effet, je pense qu’on peut prendre la place d’une page d’un site. C’est le domaine en lui même qu’on pourra plus difficilement dézinguer (voire même impossible), s’il est assez puissant.
@IFDP : presque 10 ans avant Paul, nous avions déjà alerté directement Google de ce problème et c’est toujours d’actualité.
À chacun d’en tirer ses conclusions.
Exactement la même chose pour le vol du PageRank. On avait dénoncé cela à la même époque et rien n’a changé.
@Fabien : yep c’est un cas classique. A l’époque de gloire des annuaires c’était pareil.
Maintenant les petits blogs chargent bien aussi avec les aggrégateurs.
Dans mon cas, j’ai des milliers d’abonnées à mon flux RSS. Donc, je laisse afficher l’intégralité de mes billets, afin de laisser le choix de lire le contenu comme ils veulent.
Heureusement que mon blog est assez puissant pour ne pas être dérangé, mais ce n’est pas le cas pour d’autres. Même du Scoop.it peut être néfaste pour certains.
@Lacompte : « Les robots n’ont qu’à ignorer les pages similaires »
Vu que ça dure depuis que j’ai démarré le SEO, cela ne doit pas être si simple.
@Christian : pourtant c’est bien l’emprise sur le ranking qui est directement dommageable.
Généralement, les spins sont de qualité trop médiocre pour être efficaces.
Cependant, cela devrait évoluer (qualité des spins je veux dire).
Bjr Laurent,
Cela fait fais quelques jours qu’un de mes sites perso sur un chanteur (rap)se casse la gueule en beauté sur toutes mes requêtes.
Les courbes de positionnement font peur à voir; dégringolades de -100 à -200 places.
J’en suis persuadé, Panda a sorti ses griffes !!! Le site contient principalement des paroles de chansons, largement DC.
Mais pourquoi maintenant, au bout de 15 mois de DC ? Panda s’est renforcé depuis que le Content doit êtrede qualité… RapGenius doit se faire du soucis alors…
Même phénomène chez le site d’un pote.
Je ne sais pas si c’est Panda car il n’y a pas eu d’annonce officielle. Ce n’est pas non plus à strictement parler une pénalité pour DC.
AMHA on peut voir ce que j’appelle une perte de confiance dans le site et c’est sans doute le cas le plus compliqué.
Non seulement tu dois nettoyer on et off site, mais en plus il faut renvoyer un mega signal de pertinence on et off site.
C’est compliqué…
Oui, tout à fait d’accord avec le fait que Google se plante très (trop) souvent sur la propriété d’un contenu. Enfin, quand on observe la visibilité qu’on peut obtenir, encore de nos jours, avec quelques milliers de pages scrappées et spinées, c’est assez déprimant 😉
Et pour se prémunir… tu penses donc que l’authorship ne garantit rien? Ou Plutot n’aide en rien ?…
J’ai une boutique en ligne et je passe mon temps a demander au copieur de bien retirer le texte de leurs fiches produits qui bien sûr n’est qu’un copier coller des miennes. Est-ce que google me pénalise ? Non selon Webmastertools, et pourtant j’ai l’impression du contraire…
@aurelegala :
J’ai constaté récemment qu’un de mes sites était entièrement pompé, j’ai alerté Google et j’ai reçu une réponse quelques jours plus tard : ils me disent qu’ils n’ont aucun moyen de savoir que je suis bien l’ayant droit. Alors que c’est d’une évidence totale…
Question bonne volonté sur un tel sujet, on a vu mieux.
Je me souviens avoir lu dans le livre d’Andrieu qu’il fallait faire la chasse à tous ces contenus dupliqués internes (slogan dans le header etc). Personnellement je n’ai jamais vu d’impact négatif à utliser ces « contenus dupliqués » internes. Google sait très bien faire la différence.
Pour le contenu externe je n’ai jamais copié les autres mais ce qui est sur c’est que certains sont en première pages dans des niches compétitives avec une bonne partie de contenu dupliqué, donc avec un peu d’expérience ça ne doit pas tant être un frein que ça.
@aurelegala : l’autorship c’est de la déco pour avoir son image dans les SERPS. Si tu parles d’autorité, cela protège le domaine, mais pas une page en particulier.
@vap : mettre de gros avertissement juridiques peut en freiner quelques uns.
@LaurentM : tu as alerté via DMCA ?
@lesbinaires : en fait, les gros sites qui dupliquent du contenu et se font pénaliser sont pris par Panda.
On rentre dans les critères de « qualité » (notez les guillemets) et pas du DC pur.
@Laurent :
Oui, via DMCA, et j’ai donc reçu un mail qui raconte ça :
« Nous avons bien reçu votre notification DMCA. Vous n’apparaissez pas clairement comme un agent autorisé à déposer une réclamation pour atteinte aux droits d’auteur. […] Si vous ou votre client êtes bien le titulaire des droits d’auteur, veuillez nous fournir davantage d’informations à ce sujet. »
Mais le site « copieur » dont il était question n’est plus en ligne aujourd’hui, donc je n’ai pas donné suite.
Bien sûr qu’il y a une pénalité, mais ça reste largement gérable avec un peu de reformulation !
Par rapport aux paroles de chansons, là par contre… bon courage !