Google nous ment une fois de plus car il suit les liens en nofollow

test-attribut-nofollowJ’ai réalisé un test qui vise à démontrer que GoogleBot, le robot d’indexation Google, suit parfaitement liens protégés par l’attribut « nofollow. »

D’autres avant moi ont émis cette hypothèse, mais je voulais mettre en place un test dans les règles de l’art plutôt qu’émettre des hypothèses basées sur l’instinct et les observations.
Le cas du nofollow est simplement d’un chapitre de plus où Google ne dit pas toute la vérité et envoie les webmasters sur de fausses pistes.
C’est avec la complicité d’Aurélien Bardon de Oseox, que j’ai mis en place un protocole de test qui permet de démontrer le fait que l’attribut nofollow ne rend absolument pas un lien opaque au robot d’indexation de Google (GoogleBot). Contrairement aux affirmations officielles de  Google Inc;., l’attribut nofollow n’empêche pas le moteur de suivre les liens vers une autre page.
Le protocole complet et les résultats du test sont développés sur le Laboratoire du Référencement. Le but de cet article est d’expliquer comment vous pouvez reproduire le test, ainsi qu’élaborer sur les implications du crawl des liens en nofollow par GoogleBot.
Procéder au test de suivi des liens en nofollow

(bien suivre le protocole du Labo pour rendre le test le plus fiable possible).

  • Créer une page cible en .php qui contient l’include suivante en début de code source – avant le DOCTYPE et le HEAD
    <?
    $trouve=strpos($_SERVER[« HTTP_USER_AGENT »], »Googlebot »);
    $adr_expediteur = ‘robot@google.com’; //
    $to= »VOTREMAIL@VOTRESITE.com »; // CHANGEZ LE MAIL
    $sujet= »PASSAGE GOOGLEBOT »; // Sujet du mail
    if($trouve!==false)
    {
    if ($QUERY_STRING != «  »)
    {$url = « http:// ».$SERVER_NAME.$PHP_SELF.’?’.$QUERY_STRING;}
    else
    {$url = « http:// ».$SERVER_NAME.$PHP_SELF;}
    $today = date(« F j, Y, g:i a »);
    mail($to,$sujet, « $todaynGoogle crawled $urlnNavigateur :
    $HTTP_USER_AGENTnAdresse IP : $REMOTE_ADDR nNom de domaine :
    $domaine », « From: $adr_expediteur »);
    }
    ?>
  • Uploadez (encore une fois, lisez bien les précautions du protocole pour ne pas émettre de signaux perturbateurs vers Google).
  • Mettez en place un lien vers la page cible qui sera protégé par l’attribut nofollow.  Exemple : <a href= »http://www.site.com/page-cible.php »>test nofollow</a>.

Etant donné qu’il faut éviter que les visiteurs cliquent sur le lien, il est préférable de cacher le lien de test. Plusieurs solutions sont à votre disposition, mais j’ai opté pour le lien de même couleur que le fond. Exemple :

<a href="http://www.site.com/page-cible.php" rel="nofollow" ><font color="#CCCC99">test</font></a>

C’est n’est pas une solution idéale, mais en répétant le test plusieurs fois sur différentes sites et pages, le facteur probabilité de découverte du lien diminue fortement jusqu’à être considérée comme négligeable.. De plus, la visite de GoogleBot s’avère prendre place très rapidement si la page qui contient le lien est crawlée régulièrement.
Quelques heures (3 à 7 dans mon cas) après l’upload sur le serveur de la page cible et du lien externe, vous devriez recevoir un eMail avertissant du passage de GoogleBot sur la page cible. C’est la preuve que le robot d’indexation a suivi le lien en nofollow, omettant de respecter la fonction principal de cet attribut qui indique de ne pas suivre un lien protégé de la sorte.
Ce test est uniquement une démonstration, ne prétendant absolument pas être le premier à émettre cette hypothèse. D’autres sources ont peut-être expliqué la situation avant moi, mais je focalise plutôt sur la voie officielle de Google, au travers de son ingénieur superstar Matt Cutts, qui affirme que le moteur ne suit pas les liens en nofollow.
A quoi ça sert de savoir que GoogleBot suit les liens en nofollow ?
L’application la plus évidente suggère qu’il ne faut surtout pas compter sur le nofollow pour protéger un lien. Si jamais vous ne voulez pas que le moteur visite une page, ce n’est pas avec ce système qu’il faille procéder.
Concernant l’apport de popularité, je ne crois pas que le lien en nofollow ait un impact. Par contre, il n’y a pas que le PageRank qui importe puisque différents types de popularité sont envisageables. Du coup, le lien en nofollow peut tout à fait transmettre quelque chose d’autre que des visiteurs.  N’ayant pas de preuves pour expliquer plus en avant cette notion, je préfère ne pas en dire plus. Par contre, je me suis toujours fié à mon instinct à propos de Google et il ne m’a jamais trompé.
L’idée principale que je voudrais suggérer est que l’aversion pour l’attribut nofollow doit se contenir à la réalité. C’est-à-dire qu’il ne faut pas croire qu’un lien en nofollow implique que Google ne sera jamais au courant de l’existence du lien ou de la page vers lequel il pointe. Ce que Google fait ensuite de cette information sera impossible à déceler puisque c’est bien enfoui dans son algorithme.
Crawler n’est pas indexer
L’indexation de la page cible n’a pas fait partie du test , donc je mentionne seulement qu’elle s’est rapidement indexée au sein des résultats de recherche (visible en tapant site :monsite.com).
Sur un autre plan, je voulais aborder le manque de compréhension à propos de ce qui se trame réellement à l’intérieur de Google. Pour résumer, le robot d’indexation passe sur la page et va la ressortir en fonction des requêtes tapées par l’internaute. Ce qui n’est pas évident concerne tout ce qui se passe entre le moment où GoogleBot crawle la page et la milliseconde qui précéde l’affichage des résultats de recherche.  Entre ces deux phases, il se déroule un grand nombre d’opérations qui nous sont totalement opaques. Mes seules éléments d’observation concernent les pages mises en ligne et les résultats de recherche.  Afin de comprendre comment le référencement, il faut admettre que l’affichage des résultats de recherche n’est pas une représentation directe de l’index. Au sein de ces résultats, Google nous distille seulement ce qu’il veut bien nous montrer, mais cela ne démontre en aucun cas qu’il affiche tout ce qui est contenu dans l’index.
Les foutaises du reverse engineering

Ainsi, j’ai toujours décrié les notions de « reverse engineering » se rapportant à Google. Arriver à comprendre le fonctionnement de l’algorithme du moteur à partir de l’analyse des résultats de recherche présente d’énormes limitations liées à ce que je viens d’expliquer précédemment Trop souvent, je croise des pseudos théories qui s’apparentent au fantasme car elles poussent trop loin l’analyse par rapport aux observations des résultats de recherche.
Cela n’empêche pas d’émettre d’émettre des trouvailles qui visent à améliorer notre compréhension du référencement, mais il est vital de savoir poser les bonnes limites. Régulièrement, le Web s’enflamme à propos de simili découvertes qui ne sont rien de plus que des légendes urbaines. Le PageRank Google a souvent été la victime de ces hallucinations que le moteur de recherche n’est pas le dernier à alimenter la promotion. Bien entendu, j’adore émettre des hypothèses qui vont plus loin que la raison ne le permet. Sauf que je ne trouve pas intéressant de les propager au-delà du cercle d’initiés qui comprennent parfaitement la portée de ces hypothèses. Il n’est pas sain de la part de certaines personnes influentes de lancer des hypothèses sous la forme d’affirmation. Par exemple, dans le cadre de ce post, je me permets de partager le test, mais je ne vais pas délirer outre mesure. Même si j’ai mes propres convictions à propos de l’interprétation des liens suivis par Google, il n’est pas souhaitable de les développer outre mesure en public.
Parmi les légendes urbaines majeurs du référencement qui m’ont fortement agacées, je cite le TrustRank Google. Le cas du nofollow est sensiblement différent puisqu’il s’agit plutôt de mensonges et de manque de transparence dont j’accuse Google. Cependant, le moteur de recherche est passé maître dans l’art de laisser le petit monde du référencement s’engager sur des fausses pistes.
Finalement, le nofollow revient dans la face de Google autrement qu’il avait prévu. La preuve en est cette annonce par Matt Cutts qui vise à décourager la de pratique du PageRank sculpting. Le suivi des liens en nofollow est simplement à mettre sur le compte des nombreuses déceptions à propos de la transparence chez Google vis-à-vis des webmasters. Au travers de divers effets d’annonce, le moteur fait semblent de communiquer, tandis qu’il demeure parfaitement opaque. En fait, il agit tout comme les webmasters le dérangent, oubliant peut-être que c’est sur le dos de nos pages qu’il se fait des montagnes de fric et qu’il domine la planète virtuelle.

38 réflexions sur “Google nous ment une fois de plus car il suit les liens en nofollow”

  1. J’ai effectivement vu le test sur le labo du référencement, j’en parle aussi sur friendfeed sur le groupe Seo France, mais ca n’a pas l’air d’étonner plus de monde que ca. D’ailleurs, sans parler de ton test, il me semblait avoir déjà lu quelque part que le nofollow n’empêchait pas google de « connaitre » le lien, mais juste de ne pas communiquer de « trust ». En voici la preuve…

  2. Comme le dit « Djolhan », ce test n’est pas une si grande révélation. Google à toujours dit qu’il ne « suivait » pas le liens dans l’élaboration de la popularité dans l’algorithme.
    L’utilisation d’un NoFollow n’empêche pas que la page liée ne soit pas indexée, Google essaie toujours de découvrir de nouvelles pages.

    Malgré tout, ce test est très bien réalisé et c’est toujours intéressant de tester pour être que ce que nous prétend Google est vrai.

  3. Le fait que Googlebot ne suit pas les liens en nofollow est contradictoire avec la tendance actuelle de Google à découvrir le maximum de pages d’un site : injection de requêtes dans la search box d’un site, ne pas réécrire les urls si on ne sait pas bien le faire (dixit un billet officiel de Google).
    D’ailleurs à la sortie de Cuil, n’avaient ils pas dit qu’ils avaient 1000 milliards d’urls en réserve mais pas affichées dans l’index publique?

  4. Je rejoins ceux qui disent que ce n’est pas une révélation. Il est toutefois très intelligent d’avoir testé à nouveau… Le monde change, Google aussi.

    Je me posais d’ailleurs une question. Lorsque Google a inventé cet attribut, les nofollow étaient t-ils suivis ou pas ?

    Il est en effet possible que Google ait réellement appliqué ce « non-suivi » du lien lorsque l’attribut nofollow a été mis en place, puis qu’il soit ensuite revenu en arrière (sans modifier la communication à son sujet) du fait de l’utilisation faite avec le nofollow pour le PR sculpting.

    Quand Matt Cutts dit que le PR sculpting empêche la transmission de PR vers des pages à haute valeur ajoutée (du grand n’importe quoi), il avoue que Google s’est empêtré avec un attribut qui a été détourné de sa fonction par les SEO. Ce serait pourquoi le nofollow ne transmettrait pas le PR ou l’ancre, mais n’empêcherait plus le crawl, quoi qu’en dise Google dans ses communications officielles.

    Ce que je retiens de ce test, c’est que ce n’est pas la première fois que Google diffuse une information mensongère. Je trouve cela indigne d’une entreprise de ce type qui se targue d’avoir « pour mission d’organiser les informations à l’échelle mondiale ».

    « Don’t be evil » disent t-ils ?

  5. @AxeNet
    Pour le « Don’t be evil », c’est clair que c’est un voeux pieux !

    Pour « Je trouve cela indigne d’une entreprise de ce type qui se targue d’avoir « pour mission d’organiser les informations à l’échelle mondiale ». » -> pour ma part, je ne suis pas indigné : Google n’est pas un moteur de recherche Open source et de ce fait n’a pas pour objectif de divulguer ses méthodes. Je n’attends pas de ce moteur qu’il soit transparent. Donc, c’est un peu comme si nous faisions du reverse engineering d’algorithme ! (mais pas à partir des résultats de recherche comme le précise Laurent.

  6. Et un peu de recherche sur Google t’aurait donné ce genre de lien : http://actu.abondance.com/2009/06/google-ne-tiendrait-plus-compte-de.html

    Ou il est bien précisé que même chez Google on précise que le nofollow n’impacte plus la popularité de la page.

    Définitivement utiliser l’expression « Google nous ment » est ridicule et vraiment signe d’une paranoïa mal placée dans un contexte d’identité numérique où la moindre phrase sur un blog peut avoir un retentissement énorme.

    N’oubliez pas que Google ne nous doit rien, et s’ils veulent changer la politique du jour au lendemain, on ne pourra que le regretter, mais rien y faire 🙂

  7. @ Olivier.
    Ce que je trouve indigne, c’est de mentir sur une page officielle du site : http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=96569 ou il est clairement indiqué au sujet des liens comportant l’attribut nofollow « Non, nous ne les suivons pas ».

    Dans la pratique, qu’ils les suivent ou pas, je n’ai rien à y redire, Google est gratuit, s’il ne me plait pas, je change de moteur.

    Je n’attends pas de transparence de leur part, mais il y a une différence entre, ne pas dire, et mentir. Je suis donc choqué par un voeux « d’organiser l’information mondiale » et une pratique qui est de diffuser volontairement une information mensongère.

    Que l’on ne se méprenne pas, je ne suis pas habituellement un détracteur de cette entreprise, ou du moins pas plus que d’une autre qui aurait ce type d’attitude. J’utilise leur moteur de recherche chaque jour et j’en suis plutôt très satisfait.

    @ Samy
    La distribution du PR hors nofollow n’a rien à voir avec le sujet. S’il t’intéresse toutefois, tu trouveras sur notre blog des articles un peu plus complets que l’information diffusée sur la page dont tu fais mention.

    Sinon, j’hésite un peu sur l’affirmation « Google ne nous doit rien », mais c’est un autre débat 😉

  8. D’un autre coté, est-ce un mensonge ou juste un « oublie » de mise à jour ? Il faudrait revenir sur le passé et vérifier si d’anciens tests démontrent cette théorie ou pas.

    @Samy, on ne parle pas de popularité sur ce billet mais belle et bien de follow or not follow au sens strict du terme, à savoir, je vois un lien en nofollow, est-ce que je l’index ou non ?

  9. Je reconnais que j’ai mal compris le sens de l’article 🙂

    C’est juste la démarche « haaaan Google nous meeeeent » qui me chiffonne : ils peuvent modifier unilatéralement, ou ne pas communiquer sur leur algorithme, sans qu’on puisse leur en tenir rigueur;

  10. Bizarre… j’avais posté un commentaire et il a disparu !
    Me serais-je auto-modéré pendant mon sommeil ? 😀

    En substance, j’émettais mon point de vue qui se situe entre AxeNet et Olivier. Google est une entreprise privée qui n’a pas de comptes « moraux » à nous rendre. Les seuls comptes à rendre sont financiers pour les actionnaires.
    Par contre, le message du « don’t be evil » est largement galvaudé, et pourtant encore souvent utilisé par les portes-parole.
    En tout cas, concernant le nofollow, il s’agit bien d’un mensonge d’ordre technique (désolé Samy que tu l’ais interprété autrement) qui n’est pas anodin. Il y a tout de même des répercussions par rapport à la perception générale du nofollow.

    Pour finir, mon sentiment est similaire à celui de RefSchool. Je crois Google incapable de se restreindre à ne pas crawler une URL sous prétexte qu’elle porte une capote. Google est un monstre avide de contenu qu’un robots.txt ou un HEAD n’arrête pas, alors pourquoi pas le nofollow ?

  11. Ben Laurent ça veut rien dire dutout,
    Google index n’importe quoi ça on le sait,
    fait le même test mais cette fois mets une ancre avec une ancre du genre « contact pagetonicx » et regarde si la page pointée ressort sur cette requête, s’il elle ressort ok test validé, mais sinon ca ne veut pas dire grand chose.

  12. Salut PageTro,

    D’autres tests sont à venir sur le nofollow, notamment celui sur les ancres qui est déterminant.
    En effet, ce test ne prétend qu’à démontrer que Google suit les liens en nofollow. C’est peut-être pas grand-chose, mais c’est tout de même bizarre pour un attribut qui prétend rendre un lien hermétique.
    On pourrait dire la même chose du robots.txt ou des metas nofollow dans le HEAD.

  13. Salut Laurent

    Pour ma part je trouve ça normal, quand on voit l’abus de nofollow que wikipedia fait par exemple, ils nofollosent leurs sources.. c’est abusé!
    Normal que google jette un œil quand même.

    J’ai une grosse puissance d’indexation sous la main (quelques minutes) je reviens vous dire pour l’ancre 🙂

    @tout à l’heure

  14. lol Boda, ben justement si 😉

    Laurent j’ai mis plusieurs articles et un bon nofollow au milieu et c’est toujours pas indexé lol
    Pas de passage non plus de google..
    Ya un soucis quelque part là..

  15. Ben toujours rien, alors que j’ai remis une couche d’articles entre temps et eux sont dans l’index depuis la mise en ligne aussi quelques minutes après sans aucun ping

    Faut repasser, tu as du donner le lien à quelqu’un qui avait un adware google je vois pas autre chose 🙂

    La page dont je parle tu dois pouvoir la trouver facilement, et le liens est un petit peu plus bas,
    y quelqu’un qui ai passé dessus y a quelques minutes :
    Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.7) Gecko/20050414 Firefox/1.0.3
    un peu à la rue le FireFox au passage 😀

  16. bon ben ça y est j’ai compris,
    un bot pourrit avec un truc pourrit à la clef est passé sur ton site, a indexé le la page sans prendre en compte le nofollow et google a crawlé le truc à la clef pourrit

    j’ai un ça qui vient de passer :
    Baiduspider+(+http://www.baidu.com/search/spider.htm)

    l’idéal de test serait de cloacker googleBot et de lui servir à lui seul le lien nofolizé.

    Désolé mais test invalidé, comme pour la balise keyword, comme pour la balise méta 😉

    au suivant 😀

  17. Coucou Pagetro!

    >>l’idéal de test serait de cloacker googleBot et de lui servir à lui seul le lien nofolizé.

    Totalement d’accord avec toi 🙂

  18. arf 🙂

    allez refait et cloack le lien 😉

    toujours pas indexé chez moi, malgré que plein de mode aient visité la page suite à mon poste

  19. je m’en suis effectivement rendu compte que Google suit les liens en nofollow par plusieurs tests sur mes sites.. mais après tout, cela n’est t’il pas légitime?

  20. Pas du tout!
    GG indique qu’il ne crawlera pas les liens SORTANTS de la page (outgoing links). Rien à voir avec les backlinks et qui pointent vers la page.

  21. « je me suis toujours fié à mon instinct à propos de Google et il ne m’a jamais trompé »

    J’aime bien cette phrase, la suite aussi pour ma part je pense qu’un lien en nofollow vaut un/X d’un vrai lien car à la base le nofollow a été créé pour éviter le spam.

    Le plus simple pour dissimuler une page c’est de pointer sur cette dernière en javascript (la mettre dans un robot.txt indiquerait clairement sa présence au bot et même si il ne l’indexera pas il pourrai « surfer » dessus par curiosité).

  22. Je viens de faire un test, lien nofollow cloacké sur l’IP, personne au courant de la page, moi même je ne l’ai pas visitée Google a trouvé la page et l’a indexée. Il aura fallu quand même 15jours.

    Google ne respecte donc pas le nofollow.

    Toutes mes excuses Laurent.

  23. Attention, le « nofollow » ne veut pas dire ne pas suivre au sens du terme crawl, mais ne pas voter au sens du terme « link juice ». En tout cas, c’est ce que j’ai toujours compris du nofollow face aux divers discussions et tests vu de ci de la.

  24. Pas du tout!
    Lis bien la page officielle de Google.
    Il est dit « L’attribut nofollow permet aux webmasters de donner l’instruction suivante aux moteurs de recherche : « ne suivez pas les liens sur cette page » ou « ne suivez pas ce lien spécifique ». »

    C’est bien au sens du crawl qu’il faut comprendre et pas du tout en termes de transmission de popularité.

    C’est Matt Cutts qui a brouillé les pistes avec un post disant que le nofollow ne transmettait pas de PageRank.

    La terminologie « nofollow » signifie clairement qu’il ne faut pas suivre.

  25. Ah, parceque toi tu y crois à leurs pages officielles ? « Construisez vos pages pour vos visiteurs et non pour les moteurs » alors que le nofollow est typiquement pour les moteurs… Cela peux déjà nous donner une piste sur la crédibilité de ce qu’annonce google 😉

    Dans tous les cas, Google est un glouton capricieux et curieux, crois tu franchement qu’en ayant connaissance d’un lien il n’ira jamais le visiter ? C’est comme un petit garçon à qui tu dis de ne pas aller à tel endroit, combien de temps ca va tenir ?

    Bref, comme je l’ai dit plus haut, et j’aurais du le tourner différemment, cela fait longtemps que le nofollow est connu pour être crawlé…

  26. Mon propos est justement de démontrer que Google ne fait pas ce qu’il prétend. Faire le contraire de ce qui est marqué noir sur blanc dans des « guidelines » est plutôt grave à mes yeux.

    Je veux bien que tu me passes des ressources qui expliquent que le nofollow est crawlé car je n’étais pas au courant et apparemment je n’étais pas le seul. Impossible de me souvenir exactement quand j’ai découvert ça, mais c’était largement antérieur à la date du test sur Oseox.

  27. Je t’avoue que j’ai un peu perdu le fil de la discussion, entre celle ci et le blogaxenet + Mar1e, j’aurais peut-etre du relire un peu plus les commentaires, au final, nous sommes bien d’accord 😉

    Par contre, je t’avoue que je serai incapable de retrouver les ressources qui m’ont permis de confirmer cela. M’enfin, je ne dois pas être le seul à avoir fais et lu des tests…

  28. Heu…
    C’est mon test dont il s’agit sur Oseox 😀
    Tout ça est expliqué en début du billet.

    Tu n’es pas le premier à me dire que ça fait « longtemps » que c’est connu, sauf que personne n’en a parlé. Je t’ai indiqué que la confusion vient d’un billet de Matt Cutts. Recherche sur son blog et tu trouveras un billet qui prêt à confusion puisqu’il dit un truc du genre « le nofollow ne transmet pas de PR » tout en faisant un lien vers la page officielle de Google sur le nofollow qui dit bien que les liens ne sont pas suivis.
    Pas le temps de chercher la page en question, mais le flou artistique orchestré entre la communication officielle Google, le discours informel de Matt Cutts et la rumeur font un joli mix mac qui fait que la plupart n’y voient pas trop clair.

  29. Oui oui, c’est bien ton billet, je l’ai mis à titre d’indication pour les autres lecteurs du blog 😉

    Pour le nofollow et la transmission du PR, la n’est pas la question il me semble, je t’ai tout de même retrouvé l’article de mattcuts sur le PR Sculting

    D’ailleurs, le passage ci dessous est très intéressant et laisse entrevoir ce dont on parle :

    Q: Why did Google change how it counts these links?

    A: For one thing, some crawl/indexing/quality folks noticed some sites that attempted to change how PageRank flowed within their sites, but those sites ended up excluding sections of their site that had high-quality information (e.g. user forums).

    Si on lit entre les lignes, c’est exactement ce qu’il dit…Il parle bien du problème de crawl de page qu’ils considèrent comme ayant un contenu de qualité et que ce serait dommage de ne pas suivre le lien… Ne pas transmettre de PR ne veut pas dire qu’il ne suivra pas le lien je pense qu’on sera d’accord la dessus 😉

    Enfin, pour revenir au fait que de nombreux référenceurs étaient au courant bien avant le test Oseox, c’est sans doute aussi parceque nous sommes nombreux à avoir nos propres expériences ou tests internes tu crois pas ? 😉

    On en revient ensuite au petit billet sur je ne sais plus quel blog parlant du mysticisme des référenceurs alors qu’au final, chacun a sa propre expérience et ses « petits trucs ».

    PS: Il est trop petit ton textarea :p

  30. je suis d’accord sur le principe, la règle n’est pas très claire, mais j’ai pu constater un changement important sur l’un de mes sites qui a perdu pas mal de positions suite à un changement sur un blog important qui est passé de dofollow à nofollow… mon idée est donc que google a commencé à ne plus les considérer pour finalement changer d’avis… ce qui expliquerait un bon nombre de choses

Laisser un commentaire