Des jolis graphes et des maths pour expliquer (un bout de) l’algorithme Google

algorithme de Google

Cela faisait un moment que j’avais entamé la traduction (autorisée) de l’article suivant. Il était oublié au fond d’un répertoire, puis je suis retombé par hasard sur l’article original de SEOmoz rédigé par Rand Fishkin et Ben Hendrickson.
Après une nouvelle lecture, j’ai pensé qu’il serait vraiment intéressant de terminer la traduction pour partager cette analyse passionnante avec ceux qui sont en délicatesse avec la langue de Shakespeare.
Le but de cette analyse est de comprendre un peu mieux l’algorithme de Google en effectuant une corrélation de données sur la base de l’index Linkscape.

Corrélation de données

Linkscape est l’index Web de SEOmoz. En plus du travail habituel sur les statistiques, nous effectuons des recherches poussées qui sont partagées dans cet article. 
Cependant, la lecture requiert de l’attention car la corrélation de données ne donne pas forcément toutes les réponses. Il n’en demeure pas moins que c’est extrêmement intéressant, donnant une vue de l’intérieur grâce à la modélisation des classements; tout en sachant qu’il ne faut pas simplement regarder les graphes, mais bien lire le commentaire associé. Donc, faites attention à la lecture des données brutes qui peuvent être sujettes à une mauvaise interprétation.

Quelques stats Linkscape (au 22/09/09)

  • Date de sortie :  6 octobre 2009
  • Domaines : 57 millions
  • Sous-domaines : 215 millions
  • URLs : 40,5 milliards
  • Liens : 456 milliards
  • Attributs de lien :
    • Liens nofollow internes : 7 milliards (1,51% du total)
    • Liens nofollow externes : 2,8 milliards (0,60% du total)
    • Liens nofollow au total : 9,7 milliards (2,11% du total)
    • URLs en 301 : 384 millions (0,08% du total)
    • URLs en 302 : 3 milliards (0,59% du total)
    • URLs employant rel= «canonical» 52 millions (0,01% du total)
  • Corrélation moyenne entre PageRank et mozRank
    • Erreur absolue moyenne : 0,54
  • Corrélation moyenne entre mozRank du domaine (DmR) et PageRank de la homepage
    • Erreur absolue moyenne : 0,37

Maintenant, entrons dans la recherche autour de la corrélation des données pour savoir comment utiliser Linkscape pour obtenir des statistiques intéressantes. Les premiers graphes utilisent la corrélation brute et pas seulement la relation entre les classements et les paramètres individuels. Encore une fois, il faut bien lire les descriptions et surtout ne pas faire de conclusions hâtives. Il ne faut pas croire qu’on peut forcément obtenir un meilleur classement en suivant les recommandations. Le but est de montrer quels paramètres sont appliqués aux pages qui sont positionnées parmi les meilleures positions des résultats de recherche.

Comprendre les graphes

  • Mean Index By Value (index moyen par valeur) : c’est utilisé pour l’axe y de plusieurs graphes. Au lieu de faire la moyenne des valeurs brutes, nous effectuons le calcul sur son index relatif dans les résultats de recherche – si ordonnés par cette valeur. Prenons 3 résultats de recherche où la page en première position est la quatrième en terme de liens, la deuxième est la première pour les backlinks, puis la troisième est en dixième position pour les liens. L’index moyen par nombre de liens pour la première position sera (4+1+10)/3=5.
  • Mean Count Numbers (moyenne des nombres) : ces nombres apparaissent sur l’axe y du premier graphe, montrant la moyenne du nombre de liens.
  • Position : c’est utilisé sur certains axes x. Pour les graphes concernés, spécifiques à la position organique dans Google.com, les résultats de recherche non traditionnels sont exclus (local, vidéo, news, images, etc.).
  • Error Bars (Barres d’erreur) : ces barres qui relient les courbes dans nos graphes montrent l’intervalle entre deux éléments différents. Sur certains graphes, elles montrent les 95% des intervalles de la moyenne potentielle si nous avions une infinité de données à traiter.

Les backlinks sont-ils en corrélation adéquate avec le positionnement ?

Une logique récurrente dans le référencement prétend que le nombre de liens qui pointent vers un résultat permet une bonne prédiction du positionnement. Cependant, on remarque que Yahoo! Site Explorer (et même Google dans ses Webmaster Tools) inclut un grand nombre de liens inutiles (nofollow, format exotique, internes, etc.), tandis qu’il exclut des éléments intéressants (comme les redirections 301).
 En utilisant les données Linkscape, nous pouvons éliminer ce bruit afin d’extraire seulement les liens qualifiés et les 301.
Corrélation entre backlinks et positionnement

Ce premier graphe suggère qu’une corrélation existe entre nombre de liens et positionnement. Sauf que les pics sont frustrants. Au travers d’une analyse plus profonde, nous avons établi qu’il  était évidemment causé par un déséquilibre de liens parmi certains résultats.
 Du coup, il s’est avéré pertinent de produire le graphe suivant :

Valeur moyenne du positionnement par nombre de liens

Ici, nous pouvons voir ce qui pourrait se passer si nous manipulions les résultats par nombre de liens. Dans ce cas, chaque paquet de résultats ont été assigné un chiffre (1, 2, 3, etc.) qui correspond à la quantité de liens en comparaison avec les autres pages (la page avec le plus de liens est assignée le « 1 », la deuxième qui reçoit le plus de liens porte le « 2 », etc.).
 On voit que la courbe est devenue régulière, mais nous pouvons assurer de sa précision.

Les barres sur la courbe ci-dessous montre l’intervalle permise pour estimer la ligne médiane.

Zone d'erreur pour la corrélation entre liens externes et positionnement

La corrélation est forte, suggérant que le nombre de liens externes est important. Le standard relevé pour l’erreur est si bas que nous sommes confiants à propos de la véracité de cette analyse. 
Clairement, les liens sont très importants, mais ils ne représentent pas la totalité de la solution. Amasser le plus de liens possible est un excellent objectif, mais cela ne peut pas être votre seul but.

Le dernier morceau à observer pour cette partie concerne la déviation standard. Cela démontre la latitude de variation d’une page par rapport aux moyennes.

Variation de la corrélation pour les liens et le positionnement

Ce graphe nous montre que la variation pour un paquet individuel de résultats peut être très large. Acquérir plus de liens n’est pas forcément un moyen infaillible. La déviation standard est éloignée de la ligne médiane (1,97). Au niveau global, il importe de prendre en compte le nombre de liens externes qui sont correctement suivis, mais nous allons développer nos modèles et élargir notre champ de réflexion pour d’obtenir des informations actionnables au niveau granulaire.

Une seule mesure peut-elle prédire le positionnement ?

Franchement, ça serait excellent…
Nous avons regardé des indices comme le PageRank, le nombre de liens dans Yahoo! Site Explorer, Alexa Rank, etc. Pour être clair, ces indices sont aussi fiables que piocher au hasard. Le score du PageRank de Google était approximativement 16% plus performant (donnée datée de février 2009) qu’une prédiction basée sur le hasard pur pour déterminer le positionnement d’une page Web (N+10 ou la page positionné N°1 contre la page 2). Le PageRank était également 5% meilleur que le hasard pour prédire le positionnement (N+1 ou la position 1 contre position 2).
Le graphique ci-dessous montre des corrélations pour un certain nombre d’indices liés au référencement.

corrélation des données avec le positionnement sur Google

Nick, Ben et Chas ont travaillé dur afin d’améliorer la valeur et la qualité de l’index Linkscape, ainsi que l’utilité des mesures.
Le graphe suivant montre nos progrès.

Progrès de la valeur et qualité de l'index Linkscape

Les corrélations du graphe ci-dessus sont 35-50% plus satisfaisantes que les résultats piochés au hasard (il ne s’agit pas d’une comparaison 1 pour 1 avec les nombres ci-dessus – cela viendra dans un prochain post). L’observation de ce graphe suggère que le mozRank externe (représentant la quantité de « link juice » vers un page depuis les liens externes) et les liens externes suivis correspondent bien au positionnement actuel, apportant des éléments d’information intéressants pour les chasseurs de backlinks. Cette ligne de corrélation peut suggérer, dans un scénario classique du positionnement, l’importance de l’apport de liens émanant de pages à fort mozRank/PageRank qui contiennent peu de liens externes (ainsi les liens passent plus de « link juice »), ainsi qu’une grande quantité brute de liens externes suivis. De plus, ce graphe supporte l’idée que l’apport de liens depuis un domaine unique est pertinent.

La partie frustrante à propos de ces donnés est que ça ne raconte pas l’ensemble de l’histoire, ni que ça soit directement actionnable pour une requête spécifique. Comme vous pouvez voir ci-dessous, la déviation standard des nombres montre que pour n’importe quelle recherche, l’étendu varie drastiquement.

Variation standard en fonction des résultats de recherche

Lorsque nous observons cet effet, exactement comme dans le cas ci-dessus, l’application pour un travail de référencement d’un projet client, dont l’objectif est d’obtenir un positionnement spécifique, n’est pas clair. Employer ces mesures comme KPI et moyens d’évaluer les liens potentiels est probablement utile. Construire des analyses de concurrence avec ces points de données sera certainement plus efficace qu’utiliser des mesures extérieures, mais cela ne dit pas « fais ceci pour mieux te positionner, » tout comme ce n’est pas le « Saint Graal » que nous pourchassons.

Comment les facteurs « On Page » coïncident avec le positionnement ?

Pour l’instant, nous avons peu évalué les facteurs « On Page » et leur corrélation avec le positionnement. C’est ce que nous allons voir maintenant.

Corrélation meta keywords avec le positionnement

Google a récemment annoncé que la meta keywords était ignorée. Ces données montrent une courbe très irrégulière et des barres d’erreurs dans la limite du 13, supportant cette affirmation. Employer la requête/phrase dans la meta keywords est un des signaux les moins significatifs que nous avons étudié.

Corrélation entre le titre - balise Title - et le positionnement

La balise Title qui contient le terme de la requête semble avoir une réelle corrélation avec le classement. Ils ne sont pas en parfaite corrélation, mais ce graphe nous montre que Google a une claire préférence, en moyenne, pour les pages qui emploient le terme de la requête dans la balise Title.

Corrélation entre les balises d'en-têtes Hx et le positionnement

Nous avions examiné auparavant les balises d’en-têtes H1/H2/Hx pour arriver à la conclusion qu’elles avaient un impact faible sur le positionnement. Ce graphe suggère que c’est toujours le cas. Il y a une corrélation plus grande lorsque les termes sont utilisés dans d’autres zones «on page» du body ou dans l’ancre des liens (internes ou externes).
 Bien que le graphe montre une courbe horizontale, suggérant que les en-têtes H1 à H4 n’ont pas trop de bénéfice à l’utilisation, ce n’est pas aussi vilain que l’effet hasardeux observé avec la meta «keywords» (les courbes démarrent en-dessous de 13 et se terminent juste au-dessus). En tout cas, la corrélation positive est basse avec la ligne horizontale qui se tient entre les barres d’erreur.

Corrélation entre mots clés dans l'url et le positionnement

Le graphe est l’illustration la plus claire du fait qu’il faille construire des systèmes plus avancés qu’une simple et directe corrélation. Selon ce graphe, l’utilisation du terme de recherche dans le nom de fichier ou chemin d’URL est légèrement négatif en corrélation avec un bon classement. Le sous-domaine apparaît largement inutile, tandis que le domaine racine à une forte corrélation. Bien que toutes les courbes (sauf le domaine racine) soient sur une bande étroite de l’axe x, les bonnes pratiques du référencement nous dictent d’utiliser les mots clés dans ces éléments. Du coup, lorsque nous analysons ce graphe, il convient d’émettre quelques hypothèses. Par exemple, les termes de recherche de l’URL seraient éliminés lorsque ils apparaissent dans le domaine racine et ailleurs dans l’URL. Les moteurs de recherche peuvent voir ceux qui répètent les termes du domaine racine dans l’URL comme des pratiquants du « keyword stuffing ». Cela peut aussi impliquer que la corrélation brute perçoit un grand nombre de pages qui optimisent moins l’URL, mais qui sont performantes grâce à d’autres facteurs (liens, autorité, etc.). C’est aussi vrai que la plupart des sites qui emploient le mot clef dans l’URL ne l’utilisent pas forcément dans le domaine racine. Du coup, le négatif de l’un peut être mélangé au positif de l’autre pour tenter d’y voir plus clair.

Cet exemple est la parfaite illustration des problèmes d’interprétation sur la corrélation de données brutes, nécessitant une modélisation toujours plus sophistiquée.

Pouvons-nous construire une modélisation utilisable du positionnement?

Nous avons besoin d’un modèle qui imite Google du mieux possible pour obtenir une représentation de la valeur potentielle pour les actions de référencement. Sauf que ce n’est pas facile car Google possède plus de 200 paramètres dans son algorithme de classement des pages Web. Bien que nous possédons de nombreux points d’analyse, il n’en demeure pas moins que c’est un challenge complexe.

Score général de la modélisation SEOmoz

La courbe «Über» en rouge dans le graphe ci-dessus est construite en prenant tous les points d’analyse que nous possédons.  Les données sont moulinées pour établir une corrélation avec les résultats de recherche. La courbe rouge fait clairement apparaître que notre modèle est le plus efficace pour prédire le classement. En plus, la courbe est carrément excellente pour le Top 10 des résultats de recherche.
Cette modélisation peut aussi s’affiner pour obtenir un impact à propos de l’utilisation du mot clef dans une zone spécifique.

Regardons comme exemple la corrélation négative des mots clés dans l’URL.

Corrélation affinée entre les mots clés dans l'url et le référencement

Encore une fois, le graphe montre clairement l’inefficacité latente des mots clés dans le sous-domaine, mais que c’est extrêmement efficace dans le domaine racine. Sinon, les courbes peuvent suggérer un faible effet positif tout en observant une descente en dessous du 0 de l’axe x pour les positions 20-25, indiquant que l’utilisation du mot clef peut aussi avoir un effet négatif. Ainsi, l’utilisation du mot clef au sein de multiples endroits peut être néfaste; ce qui dirait à certains qu’une utilisation moins agressive des mots clés serait bénéfique.

Déviation standard pour l'analyse de corrélation mots clés dans l'URL et le positionnement

Dans ce graphe, les barres d’erreurs de déviation standard sont mises en évidence. Ainsi, nous pouvons dire que l’utilisation des mots clés dans l’URL n’a pas d’impact négatif pour les meilleurs résultats, tandis que ce constat est moins serein pour la dernière portion de résultats.
Tournons notre attention vers ces satanés Hx encore une fois pour voir si notre modélisation a d’autres choses à dire.

Corrélation entre positionnement et mots clés dans les balises d'en-têtes Hx

Nous obtenons des résultats similaires qui perçoivent les tags H1-H4 comme peu intéressants pour y placer des mots clés. Les Hx semblent aider un peu, mais peuvent aussi avoir un léger impact négatif  pour la dernière portion des résultats. Cette analyse est une évidence plutôt efficace pour déclarer que les tags Hx n’ont pas une grosse importance pour le référencement (même en prenant en compte les barres d’erreur). Evidemment, il faut continuer d’utiliser les en-têtes, mais ce ne sont pas les endroits les plus stratégiques à incorporer à propos de l’optimisation pour le référencement.

Sophistication de la mesure des liens

Notre mesure pour les liens a aussi été l’objet d’améliorations qui donne un constat plus nuancé. Vous pouvez voir ci-dessus que notre mozRank amélioré apparaît plus important pour les premiers résultats de recherche; tout en observant que le nombre brut de liens n’a pas une grande valeur. Plus profond dans les résultats, certaines pages semblent utiliser à outrance l’acquisition de liens et du mozRank – probablement à cause de liens qui proviennent de sites à faible autorité ou même spammy.
 Ce graphe ne contient pas un grand nombre de données actionnables, mais cela confirme plutôt bien ce qu’on sait du référencement (ex: peu de bons liens est mieux que beaucoup de mauvais liens).

Facteurs influent pour le référencement de pages Web

Ce dernier graphe montre quelques données intéressantes de nos tests sur les éléments «on page». Le gros paramètre aperçu concerne l’utilisation d’images avec un attribut «alt» adéquat incorporant les mots clés. La ligne verte est une des plus fortes corrélations pour l’utilisation «on page» des mots clés. Mettre les mots clés en gras, dans le corpus et même dans les ancres a le même type d’impact positif étudié précédemment, ainsi qu’un léger impact négatif dans la zone 20-25.

Conclusions

Je sais que cela représente beaucoup de données à ingurgiter, mais il est aussi très important de comprendre que la crédibilité du travail de référencement passe aussi par l’appui sur ce type d’analyse. SEOmoz n’est certainement pas la seule compagnie à travailler de la sorte (quoi que certainement la seule à rendre les résultats publics). Tout cela peut apporter des supports intéressants pour des projets clients ou en interne avec des données qui montrent l’importance et la valeur prévue pour les changements effectués en tant que référenceur. Nombreux sont ceux qui critiquent le métier parce que l’expertise se base énormément sur l’intuition et le bon sens. Avec ces analyses, nous pouvons recentrer le débat. Nous ne prétendons pas que ces données sont infaillibles, mais il s’agit certainement d’un excellent point supplémentaire à ajouter dans l’équation.

Les éléments suggérés par l’analyse, dont nous sommes confiants de la pertinence :

  • Les liens sont importants, mais les données trop basiques peuvent être trompeuses. Il faut établir des analyses sophistiquées sur les liens.
  • Il n’y a pas une donnée en particulier qui peut prédire le positionnement.
  • H1 (et H2 à H4) ne sont probablement pas des bons endroits pour capitaliser sur des mots clés
  • L’attribut «alt» des images est un endroit privilégié pour mettre des mots clés
  • Le keyword stuffing peut vous retenir au-delà des 15 premiers résultats.
  • En faire trop avec des liens de mauvaise qualité peut avoir un impact négatif.

=> Une autre étude à consulter sur les paramètres influents des backlinks.

36 réflexions sur “Des jolis graphes et des maths pour expliquer (un bout de) l’algorithme Google”

  1. Il y a encore de belles choses comme cela dans tes vieux cartons ?

    Heureusement qu’il y a les commentaires (bravo pour la traduction), car j’avoue être assez hermétique aux tout petits graphiques.

    Ce que j’en retiens :
    tu me dis si je me ramasse lamentablement par rapport à ce que tu as compris toi ?

    – Le domaine est important (mots-clés).
    Bon, je trouve cela idiot, je trouve que cela favorise le spam (on va finir avec des sites du genre tondeuse-gazon-pas-cher.com) Mais si dieu le veut…

    – les BL restent importants.
    la qualité est plus payante que la quantité. Assez logique

    – Etre archi bourrin sur les Title de pages.
    Ca a toujours été le cas avec Google.

    – Pas de bourrinage de mots-cles sur les H1, H2, Hn.
    Dans les faits, je préfère en effet des synonymes ou mots sémantiquement proches. Mais on voit tout de même souvent de bons bourrinage bien fonctionner.
    Il faudra tout de même privilégier les mots-clés dans le contenu (hors titres) et les mettre en strong.

    – L’attribut Alt fonctionne bien.
    J’adhère complètement

    – Keyword Stuffing = danger.
    Ok aussi

    – et pour finir
    Le reverse engineering est à prendre avec des pincettes bien longues lorsque l’on s’attaque à l’algo Google.

  2. Merci pour la traduction, j’avais survolé l’article original, mais en français cela reste plus agréable.
    Cette étude est juste, mais elle néglige le contenu, la structure…
    Enfin je rejoins le résumé de Sylvain, sauf que je ne critiquerais pas les mots-clés dans le ndd, c’est une réalité, mais ce n’est qu’un infime facteur qui amha ne résiste pas au nom d’une marque ou d’un ndd sexy.

  3. Wouah ! Sacré article avec du grain à moudre. Merci d’avoir ressorti cette traduction de tes cartons, ça en valait la peine.

    C’est assez paradoxal de voir que de nombreuses optimisations permettent d’apporter un plus quand on est dans les premières positions mais qu’elles peuvent être négatives quand on est un peu plus loin au classement (2ème et 3ème page)… ça me laisse un peu perplexe.

  4. Enorme cet article, merci pour la traduction.
    J’avais vu la version Anglaise, mais n’étant pas très doué avec la langue je prends plaisir à le découvrir en francais 😉

  5. Il n’y a pas à dire, ils sont généreux chez SEOmoz. De telles données sont vraiment intéressantes. Ça valait le coup de lire l’article en entier. D’ailleurs, merci pour cette traduction.
    Ce que je retiendrais surtout c’est le danger du keyword stuffing.

  6. Merci pour ces infos.
    Cette article de chez SEOMOZ qui m’était passé inaperçu, et surtout ta traduction.

    Résumé:
    Un bon domaine à l’origine
    une bonne title
    du contenu (body + liens sortant)
    et des bons liens de qualité entrant.

    Mais une fois que la page est indexé et optimisé (title, texte, image..), il reste plus que les liens pour progresser.

    Bonne journée à tous.

  7. @Sylvain : j’ai des dizaines de brouillons, notes et autres ébauches d’articles. La plupart ne finissent jamais en billet, mais cela me permet d’assouvir ma boulimie d’écriture.
    Tu as bien compris les points essentiels, mais ce qui est intéressant concerne la validation du fait que la répétition des termes dans les endroits clés (ex:Title+H1+URL) sont à manier avec précaution.
    Les auteurs n’ont pas osé dire ou n’ont pas capté que ça ne fait pas forcément partie des bonnes pratiques.

    @Aurélien : je vois ce que tu veux dire car un site est un ensemble cohérent. Cela dit, l’analyse synthétique des éléments concernés par cette étude préfigurent les leviers principaux.

    @Immobilier-danger : ceux qui sont en 20-25 positions sont pour ainsi dire refoulés dans ces positions justement parce qu’ils sont suroptimisés. Ils ne chopent pas un filtre en étant là, mais plutôt sont mis là parce qu’ils ont levé un red flag.

    @Tony : c’est surtout un bon appui pour bosser sereinement. En d’autres termes, cette étude devrait appuyer ce qu’on pense de l’opti SEO, plutôt que l’inspirer.

    @eco boutique : il faut aussi retenir que mettre les mots clés partout est contre-efficace. Il faut se servir des leviers les plus efficaces en composant le reste pour épauler ces paramètres plutôt que les plomber.

  8. Je conçois tout à fait que ce genre d’étude soit utile. Entre autre parce qu’elle permette de mettre en évidence les techniques « barbares » à ne jamais pratiquer (ex: keyword stuffing).

    Néanmoins, je trouve qu’elle font la part belle à l’optimisation arithmétique du site, alors que la complexité de l’algorithme de Google met à l’honneur la mise en oeuvre de stratégie éditoriale pertinente.

    Beaucoup trop de sites perdent leur temps à optimiser leur référencement au lieu de se demander tout bonnement « quel contenu serait utile à mes visiteurs? ».

    En tout cas, merci pour le billet !

  9. Effectivement, c’est plus clair comme ça, j’ai confondu cause et conséquence hier… Cela veut dire que pour une expression qui stagne dans une certaine zone, il y a des possibilités pour que ça viennent d’une sur-optimisation.

    Peu averti au sujet des risques du keyword stuffing, j’avais auparavant tendance à faire un peu trop le bourrin. J’en apprend chaque jour un peu plus et tente de corriger mes erreurs de débutant. Des actions de « désoptimisation » peuvent-elles être efficaces ?

  10. Merci pour cette traduction, j’avais pu lire l’article original sur SEOMoz mais le fait de le relire en français m’a grandement facilité une bonne remise en mémoire. Un article a gardé précieusement pour justifier certains choix devant les boss ^^.

  11. Salut Laurent et un grand merci pour cette trad et entre nous t’as du en c%#*er un moment parce qu’elle est coton!

    Dans l’absolu je rejoins un peu le resume de Sylvain dans le premier comm’…

    en tout cas beau boulot …

  12. @MagicYoyo : je pense aussi qu’il fait partie des meilleurs dans le genre.

    @Sabri : pour l’article ou le dofollow ? 😛

    @Raja : la structure permet d’optimiser l’accessibilité pour les moteurs, mais c’est clair que le rédactionnel est un autre pan du trypique. Reste ensuite la popularité (PageRank) comme troisième élément.
    Après, le discours du site utile pour le visiteur est un peu galvaudé. Y a que des personnes style Matt Cutts pour le clamer encore à chaque occasion. Bien sûr qu’il faut que le visiteur trouve son compte, mais ça passe d’abord par l’étape Google.
    Le tout est de bien manier les deux objectifs avec un peu de subtilité.

    @Jérémy Broutin : voilà, c’est plutôt fait pour ça supporter ta stratégie, mais pas forcément la composer à la base.

    @Website design Houston : ah ben s’il y en a bien un qui n’a pas besoin de traduc !
    En fait, j’avais commencé peu après la parution sur SEOmoz et j’ai terminé le jour de la publication sur mon blog. Du coup, c’était même plaisant.

  13. J’admire le travail fourni : à la fois celui de reverse engineering de SEOmoz et celui nécessaire à la traduction !

    Il y a un côté très amusant à tout cela…
    Certains hommes s’ingénient à percer les mystères d’un code que d’autres connaissent parfaitement.
    Si l’on excepte les cryptages militaires (ou de sécurité), cela doit bien être la première fois dans l’histoire qu’une situation de ce type se manifeste : on étudie comme une « science de la nature » (avec expérimentation, etc.) quelque chose de totalement artificiel !

    En tout cas, je range cet article dans mes favoris pour le relire à l’occasion !

  14. Un grand merci pour la traduction. On a un réel plaisir à le lire et en plus on n’y trouve des informations pragmatiques, ce que recherche tout référenceur. Merci pour ce fabuleux travail.
    Patrick

  15. Tout simplement bravo.
    Une bien belle étude qui permet enfin d’avoir des tendances de certitudes statistiques.

    Merci

    🙂

    *large sourire*

  16. Traduction impressionnante.
    Je rejoins Les Dauphins concernant l’étrangeté de la situation : des hommes cherchant à percer un mystère dont l’origine est humaine. Mais si des humains on pu mettre cet algorithme en place, d’autres humains ne sont-ils pas capables de le découvrir? Question de moyen sans doute …

  17. Comme Sylvain, je suis un peu dubitatif quant à l’utilisation des balises hx, en particulier le h1 (je suis d’accord que les autres, de h2 à h6, c’est plus pour la sémantique que pour le référencement directement). Ça marche plutôt pas mal. En particulier avec la combinaison title + h1 + url (par ordre d’importance), avec des synonymes à chaque fois. Après, peut-être que ça aurait aussi marché si ce n’était pas un h1…

  18. Ping : Top 8 des facteurs influents pour les backlinks

  19. Bonjour Laurent et merci pour cette traduction : c’est tout à fait le genre d’article qui nous passionne, nous autres dans les campagnes.
    On n’est plus à dire « je pense que » je crois que » mais « des tests ont été faits et conclusion… ».

    Justement je ne pensais pas qu’un texte dans un alt avait plus de poids qu’un texte dans une ancre de lien…

  20. Enfin tout ça n’est pas très scientifique car on ne contrôle pas le modèle, ni sa complexité.
    Par exemple … Dire : « Google a une claire préférence, en moyenne, pour les pages qui emploient le terme de la requête dans la balise Title. » … n’apporte rien … Si ces pages sont dans les résultats c’est surement que le contenu et les liens ont été travaillés pour obtenir ce résultats. Une page qui n’a pas les termes de recherche dans le title peut également se positionner sur d’autres requêtes ce qui améliore sa visibilité globale…

  21. @Les Dauphins : ce qui est encore plus étrange concerne le fait qu’un cerveau humain est beaucoup plus complexe qu’un algorithme de 200 paramètres.
    La machine ne peut pas vraiment battre un humain aux échecs, mais on n’arrive pas à refaire à l’envers une formule de math avec 200 paramètres.

    @Philippe @Référenceur Indépendant @jaycreation @Pyopillot @Gilles Vitu : merci

    @cheb khaled : comme je répondais @Les Dauphins, c’est clair qu’on se sent bien con face à la machine. Sommes-nous à l’orée de Matrix ?

    @Campagne : ça dépend comment on prend le alt ou l’anchor. Pour booster un lien, c’est l’anchor qui l’emporte.

    @Blog Lescomparateurs : Title est l’élément le plus important. Ensuite, tu peux l’enchevêtrer comme tu veux avec d’autres paramètres, mais cela n’enlève en rien de sa suprématie.
    Je ne sais plus qui disait : »donne moi un titre et un anchor text et je te positionne où tu veux »

  22. ( petite parenthèse : je fais le con avec le nom, chose que je ne fais d’habitude jamais avec les commentaires sur les blogs… juste pour voir ).

    @Laurent: quand tu dis « Je ne sais plus qui disait : donne moi un titre et un anchor text et je te positionne où tu veux », ne serait-ce pas plutôt « donne moi un titre et un text pour alt et je te positionne où tu veux » ? Je n’ai que survolé pour l’instant, mais j’ai cru lire dans un commentaire que texte de l’attribut alt sont plus importants que les textes d’ancres.

    Sinon, concernant le bémol au sujet de l’affirmation « faites des sites pour les internautes », je suis assez d’accord. Quand quelqu’un le dit, je n’y crois pas. Il faut d’abord se dépatouiller les problèmes que pose Google, et ensuite seulement on peut présenter quelque chose aux internautes. Et justement à propos des utilisateurs : il faudrait aussi savoir quel pourcentage d’internautes font des liens spontanément vers des documents ou des sites qui leur ont plut. Je sais que ce n’est pas directement l’objet ici, mais c’est important.

    A-t-on des éléments de réponses à cette question ? S’il y a des sources à ce sujet, je veux bien en prendre conaissance, histoire de ne pas centrer la question seulement sur Google mais sur les utilisateurs aussi.

    P.S. (au sujet de ce blog) C’est une bonne idée d’indiquer quels éléments HTML sont autorisés dans les commentaires, ce serait parfait d’ajouter une indication pour savoir si oui ou non les entités HTML, je pense surtout au caractères, comme les espaces insécables et tout ça sont également reconnu. Je rencontre fréquement ce problème.

  23. @Laurent :

    « ce qui est encore plus étrange concerne le fait qu’un cerveau humain est beaucoup plus complexe qu’un algorithme de 200 paramètres.
    La machine ne peut pas vraiment battre un humain aux échecs, mais on n’arrive pas à refaire à l’envers une formule de math avec 200 paramètres. »

    Oui, et en même temps cela me semble logique dans la mesure où les 200 paramètres en question ne sont même pas connus avec certitude.

    C’est un peu comme si on devait résoudre une équation avec 200 inconnues complètement inconnues… Il pourrait y avoir 1 000 000 d’inconnues potentielles et il faudrait encore isoler lesquelles parmi ces dernières constituent les 200 inconnues qui font l’équation (les maths ne sont pas mon fort, mais c’est pour illustrer l’idée ! 😉 ).

    De mon point de vue, cela relève de la théorie de la complexité. On entre tout un tas de petits paramètres qui résultent en une situation nouvelle et en partie imprévisible. L’algorithme de Google produit sans doute des des « effets de seuils » qui, littéralement, sont « émergents » (au sens philosophique).

    « Le tout est plus que la somme des parties » disait déjà je ne sais plus quel illustre philosophe antique. Avec l’algorithme de Google, c’est probablement un peu la même chose. 😉

    @Hibou57 – Éditeur XML sémantique :

    (petite parenthèse : vraiment pourri ton nom ^^ mais je suis curieux: pourquoi testes-tu cela ?…)

    Sinon, concernant les balises alt, il me semble qu’il a été établie avec une quasi certitude qu’elles étaient moins bonnes pour le référencement que les ancres. Pourrais-tu indiquer la source d’où tu tiens cette info ?

  24. Mes question sur la première parties : « Les backlinks sont-ils en corrélation adéquate avec le positionnement ? »

    Graphe n°1

    « Ce premier graphe suggère qu’une corrélation existe entre nombre de liens et positionnement. Sauf que les pics sont frustrants. »

    D’accord, mais on peut quand-même décemment conclure qu’un faible nombre de lien équivaut à une faible position. Disons alors qu’au delà d’un certains nombre de liens, il ne sert plus à rien de l’augmenter.

    Mais il manque une chose dans ce graphe : la nature des liens. On sait seulement qu’il sont do-follow, mais on ne sait rien de leurs positions sur les pages, de leur ancre ; texte ? image ? URL tronquée ?

    Graphe n°2
    Ais-je bien compris : il faut comprendre que plus que le nombre de lien, c’est le nombre de lien relativement aux autres sites ? C’est bien ça ?

    Mais quelque chose m’interpelle : dans le graphe n°1, on peut voir un site se trouvant un peu après la cinquième position avec pourtant un nombre de lien plus important qu’un autre se trouvant peu après la première position.

    Graphe n°3

    « Ici, nous pouvons voir ce qui pourrait se passer si nous manipulions les résultats par nombre de liens. »

    Peut-être que ce point demanderait plus d’explications.

    « La corrélation est forte, suggérant que le nombre de liens externes est important. »

    Donc dans le graphe n°1 les liens sont externes et et internes ? Si c’est le cas, il faudrait le préciser explicitement, et de plus le titre du graphe dit le contraire.

    « Clairement, les liens sont très importants, mais ils ne représentent pas la totalité de la solution. »

    Je ne vois pas ce qui fonde cette affirmation dans ce graphe.

    Graphe n°4

    « Ce graphe nous montre que la variation pour un paquet individuel de résultats peut être très large.. »

    Là il faudra expliquer ce qu’est une déviation standard, et puis un peu de mal à imaginer ce que ça peut être, que ça puisse être aussi large avec des barres d’erreur si petites.

    Bon, je retourne à mes WCAG, et je lie la suite plus tard.

    P.S. Zut, il n’y a pas de bouton « Prévisualiser »… tant pis, verra bien.

  25. Bonjour,

    Vous êtes invité à visiter mon Blog.

    Mon Blog présente une nouvelle théorie mathématique de la conscience: LE CODE D’EINSTEIN, Plus spécifiquement la page:CHAMPLAIN-GHOST.NERON,HISTOIRE(fermaton.over-blog.com) et celle:LOTO-GORILLES-ADN:HASARD.
    Par la présente, j’aimerais si vous le voulez bien que les gens de votre communauté me fassent parvenir des commentaires.

    Cordialement

  26. Merci à vous pour ce super article sur le référencement. J’ai appris des choses importantes (comme le fait que les balises Hx n’étaient pas prises en compte par les moteurs, alors que j’étais persuadé du contraire).
    MErci en tout cas pour votre travail.

  27. Pareil que « annuaire », je pensais vraiment que les Hx avaient un intérêt plus fort.
    En tout cas c’est une étude très intéressante et complète.
    Merci !

  28. Ping : Bloguer ou ne pas bloguer » Una lacrima sul Motercalo

Laisser un commentaire