L’article suivant est une traduction autorisée par Adam Audette (@audette) que je remercie pour sa gentillesse et son partage qui nous informe sur quelques éléments très intéressants à propos de l’indexation sur Google.
Les informations suivantes viennent d’une conférence de Joachim Kupke, employé chez Google pour la partie indexation du moteur de recherche.
Les trésors distribués par Joachim Kupke (Google) lors de la conférence SMX
Voici 9 trouvailles sur le référencement qui ressortent de la conférence SMX East qui s’est déroulée à New York en octobre. Globalement, c’était une conférence impeccable, mis à part les soucis de Wifi et autres de Javits Center le maudit. Danny Sullivan (l’organisateur de la conférence pour ceux qui vivent sous un rocher) a répété que « Javits est pourri », « accusez Javits, ne nous mettez pas ça sur le dos ». Danny, nous accusons Javits !
Cette année, parmi les absences remarquées de SMX East, il fallait compter Matt Cutts et Nathan Buggia, mais c’était un plaisir d’écouter des googlers moins connus (Maile Ohye) et des intervenants de Microsoft/Bing (Sasi Parthasarathy).
En tant que référenceur, je suis particulièrement intéressé par ce que les moteurs de recherche vont dire au sujet de paramètres techniques spécifiques comme l’indexation, le contenu dupliqué, le crawl et les redirections. Cette conférence proposait quelques sessions extraordinaires où un grand nombre d’informations étaient au centre des débats.
Il y avait aussi quelques surprises (voir ci-dessous) et une paire de nouveautés, mais en général l’information partagée par Joachim et les autres représentants des moteurs de recherche portait sur des éléments spécifiques qui pourraient paraître obscurs à quiconque en dehors du cercle des « initiés » du référencement. J’adore vraiment tous ces trucs d’initiés !
Allons-y pour les 9 trouvailles utiles pour le référencement qui sont extraites de la contribution de Joachim Kupke lors de SMX East
Présentation de Joachim Kupke sur le contenu dupliqué
Joachim fait partie de l’équipe qui s’occupe de l’indexation chez Google. Il a partagé des bribes d’informations assez primordiales au sujet de la gestion du contenu dupliqué par Google. Joachim a également partagé quelques vues depuis l’intérieur du moteur et sa façon de voir le Web et indexer les URLs. Voici les points essentiels que j’ai retenus.
1. Impressions et Clics
Joachim a répété les termes « impressions » et « clics » dans le contexte d’une URL incluse dans l’index de Google. Il a mentionné qu’une URL qui reçoit peu ou pas d’impressions sera plausiblement plus longue à mettre à jour dans l’index (pas de surprise jusque là). Cependant, une URL recevant un grand nombre d’impressions et clics (ou provenant de domaines importants et crawlés fréquemment) sera mise à jour rapidement. C’est logique et connu de tous, mais il était intéressant d’avoir une confirmation sortie de la bouche d’un ingénieur de chez Google. Ainsi, ces redirections 301 et tags noindex sur certaines pages qui ne sont pas crawlés à nouveau et mis à jour viennent définitivement du fait qu’elles ne figurent pas sur la liste prioritaire du moteur de recherche (encore une raison pour laquelle les grandes marques l’ont facile en référencement)
2. Infrastructure de gestion du contenu dupliqué
Google est censé avoir « une tonne d’infrastructure pour éliminer le contenu dupliqué », parmi laquelle il faut citer :
- Redirection
- Détection de structure récurrente d’URLs
- Le contenu de la page
- Le tag de lien canonical (si tout le reste échoue)
A noter que Google reconnaît les structures des URLS, éliminant certains paramètres comme cause de duplication (bien sûr, ils ont également parlé de l’outil d’élimination de paramètre dans les Outils Webmaster Google).
Que veux-tu dire par « le contenu de la page » ? Ceci étant la partie la plus intéressante selon moi, voici la suite…
3. Enregistrement de l’historique des URLs
Google garde une sorte de archive.org du Web avec des versions plus anciennes du contenu (pas exactement comme cela, mais vous voyez ce que je veux dire : un enregistrement de l’historique des pages Web). Cela permet de comparer la version fraichement crawlée avec une version plus ancienne. Le contenu qui change peut être soustrait des éléments qui restent invariables au sein du site. Cela peut également donner à Google la faculté de s’assurer que les éléments globaux, zones et morceaux de contenu apparaissent à l’intérieur d’un site séparément du contenu définitivement unique et mis à jour.
4 . Google + rel=canonical = Amour
Google adore le tag « canonical » des liens. Selon Joachim, c’est une grande réussite qui a vu un rythme de déploiement exponentiel sur Internet. Chez Google, on traite ce tag avec le plus grand sérieux, en suggérant son importance comme Maile Ohye nous a expliqué à l’occasion de SMX Advanced en juin. L’intérêt de ce paramètre est donc renforcé par les propos de Maile et Joachim. Cela engendre un « énorme impact » à propos des décisions de Google sur la canonicalisation : 2 fois sur 3, rel=canonical altère la décision organique. C’est assez énorme comme chiffre !
5. Les 302 suffisent comme cibles canoniques
Les redirections font des cibles canoniques correctes. Ce paramètre a été expliqué par Joachim à deux reprises. Cela comporte deux parties :
- A cause d’une méthode interne pour gérer les slashs de fermeture des URLs, Google avait besoin (et recommande à tous les développeurs d’agir de la sorte) d’un slash de fermeture sur les cibles canoniques et les liens internes. Sans le slash de fermeture, Google va ajouter un slash et mettre à jour l’URL dans l’index.
Maintenant, j’ai trouvé de multiples exemples de pages où cela ne se déroule pas de la sorte, mais Joachim était assez ferme sur le fait que c’est un problème du Web en général que Google est obligé de contourner.
- La trouvaille en la matière est que vous devriez toujours ajouter un slash de fermeture à l’URL absolue de la cible canonique. Sans le faire, Google va l’ajouter automatiquement, mais en anticipant cette action, vous allez certainement accélérer la vitesse de réponse du serveur (qui aurait un impact pour les sites de taille importante).
6. Comment les cibles canoniques en 302 peuvent être détournées
Les redirections 302 sont donc des cibles canoniques adéquates. Oui je sais que je me répète ! Voici la partie intéressante pour le référencement : si les 302 sont OK à utiliser dans ce cadre, je pense à une méthode pour utiliser le tag « canonical » du lien à des fins d’optimisation du référencement sans avoir à améliorer énormément la structure de l’URL. Comment cela ? Voici un exemple théorique :
Prenons, un site qui présente une structure d’URL à améliorer (voir cet exemple ) pour le référencement et des raisons d’usabilité évidentes. Cependant, les développeurs sont dans le jus, la plateforme technique est branlante, il n’y a pas assez d’argent pour un budget référencement de qualité, ou simplement les modifications ne valent peut-être pas la peine.
Un référenceur arrive avec la proposition suivante :
- Créer un tableau avec une version optimisée pour le référencement de chaque URL à améliorer.
- Ajouter ces URLs amies des moteurs dans le code source avec le tag « rel=canonical »
- Effectuer une redirection 302 depuis les URLs canoniques vers les URLs dégueulasses existantes sur le site.
- Bingo! Des jolies URLs au sein des résultats de recherche
Le tag « canonical » agit comme une redirection 301 et met à jour les indicateurs dans les résultats de recherche (comme c’est le cas). Puis la cible canonique redirige vers une 302 qui ne force pas la mise à jour (comme c’est le cas). Alors la jolie (et pseudo) URL dans le lien cible canonique va rester comme indicateur dans les résultats de recherche, pendant que la non-pseudo URL bien dégoutante va agir en tant que page temporaire aux yeux des moteurs. Pigé ? Avouez que c’est intéressant (voir le graphique basique ci-dessous pour un visuel de ce concept).
Non, je n’ai pas planifié de mettre en œuvre ceci incessamment sous peu, mais je connais au moins un site majeur d’e-commerce qui agit de la sorte (certainement de manière involontaire) et ça fonctionne parfaitement depuis le mois de juin.
7. Ne pas interdire votre contenu dupliqué ( ?)
Google dit « s’il vous plait, n’utilisez pas la directive « Disallow : » dans le Robots.txt afin d’éradiquer le contenu dupliqué ». Le contenu qui n’est pas disponible pour Google ne peut donc pas être visité et le moteur de recherche n’aime pas du tout cela. La préférence semble aller vers « mettez tout en ligne » et laissez nous décider ce qu’il y a de mieux à faire. Chaque fois qu’un contenu n’est pas disponible au crawl, les moteurs perdent la faculté de faire ce choix décisionnaire.
Ma préférence personnelle est de garder le contrôle complet, mais je comprends également leur raisonnement et la raison qui pousse à promouvoir cette méthode.
8. L’indexation peut prendre longtemps pour des URLs « impopulaires »
Joachim a expliqué qu’indexer peut prendre du temps (comme mentionné précédemment), mais c’est encore plus vrai pour des URLs obscures et peu populaires. Il faut savoir que la phase d’indexation prend du temps, mais que le nettoyage des parties existantes de l’index prend encore plus de temps. Bien entendu, il existe des manières d’initier le crawl de Google (phase séparée de la mise à jour dans l’index), mais il est indéniable que les sites moins connus ne reçoivent pas la même attention que les bons gros sites populaires.
9. Support du lien canonique au travers de différents domaines
Google va bientôt accepter le tag « canonical » sur différents noms de domaine. C’est une grande nouvelle ! Yahoo ! et Bing ont annoncé qu’ils travaillent sur la base qui est de comprendre rel=canonical.
Les autres trucs supers à SMX East
Il y avait énormément d’autres sessions extraordinaires comme David Mihm, Will Scott, Andrew Shotland, Mike Blumenthal et Mary Bowling qui ont traité des paramètres locaux liés au référencement. La régionalisation est un secteur vraiment excitant en ce moment pour les référenceurs. Cette équipe a proposé une session vraiment géniale. Tout cela m’a tellement motivé que je suis revenu avec l’intention de creuser encore plus au niveau « local ».
Article original (en anglais)
YO,
Merci Laurent pour cette traduction,malheureusement ces explications sont trop théoriques pour moi.
Va falloir que j’étudie ca techniquement pour comprendre…
Un grand merci. J’étais passé complètement à coté de certaines informations très utiles. Les points 5 et 7 ont retenus toute mon attention.
Bonjour Laurent,
merci pour cette belle traduction (qui m’arrange car moi et l anglais!!!)
j ai eu confirmation de certaines choses et j en ai appris de nouvelles.
Perso un gros coup de coeur pour le point N°6 qui est bien « tordu » (pardon pour l expression) as tu fais des tests grandeur nature en ce sens, j adorerais voir les résultats
bonne continuation
Très bon article, comme toujours.
L’astuce de la 302 est intéressantes. Par contre, il ne faut pas s’enmêler les pinceaux… Par contre, pour moi, la belle URL n’a pas de contenu (puisqu’elle fait une 302 (?) ).
Je vois déjà une dérive de l’URL canonical de domaine à domaine. Aujourd’hui, c’est déjà possible en faisait une « redirection canonical » vers une 301 qui pointe vers un autre domaine.
Et pour la dérive… c’est des hacks de sites…
En espérant que ne soient pas sanctionné dans le futur les sites web qui utilisent le disallow dans leur robots.txt (point 7).
Laurent, dis mois si je me trompe mais le point 6, cela revient en gros à ne rien faire ?
Je vois pas bien l’intérêt en fait car on fait une 301 pour dire à Google d’indexer l’url propre mais en même temps on lui dit d’indexer l’url réelle et du coup, ben on arrive à la même conclusion : les résultats de search sont inchangés.
Euh… où est là logique là dedans ?!
Merci pour la citation
Sympa comme tout cette traduction 😉
Le point 5 est intéressant car cela facilite grandement l’évolution des urls, même si ça fait un peu bricolage 🙂
@rudy : héhé vu ta nouvelle orientation, va falloir t’y mettre…
@Agence AxeNet : c’est assez rare que je décide de traduire intégralement un billet tel que celui-ci, préférant rebondir en ajoutant mon point de vue, mais j’avoue que dans ce cas, c’était limpide.
@sejour scolaire : pas fait de test sur le point 6 et Adam non plus. Comme dit rudy, c’est de la théorie. Quoi que Adam indique avoir vu un gros site de ecommerce US qui a adopté cette méthode. Je vais lui demander de qui il s’agit.
@Parquet Alsace : en effet, la jolie URL n’a qu’un seul but qui est de rediriger. Pour moi, la 302 reste à manipuler avec la plus grande précaution. Joachim a l’air bien sûr de lui, mais parfois on observe de drôles de trucs dans l’application concrète. Il faut garder à l’esprit que c’est un ingénieur qui parle. Cette espèce est un peu sur une autre planète (je sais de quoi je parle puisque ma famille est un véritable élevage d’ingénieurs).
@Christophe : bonne remarque, mais il faut garder à l’esprit que Google passe parfois par dessus l’interdiction. En tout cas, il faudrait creuser un peu plus autour du robots.txt (voir également l’histoire archive.org). Il faudrait tracker exactement ce que fait GoogleBot sur ce fichier…
@Agence Publika : cette bidouille est uniquement à but cosmétique dans les résultats de recherche. Concrètement, rien n’est modifié sur le site. C’est simplement afin d’avoir des URLs plus « jolies » qui s’affichent dans les résultats de recherche.
La 301 n’est pas une redirection, mais un rel=canonical faisant office de 301.
@Altiref : de rien
@Mathieu : je suis de ton avis. Comme quoi, Google garde un aspect assez artisanal par certains côtés.
Merci pour cet article Laurent
Il va falloir que je me penche un peu pluis sur le tag canonical car c’est ters intertessant tout ca …
Quant a la regionalisation, je suis en plein dedans donc je commence a maitriser chouilla
Hey, s’il y en a bien un qui n’a pas besoin de traduction, c’est toi 😉
Tout pareil de mon côté, j’ai largement sous-évalué l’intérêt du tag canonical.
Ping : Bloguer ou ne pas bloguer » De Je, Nous aux genoux
Sympa l’article.
Je confirme le point 6, ça fonctionne très bien. Je l’ai déjà mis en pratique plusieurs fois sur différents sites. Une redirection 302 sur l’URL optimisée vers l’URL pourrie et Google indexe la belle URL pleine de mots clés et cie.
Tu apportes un petit plus avec rel=canonical… j’insère ça de suite 😉
Merci, c’est du très très lourd !
C’est un nouveau google guy ou quoi ?
On peut donc faire de la réécriture d’url en combinant redirection 302 et rel=canonical, très fort…
Et quand Google va autoriser le canonical entre plusieurs sites, ça va devenir une pure tuerie !
Merci pour ce compte rendu bien utile.
Très bon article, merci du partage
J’avoue que c’est bien beau tout ça (302, canonical ….) ça ne résoud pas les problèmes de pompages de contenu créant du DC inter sites. GG ne s’est pas exprimé : on sanctionne le + récent, le + ancien, les 2, aucun, au hasard, le + important ????
C’est la grosse question sur le DC aujourd’hui à mes yeux.
Yves
Merci pour cet article utile pour le SEO.
Car les critiques d’indexation et de positinnement de sites changent si souvent qu’il faut être à l’affut de la moindre variation.
Très intéressant, merci pour la traduction.
Oui sympa laurent
Merci pour cette traduction. Le point 5 est renversant: l’absence d’un slash de fermeture pose des problèmes aux ingénieurs de Google ! On aura tout vu.
Quels sont les paramètres locaux liés au référencement? Merci
Il faut voir si ces paramètres d’acceptation sont maintenus dans le temps: si ces critères ne changent pas il est bon de faire ces modifications….
je ne connaissais pas le rel=canonical , très intéressant cet article !
« Google avait besoin (et recommande à tous les développeurs d’agir de la sorte) d’un slash de fermeture sur les cibles canoniques et les liens internes. Sans le slash de fermeture, Google va ajouter un slash et mettre à jour l’URL dans l’index. »
Si j’ai bien suivi, les gars d’Opquast avait bien vu avec la fiche 45 de leurs bonnes pratiques (http://fr.opquast.com/bonnes-pratiques/fiche/45) ??? quand ils recommandent que : Les URL des hyperliens pointant vers un répertoire et non vers une page en particulier se terminent par une barre oblique (« / ») pour éviter un aller-retour serveur.
Merci pour ce billet et votre réponse.
En faisant justement une petite recherche sur la 302… Le point 5 confirme ce que je savais déjà merci.
Super ce récapitulatif et merci pour les commentaires.
Ca à l’air drôlement intéressant ce SMX…
J’essayerai d’être au prochain 😉
à tte,
dean
Le référencement est déjà une usine à gaz si en plus ils nous sorte des nouveauté sans arrêt comme le rel=canonical ont vas avoir du mal à suivre surtout si dans 1 an ils cette solution là.
@Arnaud Briand : bonne pioche le lien Opquast. Je suis impressionné. Merci
@Mapics : ce genre de truc ne change pas non plus la face du référencement.
Le gros souci qui ressort concerne plutôt la façon de communiquer par Google. Cela prend des chemins de traverse assez perturbants.
Ping : trucs et astuces pour le référencement
une question le contenu dupliqué peut il porter préjudice à un site au niveau pénalité?
Pour ma part, je dirai oui, car j’ai un site qui contenait une partie dupliquée et qui a été déclassé par google.
This is a very intriguing post, I was looking for this knowledge. Just so you know I found your web site when I was searching for blogs like mine, so please check out my site sometime and leave me a comment to let me know what you think.
Bonjour
Toujours interressant d’apprendre : Le tag « canonical » m’était encore inconnu à ce jour.
Merci de toutes ces bonnes indications.
Je ne connaissais pas l’existence de cette conférence…merci pour ces renseignements utiles..