Pour fêter le premier anniversaire du Podcast Référencement, j’invite à nouveau Sylvain Peyronnet, qui était le premier intervenant il y a un an.
Cette fois, nous allons discuter de l’apprentissage automatique chez Google ou ce que la plupart appelle Machine Learning et encore pire Intelligence Artificielle.
Le Knowledge Graph et les entités nommées sont également au programme.
Anniversaire du Podcast avec Sylvain Peyronnet
Pour ceux qui s’intéressent de près aux choses de l’algorithme Google, Sylvain Peyronnet est incollable. Non seulement il est docteur es algorithme, mais en plus il s’intéresse de près aux enjeux du référencement.
Puis surtout, c’est quelqu’un de parfaitement abordable et compréhensible. Ce qui n’est pas le cas de tous les scientifiques…
Pour rappel, Sylvain (avec son frère Guillaume de Krinein.com) propose Manageref, une formation pointue pour construire et mener sa stratégie de référencement.
Vous pouvez le lire sur Spoonylife et je recommande chaudement l’abonnement à sa newsletter, qui est de qualité exceptionnelle.
Pour le reste, c’est @speyronnet qu’il faut suivre sur Twitter pour l’interpeller.
J’aime beaucoup écouter les scientifiques lorsqu’ils sont capables de se faire comprendre par le commun des mortels 🙂
Bon, c’est assez dense, mais je retiendrais particulièrement la partie sur le Search :
@Sylvain, je suis entièrement d’accord avec toi lorsque que tu parles de la difficulté, voir l’impossibilité de porter à l’échelle de l’index total de google, les algos de filtrage du webspam, mais, n’est il pas imaginable et même faisable, de mettre en place ces algos sur des parties de l’index c’est à dire lorsque le contexte est parfaitement identifié et sans ambiguïté ? Je vais même plus loin, ne crois-tu pas que c’est en place ? Ce qui me fait dire ça c’est que certaine requêtes (justement des requêtes sans ambiguïté) renvoient des résultats pas si dégueulasse que ça, en tout cas pas spammées dans les trois ou quatre premières pages (je vais jamais au delà)
Autre question, peut-être plus naïve, est-ce le même algo qui est utilisé selon les langues ? Si oui, y a t-il de grosses différences ?
Enfin en ce qui concerne la détection de texte dupliqué (ou plutôt de texte générés en quantité à vocation purement SEO) je pense que parmi les méthode simples de détection il y a la mesure de la richesse de vocabulaire (il existe des stats avec des dictionnaires de mots représentant la richesse de vocabulaire en fonction des classes sociales, des groupe d’individus etc). Certains mots utilises dans les articles de CP sont tellement peu usités qu’il est facile de deviner que la vocation du texte n’est pas purement informative
Bon, c’est décidé, mon prochain réseau de site sera en espagnol 😉
@BlogMestre Oui, je suis d’accord avec toi pour dire que pour certaines requêtes sans aucune ambiguïtés il y a probablement déjà un filtrage. Je pense aussi que certains types de site passent en partie hors filtre (les .edu par exemple).
Pour les langues, je ne sais pas. Pour toutes les langues latines je ne vois pas de raisons d’avoir un algo différent. Pour le reste je ne suis pas assez calé en linguistique pour dire quelque chose de pertinent.
En revanche, je peux donner la réponse parfaite pour ton point 3 : tu as raison, et ça existe déjà. La notion de vraisemblance d’indépendance, et celle de vraisemblance d’indépendance conditionnée ont été créées pour ça. La première notion donne la probabilité d’apparition d’un terme (ou d’un groupe de termes) dans un texte « normal ». Si dans un texte on voit apparaitre trop (resp. pas assez) de terme avec un faible (resp. forte) vraisemblance, c’est que le texte a été conçue dans un but précis. La version conditionnée rajoute une info supplémentaire : on quantifie la probabilité d’apparition d’un terme par rapport au fait que tel ou tel terme apparait aussi (ou non) dans le texte. La première utilisation documentée de ce concept pour la lutte contre le webspam est le fait de Ntoulas, Najork, Manasse et Fetterly en 2006.
@Sylvain, je ne suis pas linguiste non plus ni même spécialiste des algorithmes 😉
Mais je pense que les différence culturelle entre l’occident et l’orient sont suffisamment importante pour justifier des algos différents.
Bonjour,
Je suis sidéré par le niveau des intervenants et de Sylvain en particulier.
On se sent au degré zéro de la connaissance en vous entendant parler.
Merci pour le cours magistral des méandres de l’algorithme Google.
Merci Laurent / Sylvain, très intéressant de donner accès à vos réflexions. Bonne fin d’année.
Tout les référenceurs prétendent qu’ils connaissent bien l’algorithme de google . Mais la réalité est que personne n’arrive à le décrypter. Chaque fois le seo est bouleversé par les mises à jour de cet algorithme en l’occurrence l’arrivé de panda puis le fameux destructeur de site « pingouin »
Excellent podcast d’un très haut niveau, très enrichissant et bonne fin du monde à tous 🙂
@Blogmestre : on en parle dans le podcast, mais la méthode de Google consiste à lancer des tests tout azimut. Ce sont sur des portions infimes de l’index, puis ensuite ils avisent quoi faire.
Le plus important est le Sanity Check pour voir que ça ne déglingue rien, avant même d’espérer une éventuelle amélioration.
Par rapport à l’algo commun, je pense que Sylvain se réfère au noyau, qui est extrêmement compliqué et couteux à customizer.
Par contre, pour des couches ou filtres algorithmiques, c’est la fête et ils en plaquent à gogo.
@Thierry B. : perso, je ne suis qu’un amateur passionné.
Sylvain est un véritable expert, qui nous vulgarise tout ça, mais il pourrait aussi partir en vrille à nous parler comme un martien.
C’est beaucoup plus difficile qu’il n’y parait pour quelqu’un de son niveau d’être capable de se faire comprendre par le commun des mortels.
@Pierre : meilleurs voeux également.
@Mustapha : je ne connais pas un référenceur qui prétend connaître l’algo et encore moins Sylvain ou moi. Enfin bon, Sylvain possède un doctorat en algo, donc il est tout de même plus qualifié que le référenceur du dimanche.
Par contre, ce n’est pas si compliqué de savoir quoi et comment lui donner à manger pour qu’il avale la pertinence.
@Yves Weber : nous sommes encore vivants !
C’est impressionnant la qualité du dialogue, je suis à 1 an du diplôme d’ingé dans une sous-branche du dev et je me sens con ^^
Moi aussi je suis impressionné par le niveau.
Ils maîtrisent grave et donnent une vision aux antipodes de la communication officielle de Google.
Matt Cutts devrait faire une formation avec Sylvain 😀
Voilà le genre de podcast qu’on doit écouter plusieurs fois pour être sûr de tout comprendre.
C’est du haut niveau.
Merci pour ces précieuses infos.
Du lourd ce podcast !
Merci
sympa de voir que google nous bleuf beaucoup et que l’on a encore le temps de faire du SEO 🙂
Comment récupérer la newsletter déjà parus ?
Très intéressant. Mais je ne l’ai pas regardé en une seule fois et on perd vite le fil si on est pas concentré.
Je me le regarderai d’une seule traite plus tard quand ca sera plus calme autour de moi.
En attendant d’autres podcast, félicitation à vous 2 et Joyeux Noël 🙂
@Mustaphe
Tu fais tous les blogs SEO pour y mettre le même commentaire spinné ?
Si tu ne veux pas que cela ne se voie pas à ce point, utilise HES qui se sert de filtres bayésiens, évoqués dans ce podcast, pour la recherche de similitude entre les textes 😉
Merci @Christian car @Mustapha a gagné un petit changement d’URL…
Donc si je comprends bien le PR leurs coutent un max de tunes et les SEO disent que ca sert a rien ? 😀
Plus sérieusement, de ce que je comprends, le PR n’a pas vraiment changé, mais c’est les filtres et d’autres facteurs de pondérations qui agissent après coup.
Ca veut dire qu’on aurait donc PR haut + facteurs & filtres bons = les meilleurs positions possibles ?
Le PR est la couche originelle du noyau.
« Ba ésien » lol
Bref
GG travaille sur les entités nommées depuis des lustres et dans le but effectivement d’implémenter de l’analyse sémantique.
Du moins officiellement.
Car au final, je reste persuadé que les experts de demain seront tout simplement les humains, par le biais des recommandations.
Finis l’apprentissage pour le classement.
Le seul but de Google d’ici quelques années sera donc d’identifier les faux profils, des vrais profils. That’s all.
Par ailleurs, on ne peut pas reprocher à GG de protéger ses actifs !
La communication a toujours nivelé par le bas, justement pour être compréhensible par un maximum.
N’attendez rien de plus de la part de GG.
@Michmich Une fois que les recommandations sont faites, il faut les agréger et ça c’est l’un des problèmes difficiles de l’algorithmique avec l’utilisation d’outils proches de ceux utilisés en apprentissage. Par ailleurs, identifier les vrais et faux profils, c’est de la classification, donc de l’apprentissage.
Sinon, je ne comprends pas le Lol pour Bayésien ?
Ce que je dis c’est simplement que le problème de classification va descendre d’un étage.
Le contenu ne sera plus le problème principal puisque classé par les utilisateurs.
Il faudra simplement classer les utilisateurs.
Premier niveau : dissocier les bots des humains.
Quelques réseaux neuronaux avec une bonne sélection de variables discriminantes en entrée devraient faire l’affaire.
Second niveau : classer les humains entre eux, faire un espèce de Human Rank, pour pondérer les avis et reco.
Idem, le nombre de variables à retenir ne devrait pas être monstrueux.
Alors oui c’est de la classification, mais nettement plus facile ! 🙂
et le lol c’est juste parce que la prononciation très soignée m’a fait rire, il faut dire que je prononce très mal et ai plutôt tendance à le massacrer en « bézien »
C’était un sololol, un lol qui ne fait rire qu’une personne…
@Michmich : Google a racheté Metaweb en 2010 http://www.laurentbourrelly.com/blog/795.php
Cela ne fait pas des « lustres » qu’ils intéressent sérieusement aux entités nominées.
J’aime bien ta manière simpliste (ironie) de décrire la problématique.
Hop, trois coups de cuillères à pot d’algo et Google devient sémantique.
Le plus grave est d’omettre la différence entre expérience scientifique et enjeux industriels.
@Michmich Objectivement, ce serait bien que tout soit aussi simple. Pour la première tâche les réseaux neuronaux dont tu parles, qui sont équivalents à de très nombreux autres modèles, ne sont pas efficaces pour ce genre de tâches, pour des raisons de taille de l’espace mémoire nécessaire en grande partie. Et d’ailleurs dissocier le bot de l’humain n’est pas forcément la meilleure approche pour lutter contre le spam (les méthodes de « demotion » qui ne font pas de classification, sont à l’heure actuelle plus efficace (d’un pt de vue théorique) que les autres pour lutter contre le webspam).
Classer les humains entre eux, c’est ce que l’on appelle le problème du ranking, ou encore celui de l’aggragation, ou encore celui du choix social. Et là ce que tu dis est loin du compte. C’est un problème indécidable (théorème de Arrow en théorie des jeux) et pour lequel on utilise des versions faibles (approximation, versions quantitatives) qui sont toutes de complexités très fortes (NP et au delà pour l’instant pour les versions déterministes, exp en les facteurs d’approximation, ou approx à facteur constant pour les versions approchées).
Donc plusieurs questions : est ce que la classification est la meilleure approche, c’est pas clair. Et est ce qu’on peut faire une rupture algorithmique pour le ranking, encore moins clair.
Les choses les plus simples sont parfois (souvent) les plus efficaces.
Mais ce sont de loin les plus difficiles à trouver malheureusement.
Quelques réflexions en vrac :
Les théoriciens ont souvent tendance à perdre de vue les réalités du terrain.
Les prix Nobel n’empêchent pas la bêtise et les erreurs (Cf. Merton et Scholes pour ne citer qu’eux)
Beaucoup de chemins mènent plus ou moins à Rome…
Sur ce, bonnes fêtes à tous !
Je suis d’accord avec ton premier paragraphe, et je pense aussi que pour l’instant on n’a pas trouvé de méthode simple qui fonctionne 😉
Bonnes fêtes à toi aussi !
Plus simple à dire qu’à faire 😀
Merci pour ce podcast de très haut niveau.
Si j’ai bien compris, il ne faut pas croire les articles qui traitent de l’Intelligence Artificielle chez Google.
Récemment, axenet avait traité le sujet et j’avais trouvé l’article intéressant. D’un côté, les données humaines sont introduites dans la machine et ensuite elle peut progresser toute seule.
Ce n’est pas ça ?
Une discussion trop technique pour que je puisse tout comprendre.
Il est rassurant que nous avons en France des référenceurs d’un tel niveau, bien supérieur à tout ce qu’on rencontre d’habitude.
Merci pour ce podcast « anniversaire »
Le Mechanikal Turk était bien une arnaque : un humain était caché à l’intérieur d’une marionnette en bois censé être « intelligente » pour jouer aux échecs http://fr.wikipedia.org/wiki/Turc_mécanique
Bon, je pense que vous avez bien explicité/démonté le Google buzz lié au Knowledge Graph et autre Machine Learning…
La communication est le nerf de la guerre, avant même la R&D pure et dure. C’est ce qu’il faudrait garder à l’esprit lors de chaque annonce du géant de Mountain View au lieu de céder à la panique ou à l’idôlatrie…
Merci Syvain et Laurent pour ce podcast !
Pas de quoi se rouler par terre avec l’arrivée du Knowledge Graph ! Ca fait plaisir que quelqu’un le dise… et quelqu’un de crédible surtout.
Je ne sais pas combien j’ai vu passer d’articles parlant du knowledge graph comme une des prouesses d’intelligence artificielle… ça remet un peu les choses en place ça fait plaisir !
A bientôt !
Résumé en un mot : PASSIONNANT ! Ca fait un beau cadeau de noël ! Merci Laurent et Sylvain d’avoir partagé cet excellente discussion de passionné !
Cet interview est tout simplement passionnante. Ca nous fait un joli cadeau de Noel ! Merci Laurent et Sylvain d’avoir pris le temps de réaliser cette superbe entrevue, très riche en contenu.
Je travaille dans la finance et ce type d’algorithme (Machine Learning) sont instaurés de manière extensive.
Les experts font la course à celui qui sortira le meilleur logiciel de computational finance. Par exemple, les réseaux neuronaux sont présents dans l’évaluation du prix des options et les algo génétiques sont utilisés pour évaluer les dérivés ou gérer des portfolios.
La différence que j’observe entre mon secteur et la recherche d’information est très simple. Pour Google, les paramètres et les imbrications sont nombreux, alors qu’en finance c’est beaucoup plus restreint.
Article à lire
super podcast, et bonne stratégie de communication. Merci à vous Laurent et Bonnes fêtes.
Des algorithmes qui créent des algorithmes.. on comprends mieux l’absurdité de cet algorithme penguin maintenant… Il faudrai que les ingénieurs de chez google sortent et voient la vraie vie des TPE, parceque la ils ont fait un dégât phénoménal au sein des très petites entreprises. Je ne parle meme pas des suicides et tentatives de suicides suite au penguin de certains dirigeants de tpe/pme, j’en connai personnellement.
Messieurs les ingénieurs de google, la vie n’est pas un algorithme.
bon jour
Merci beaucoup ca fait un beau cadeau de noël
Un bon petit podcast pour se remettre d’avoir trop mangé.
ça fait plaisir d’avoir l’impression de retourner sur les bancs de la fac, même si l’IA n’était qu’une toute petite partie des cours malheureusement…
C’est vraiment bien d’avoir le côté théorique de la chose, simplement, parce que je ne me sens pas d’attaque à lire les publications dans les revues scientifiques anglophones ^^
Bonjour,
vous aviez indiqué dans votre billet « bien accoucher un site web » que vous feriez un billet sur le cocon sémantique. Quand allez-vous le poster ? je suis intriguée par cette méthode. merci
Merci à vous deux, je me sens un peu moins con.