Mesurer la pertinence et la popularité

Les moteurs de recherche modernes se basent sur la technologie de la recherche d'information.
Cette science existe depuis le milieu du XXe siècle, quand les systèmes de recherche d'information équipés les ordinateurs des librairies, centres de recherche et laboratoires gouvernementaux.

Très tôt, les chercheurs ont réalisé qu'il existait 2 composants essentiels à toute fonction de recherche.

Pertinence

Le degré qui définit la façon dont un document retourné par une recherche est en corrélation avec la requête et les intentions de l'utilisateur. La pertinence d'un document augmente si les termes ou la phrase de la requête se répètent de nombreuses fois dans le document et plus spécialement dans les titres et les en-têtes.

Maintenant, il ne suffit pas de truffer sa page d'un mot clef pour la rendre pertinente. Le robot est idiot, puisqu'il ne comprend pas ce qu'il lit. Donc, il faut "entourer" les mots clés d'expressions connexes (champ sémantique). Un bon exercice consiste à éliminer les mots clés d'un texte pour voir si on peut encore comprendre de quoi il s'agit.
Un outil comme http://alyze.info/ peut vous aider à déterminer si votre page est pertinente. L'outil effectue un calcul de densité pondérée; c'est à dire qu'il attribue une note de pondération plus ou moins forte, en fonction de l'emplacement du mot clef dans le code source.
En s'inscrivant sur le site, il est possible de modifier la méthode de calcul, mais si vous restez par défaut, visez entre 40 et 60% de densité pondérée. Le challenge est d'y arriver avec le moins d'occurrences possibles. Par exemple, un score de 50% avec moins de 10 occurrences du mot clef est très bien.
Avec http://textalyser.net/ vous pourrez étudier si votre contenu répond à certaines exigences que les moteurs utilisent. Cet outil peut paraître un peu barbare au premier abord, mais creusez les notions qu'il remonte et vous comprendrez son intérêt.

Popularité

L'importance relative mesurée par les citations (l'acte d'un document qui référence un autre document, comme cela est couramment le cas dans les documents académiques ou commerciaux). La popularité d'un document augmente avec chaque autre document qui fait référence à au premier.

Ces 2 éléments ont été transmis, 40 ans plus tard, à la recherche d'information en ligne. Ils se manifestent sous la forme d'analyse de liens et de documents.

Dans l'analyse de document, les moteurs de recherche regardent si les termes de la requête sont trouvés dans les parties "importantes" du document (title, meta, en-têtes et texte du body). Ils essayent aussi de mesurer automatiquement la qualité du document grâce à des systèmes complexes qui dépassent le cadre de ce document).

Dans l'analyse de lien, les moteurs de recherche mesurent qui fait des liens vers un site ou une page, mais aussi qu'est ce que la page ou site raconte à propos du site lié. Ils ont aussi une très bonne idée de qui est affilié avec qui grâce à l'historique/données de liens, registre du site (WHOIS) et d'autres sources. Ils savent aussi qui est de bonne réputation (des liens depuis des .edu ou .gov sont généralement plus valables pour cette raison). Il faut aussi prêter attention aux données contextuelles du site qui héberge la page auditée (qui fait des liens vers ce site, qu'est ce qu'ils en disent, etc.).

Le facteur le plus important à considérer est la corrélation thématique entre les pages liées.

L'analyse de lien et de document combine des centaines (milliers) de paramètres qui peuvent êtres individuellement mesurés et filtrés au travers des algorithmes de moteurs de recherche (le set d'instructions qui dit au moteur l'importance qu'il faut assigner à tel ou tel facteur). L'algorithme détermine le score des documents et retourne les résultats par ordre décroissant en fonction de l'importance (ranking).

Continuer la lecture :