Accessibilité pour les moteurs
Facteurs ralentissants et bloquants
Certains éléments techniques d'un site Internet peuvent empêcher les moteurs de recherche de trouver le contenu des pages.
Un bot (robot informatique) crawle le réseau Internet et se base sur l'architecture des liens hypertexte afin de trouver de nouveaux documents et de revisiter ceux qui ont peut-être été modifiés.
Parmi les facteurs bloquants les plus courants on peut citer les URLs complexes et la structure profonde avec un contenu unique minimal.
Parfois, les données ne peuvent être accédées par le bot car il se retrouve littéralement devant un mur.
Facteurs ralentissants pour les moteurs de recherche :
- URLs avec plus de 3 paramètres dynamiques; par exemple http://www.url.com/page.php?id=4&CK=34rr&User=%Tom% (les bots peuvent être peu disposés à crawler des URLs trop complexes parce qu'elles retournent parfois des erreurs pour les visiteurs "non humains").
- Les pages qui contiennent plusieurs centaines de liens vers d'autres pages peuvent donner comme résultat le fait que tous les liens ne soient pas suivis. En observant le comportement du bot sur ce type de pages, il va "picorer" certains liens sans procéder à un suivi systématique et organisé.
- Les pages enterrées à plus de 3 clics de profondeur (3 niveaux de répertoires) depuis la page d'accueil d'un site Web. A moins qu'il n'y ait de nombreux liens externes qui pointent vers ces pages on voit souvent les bots ignorer ces pages rofondes.
- Les pages qui demandent un ID de session ou un cookie afin de permettre la navigation (les bots peuvent être incapables de retenir ces éléments bien qu'un navigateur Web le puisse).
- Les pages qui sont construites sous forme de "cadres" ou "frames" peuvent empêcher les bots de crawler le contenu et peuvent aussi provoquer une confusion sur le choix de la page à retourner dans les résultats de recherche.
- Trop de tableaux imbriqués peuvent également représenter un frein.
- Malgré l'annonce par Google qu'il soit capable d'interpréter le contenu dans Ajax ou Flash, c'est loin d'être la solution idéale pour valoriser un contenu et surtout le voir remonter dans les résultats de recherche.
Facteurs bloquants possibles pour les bots des moteurs :
- Pages accessibles seulement via un formulaire ou un bouton de soumission.
- Pages qui demandent un formulaire de type "drop down".
- Documents accessibles seulement ia un champ de recherche
- Documents bloqués sciemment via la meta "noindex" ou le fichier robots.txt.
- Pages qui demandent une identification par login et/ou mot de passe.
- Pages qui utilisent la méthode du cloaking, permettant de proposer un contenu pour les moteurs et un autre contenu pour l'utilisateur.
Attention car cette méthode peut être utilisée pour tromper les moteurs, donc elle peut être sanctionnée.
La clef pour s'assurer que le contenu d'un site est complètement crawlable est de proposer des liens HTML directs vers chaque page que vous voulez indexer par les moteurs.
Il faut se rappeler que si la page n'est pas accessible (directement ou indirectement) depuis la page d'accueil (point de départ le plus plausible pour un bot) il est probable qu'elle ne sera pas indexée.
Le maillage interne est un des aspects vitaux, afin d'assurer la bonne indexation du site.
Les bonnes pratiques du maillage interne dépassent le cadre de ce guide, car chaque site présente des particularités nécessitant d'optimiser la structure au maximum de ses possibilités.