La linguistique appliquée au référencement, ça parait évident, mais ce n’est pas de la tarte quand il s’agit de statistiques et de fonctions. Pour les notions linguistiques pures, retournez dans le premier volet, on passe maintenant à l’application concrète sur le blog de l’agence web Web Omega.
Statistiques
Il ne s’agit pas seulement de notions grammaticales quand on parle de mot vide et de mot plein, il s’agit de statistiques. George Zipf a énoncé en 1949 sa loi de relation entre la fréquence des mots et leur rang dans un texte (le mot le plus fréquent apparaîtrait dix fois plus que le dixième mot le plus fréquent) et il est étonnant de constater que cette loi s’applique (après quelques aménagements) en géographie pour mettre en relation les villes selon leur population et leur rang, et à d’autres domaines. Cette loi de Zipf s’illustre par un graphique sur lequel on observe une ligne toute droite (parfois légèrement courbée), descendant proportionnellement.
Zipf nomme son calcul « loi du moindre effort » car cela révèle aussi que plus un mot est utilisé (dans les plus hauts rangs d’occurrence), plus il est court et/ou passe-partout (par exemple on utilise le verbe avoir et ses dizaines de sens plutôt que ses synonymes), d’où le « moindre effort ». Et cela illustre aussi parfaitement la tendance à raccourcir les mots à l’usage (cinématographie, cinéma, ciné).
La comparaison d’œuvres littéraires avec la loi de Zipf distingue celles qui ont un vocabulaire riche de celles qui se cantonnent aux mots les plus courants, fourre-tout : ces dernières montrent une ligne plus verticale. En quelque sorte, la loi de Zipf peut aussi alerter sur l’appauvrissement d’une langue et par extension, d’une société, si au fil des années, la production de textes montre des graphiques de plus en plus verticaux. Des études sur les paroles de chanson ont fait un petit buzz l’an passé (1), en voulant classer le vocabulaire selon l’utilisation de mots uniques (des graphiques de Zipf plus horizontaux), le meilleur score revenant à Eminem. Une autre étude a montré qu’en moyenne, les chansons anglophones diffusaient un vocabulaire de niveau CE2 (2).
Informatique
Tout ceci intéresse les référenceurs car cette loi (avec d’autres bien sûr) est utilisée dans les modules SEO et les algorithmes de recherche. Elle permet aux bots d’effectuer leur travail et de juger de la qualité d’une page (selon la diversité des mots), de mettre de côté les mots trop fréquents (le haut de la courbe) qui se trouvent être des mots vides et d’indexer la page selon les mots utilisés de façon intéressante, ceux qui reviennent plusieurs fois, pas qu’une ou deux.
Toutefois, cela entraîne trop d’automatismes et rend le contenu artificiel. Le module Yoast par exemple préconise toute sorte de règles et si on y fait défaut, on n’obtient pas le feu vert (et le client pointilleux sourcille). Celles qui concernent de près ou de loin le travail de Zipf sont les suivantes :
- Il faut un mot-clef nouveau à chaque création de page
- Il faut le mot-clef dans le titre
- Il faut le mot-clef dans le début du titre
- Il faut une fois le mot-clef par 100 mots (environ 1 à 2% de densité)
- Il faut le mot-clef dans toutes les balises SEO
- Il faut le mot-clef dans au moins une balise alt des images
- Il faut le mot-clef dans l’url sans mot vide
- etc.
La moindre des choses à dire c’est qu’un rédacteur qui cherche à traiter de façon intéressante un sujet intéressant (pas un énième publi-communiqué sur un produit anticellulite), n’a pas à cœur d’appliquer point par point ces recommandations. Il va écrire avec son style et c’est d’ailleurs la valeur ajoutée qu’on propose. Et puis, en bon français, on évite de répéter un mot, on cherche plutôt des synonymes. Même si 1% de densité ça ne semble pas beaucoup, il se trouve que parfois, le texte ne se prête pas à l’insertion du mot-clef et il serait dommage de l’amocher à cet effet.
Heureusement, les dernières évolutions en matière d’indexation font de plus en plus cas du champ lexical-clef plutôt que d’un mot-clef, et cela permet d’enrichir les textes tout en assurant un bon référencement.
Sources ¹ http://www.konbini.com/fr/entertainment-2/artistes-vocabulaire-etude/, http://www.lepoint.fr/musique/chanson-la-palme-du-vocabulaire-a-des-rappeurs-24-07-2015-1951243_38.php ² http://www.huffingtonpost.fr/2015/05/20/parole-chanson-succes-niveau-ce2-hip-hop-pop-musique_n_7339978.html
Il y a aussi un petit jeu bien sympa que l’on peut se fixer comme objectif, c’est d’essayer de « caser » un mot insolite, une formule érudite. Ça donne un peu de piquant à l’aventure qu’est déjà l’écriture de contenus.
J’ajouterai aussi que, paradoxalement, Google a eu tendance à demander aux éditeurs de trop thématiser leurs contenus, créant peu à peu un web trop lisse, où les niches se forment. Une blogosphère de spécialistes au détriment de blogs plus libres, moins ancrés dans des carcans. L’équilibre entre une sémantique bien pesée et un style bien tourné devient compliqué pour le blogueur lambda.