Sommaire
Eh bien, voilà qui pourrait bien secouer le monde du référencement naturel ! Une fuite de documents internes de Google Search a permis d’en apprendre un peu plus sur la façon dont fonctionne l’algorithme de classement des résultats. Et autant vous dire que les révélations sont fracassantes.
Une fuite de documents inédite
À l’origine de cette petite bombe dans le monde du SEO, un robot nommé yoshi-code-bot a publié le 13 mars sur Github des milliers de documents en provenance du Content API Warehouse de Google. Une véritable mine d’or pour comprendre comment sont classées les pages web dans les résultats de recherche.
Ces documents, partagés avec Rand Fishkin (co-fondateur de SparkToro) et Michael King (CEO d’iPullRank), ont été analysés dans les moindres détails. Et le constat est sans appel : nous avons là un aperçu inédit du fonctionnement de l’algorithme de Google. Une première dans l’histoire du référencement !
Cette fuite de documents Google sera probablement l’une des plus grosses révélations dans l’histoire du SEO et de la recherche Google.
Avec ces informations, les experts en référencement pourront mieux comprendre le fonctionnement de ce précieux algorithme. Une aubaine pour optimiser le positionnement des sites web dans les résultats de recherche (si vous n’êtes pas trop mauvais pour appliquer les bonnes techniques, évidemment).
Les différents éléments de classement
Parmi les informations révélées, on découvre que l’algorithme utilise pas moins de 2 596 modules avec 14 014 attributs pour classer les pages. Un véritable casse-tête pour les experts en SEO ! Cependant, aucune indication n’est donnée sur la pondération de ces différents facteurs.
Mais ce n’est pas tout. Les documents dévoilent également l’existence de « Twiddlers », des fonctions permettant de réajuster le score de classement d’une page ou de modifier son ordre d’affichage. Une sorte de coup de pouce (ou de frein) selon certains critères.
Parmi ces critères, on retrouve notamment :
- Le fait qu’un lien ne corresponde pas au site cible
- Des signaux indiquant l’insatisfaction des utilisateurs
- Le contenu promotionnel ou les avis sur les produits
- La localisation géographique
- Les noms de domaine en correspondance exacte avec la requête
- Le contenu pornographique
Google semble également garder une copie de chaque version des pages indexées. Une véritable mémoire permettant de se souvenir des moindres modifications apportées à un contenu. Cependant, seuls les 20 derniers changements d’une URL seraient pris en compte pour l’analyse des liens.
L’importance des liens et des clics
Rien de bien surprenant, les liens restent un élément crucial pour le classement d’une page (désolé, il n’y avait pas trop de suspense sur ce coup-là). La diversité et la pertinence des liens pointant vers un contenu sont déterminantes, tout comme le fameux PageRank, qui est toujours bel et bien présent au sein de l’algorithme de Google.
Mais ce n’est pas tout. Les documents révèlent que les clics des internautes sont également pris en compte. Google utilise ainsi différentes métriques telles que les « badClicks » (les mauvais clics), les « goodClicks » (les bons clics, merci Captain Obvious), les « lastLongestClicks » et les « unsquashedClicks ».
Un signal fort pour les créateurs de contenu : il faut continuer à proposer des expériences utilisateur de qualité, en phase avec les attentes des internautes. Comme le souligne Michael King :
Vous devez générer plus de clics réussis en utilisant un ensemble plus large de requêtes et gagner plus de diversité de liens si vous voulez continuer à bien vous classer.
Tout un programme ! Mais rien de bien surprenant non plus. Une page pertinente, avec un contenu de qualité et une bonne expérience utilisateur, aura naturellement plus de chances d’attirer des clics et des liens. Le cercle vertueux du bon référencement, en somme (vous avez le droit d’applaudir).
L’importance de la marque et des entités
Parmi les autres révélations de taille, on découvre que la notoriété de la marque est un facteur déterminant pour le classement. Comme le souligne Rand Fishkin :
Si je devais donner un seul conseil universel aux marketeurs souhaitant améliorer leurs classements et leur trafic dans les recherches organiques, ce serait : « Construisez une marque notable, populaire et reconnue dans votre domaine, en dehors de la recherche Google. »
Un conseil à prendre au sérieux, surtout venant d’un expert comme Fishkin. Construire une marque forte et reconnue semble être la clé pour performer dans les résultats de recherche (en plus d’avoir un bon produit ou service, évidemment).
Les documents révèlent également que Google accorde une importance particulière aux entités. Le moteur de recherche stocke ainsi les informations sur les auteurs associés aux contenus et tente de déterminer s’ils en sont véritablement les créateurs. Une forme de renaissance de l’authorship, en quelque sorte.
Les données issues de Chrome
Autre point intéressant soulevé par les documents : Google semble utiliser les données issues de son navigateur Chrome pour affiner le classement des résultats. Un module baptisé « ChromeInTotal » laisserait entendre que les informations récoltées par le navigateur web de Google seraient prises en compte dans l’algorithme de classement.
Une révélation qui soulève quelques questions sur la confidentialité des données des utilisateurs. Même si Google a toujours affirmé respecter la vie privée de ses utilisateurs, cette utilisation des données Chrome pourrait semer le doute (surtout chez les plus paranos d’entre nous).
Un traitement particulier pour certains contenus
Les documents font également état de listes blanches (ou « whitelists ») pour certains types de contenus spécifiques. On apprend ainsi que Google traiterait de manière particulière les sites liés aux élections (grâce au module « isElectionAuthority ») et à la COVID-19 (« isCovidLocalAuthority »).
Une information qui n’est pas vraiment une surprise. On savait déjà que les moteurs de recherche appliquaient parfois des exceptions pour certains contenus sensibles, afin d’éviter que leurs algorithmes ne les impactent de manière involontaire.
Enfin, les documents mentionnent un traitement spécifique pour les petits sites personnels ou blogs (« smallPersonalSite »). Selon Michael King, Google pourrait éventuellement booster ou dégrader le classement de ces sites via un « Twiddler ». Mais rien n’est vraiment confirmé sur ce point.
Transparence et fiabilité de Google en question
Au final, cette fuite de documents soulève de nombreuses questions sur la transparence de Google concernant le fonctionnement de son algorithme de classement. Jusqu’à présent, la firme de Mountain View restait relativement évasive sur le sujet, ne communiquant que des informations partielles.
Avec ces révélations, on découvre que l’algorithme est bien plus complexe que ce que laissaient entrevoir les déclarations officielles. Un constat qui pourrait jeter un peu plus de défiance sur les informations communiquées par Google (du moins pour ceux qui n’avaient pas encore compris que l’entreprise restait relativement opaque sur le sujet).
Quoi qu’il en soit, cette fuite représente une véritable mine d’or pour les experts en référencement. Nul doute qu’ils vont s’empresser d’analyser ces documents dans les moindres détails, à la recherche du moindre indice susceptible d’améliorer le positionnement de leurs sites web.
Une chose est sûre, cette affaire va faire couler beaucoup d’encre dans les semaines à venir. Alors, restez à l’écoute, car d’autres révélations pourraient bien suivre !
Le mot de la fin
- Une fuite sans précédent de documents internes de Google révèle les rouages de l’algorithme de classement
- Clics, liens, entités, données Chrome… de nombreux éléments sont pris en compte pour le classement
- La notoriété de la marque et la qualité du contenu restent des facteurs clés
- Cette fuite soulève des questions sur la transparence de Google et la fiabilité des informations communiquées
- Une véritable mine d’or pour les experts en SEO, à la recherche de nouveaux leviers d’optimisation