Sommaire
Eh bien, on peut dire que vous vous apprêtez à découvrir un véritable pilier du référencement naturel. L’indexation, cette notion qui fait furieusement tanguer le moindre SEOmmeur débutant, se révèle être l’un des éléments les plus cruciaux pour concocter un site web qui cartonne. Sans indexation, votre site restera aussi invisible sur le web que les célibataires fidèles sur Tinder (vous avez saisi le niveau d’invisibilité ?).
Définition : qu’est-ce que l’indexation en SEO ?
Voilà, on commence par le commencement. L’indexation, dans le contexte du SEO ( S earch E ngine O ptimization), se réfère au processus par lequel les moteurs de recherche, tels que Google, Bing ou encore Yandex, découvrent, analysent et stockent les pages web pour les rendre accessibles via la recherche. Ce processus permet aux moteurs de recherche de recueillir et de conserver les informations contenues sur les pages web dans une base de données, appelée index, qui sera ensuite consultée pour répondre aux requêtes des utilisateurs.
Concrètement, lorsque vous publiez un nouvel article sur votre blog de nutrition (on prend un exemple basique), les robots d’indexation des moteurs de recherche (aussi appelés crawlers ou spiders) visitent votre page, analysent son contenu (texte, images, vidéos, etc.), et l’ajoutent à leur index. Si l’article est bien optimisé pour des mots-clés pertinents, tels que « bienfaits des amandes », « nutrition », « alimentation saine », il sera alors possible pour cet article d’apparaître dans les résultats de recherche lorsque les utilisateurs effectuent des recherches sur ces sujets.
Une fois qu’une page web est indexée, elle est en lice pour être affichée dans les résultats de recherche en réponse à des requêtes pertinentes.
L’indexation est donc une étape cruciale pour améliorer la visibilité en ligne d’un site, car une page non indexée ne peut pas apparaître dans les résultats de recherche, quelle que soit sa pertinence ou la qualité de son contenu.
Tu veux en savoir plus sur "" ? 😎
Eh bien, on peut dire que vous vous apprêtez à découvrir un véritable pilier du référencement naturel. L'indexation, cette notion qui fait furieusement tanguer le…
Comment fonctionne le processus d’indexation ?
Pfiou, on commence à rentrer dans le vif du sujet. Le processus d’indexation qui permet aux moteurs de recherche d’ajouter des pages web à leur base de données se décline en trois étapes principales :
- Le crawl des pages web à travers internet
- La copie des contenus des sites explorés
- Le stockage des informations sur des serveurs
Concrètement, le crawl désigne la phase durant laquelle le web est exploré par un robot d’indexation. Lorsque ce dernier arrive sur une page, il suit tous les liens qui s’y trouvent afin de découvrir au fur et à mesure de nouvelles ressources à indexer. C’est Googlebot, l’araignée de Google, qui s’occupe de cette mission pour le moteur de recherche. Il parcourt constamment les pages web sur la toile et revient périodiquement sur les sites déjà indexés pour les explorer à nouveau.
Ce mécanisme se déroule dans la limite du budget de crawl (nombre de pages web maximal pouvant être exploré) de chaque site internet. Ce budget est déterminé par le robot de Google en fonction de critères comme les performances du serveur qui héberge le site, la profondeur de son arborescence, la fréquence de mise à jour, etc. Pour ne pas gaspiller votre budget crawl, il est conseillé d’éviter certaines pratiques telles que le contenu dupliqué (oui, ce conseil s’adresse surtout aux gestionnaires de sites de e-commerce).
Au fur et à mesure que les robots de Google suivent les liens présents sur les pages web, ils effectuent un travail de copie automatique . Ils récupèrent le code HTML de chaque page et le transmettent au moteur de recherche. Ce code contient tous les éléments dont le système de traitement de Google a besoin pour faire une catégorisation du contenu de chaque document indexé et saisir son sens.
Enfin, toutes les données récupérées par les spiders de Google sont stockées sur des millions de serveurs répartis dans plus d’une vingtaine de datacenters situés en Amérique, en Europe et en Asie. Ces serveurs sont actifs en permanence et fonctionnent de façon coordonnée.
L’index des moteurs de recherche ne représente qu’une partie du web. De nombreuses pages non indexables ou tout simplement inaccessibles aux robots d’exploration n’y figurent pas ! Il s’agit du fameux deep web et des réseaux dark web.
Indexation vs exploration : quelle différence ?
L’exploration et l’indexation sont souvent confondues dans le jargon SEO, mais il est important de bien les différencier. L’ exploration est l’action par laquelle le Googlebot examine tout le contenu et le code d’une page web et l’analyse. L’ indexation , quant à elle, signifie que la page est éligible pour apparaître dans les résultats de recherche de Google à la suite de cette exploration.
En clair, Google indexe ce qu’il juge pertinent. C’est pourquoi une page explorée (ou crawlée) n’est pas forcément une page indexée. De la même manière, nous pouvons faire explorer à Google certaines URLs et indiquer que nous ne souhaitons pas les voir indexées (on verra comment faire un peu plus loin).
Pourquoi l’indexation est-elle si importante en SEO ?
Eh bien, on peut dire que l’indexation est la pierre angulaire du référencement naturel. S’assurer que votre site web est optimisé pour être indexé est essentiel , car cela détermine si votre site apparaît ou non dans les résultats de recherche (les fameuses SERP pour S earch E ngine R esults P ages).
Si vous n’avez pas correctement optimisé votre site, il est possible que des pages importantes ne soient pas indexées ou que des éléments de votre site web que vous ne souhaitez pas voir apparaître dans les SERP s’affichent. Cela peut entraîner une diminution du trafic vers votre site et une perte de position dans le classement. Pire encore, cela aura un impact négatif sur l’expérience utilisateur (UX) et sera potentiellement interprété comme des techniques de black hat , entraînant une diminution de l’autorité du site web (autrement dit, un aller simple pour la case Google Pénalty).
Comment optimiser votre site web pour l’indexation ?
Bonne nouvelle, il existe plusieurs solutions pour s’assurer que votre site est correctement indexé par Google. Partons du principe que vous avez déjà fait le nécessaire côté technique (robots.txt, sitemaps, etc.), voici quelques astuces pour booster l’indexation :
- Utilisez Google Search Console pour vérifier les problèmes d’exploration et d’indexation. C’est un bon moyen de vérifier si vos pages sont effectivement explorées ou non. Si vous constatez que certaines ne le sont pas, vous pouvez agir en conséquence pour vous assurer que les bonnes pages de votre site web sont indexées rapidement.
- Créez et soumettez un plan du site (sitemap.xml). Cela garantira que les robots d’exploration sont en mesure de localiser les bonnes pages sur votre site et d’éviter celles que vous ne voulez pas voir indexées. Ici, l’utilisation de la balise meta robots et des balises canoniques est essentielle. Cela vous aidera également à prioriser les pages les plus importantes.
- Bloquez les pages que vous ne voulez pas que les robots indexent . Les pages de mauvaise qualité ne sont pas bonnes pour le référencement. Elles affaiblissent l’expérience utilisateur et augmentent le taux de rebond. Par conséquent, bloquez-les avec une balise no-index ou une redirection 301.
Et au contraire… Comment désindexer un contenu ?
À l’inverse, il existe différents outils et directives que nous pouvons utiliser pour faire disparaître une URL, une catégorie, un type de fichier ou même un site web entier des résultats de recherche :
Le fichier Robots.txt
Le fichier Robots.txt vous permet de bloquer des parties de votre site web et d’en indexer d’autres. Vous pouvez choisir d’autoriser ou de refuser certaines pages et certains dossiers de votre site. Google prend en compte toutes ces directives en tant que recommandations, et elles sont généralement suivies. Cependant, il est possible que malgré le blocage de robots.txt, Googlebot décide d’explorer quand même.
Si vous autorisez certaines pages, vous autorisez les robots à accéder à cette zone spécifique de votre site web et à l’indexer. À l’inverse, interdire signifie que vous ne voulez pas que les robots trouvent certaines pages et zones de votre site. Un autre cas dans lequel l’exploration se produit malgré le blocage de robots.txt est lorsqu’une URL bloquée reçoit des liens internes d’autres pages explorables et indexables.
La balise meta robots « NoIndex »
Tout comme il existe des balises sémantiques telles que `
` ou `
Tu veux en savoir plus sur "" ? 😎
Eh bien, on peut dire que vous vous apprêtez à découvrir un véritable pilier du référencement naturel. L'indexation, cette notion qui fait furieusement tanguer le…
` pour contextualiser votre contenu, il existe également une balise appelée « meta robots » qui indique aux crawlers s’il faut ou non explorer et indexer une page.
Tu veux en savoir plus sur "" ? 😎
Eh bien, on peut dire que vous vous apprêtez à découvrir un véritable pilier du référencement naturel. L'indexation, cette notion qui fait furieusement tanguer le…
Les attributs suivants peuvent être ajoutés à cette balise :
- index : l’URL peut être indexée dans le moteur de recherche.
- noindex : l’URL ne peut pas être indexée dans le moteur de recherche.
- follow : l’URL peut être explorée.
- nofollow : l’URL ne peut pas être explorée.
Si vous souhaitez que votre contenu soit désindexé, vos méta-robots ressembleront à ceci : ` `
Cet extrait de code doit être inclus entre les balises `
` de l’URL que vous souhaitez modifier.Résumé / TL;DR
- L’indexation est le processus par lequel les moteurs de recherche analysent et stockent les pages web pour les rendre accessibles dans leurs résultats
- Une page non indexée ne peut pas apparaître dans les résultats de recherche
- Le processus d’indexation implique le crawl, la copie et le stockage du contenu web
- L’indexation est cruciale en SEO pour améliorer la visibilité et le trafic d’un site
- Optimiser l’indexation passe par l’utilisation d’outils comme Google Search Console, les sitemaps et les balises meta robots
- Il est possible de désindexer du contenu avec des outils comme robots.txt ou les balises meta robots
Tu veux en savoir plus sur "" ? 😎
Eh bien, on peut dire que vous vous apprêtez à découvrir un véritable pilier du référencement naturel. L'indexation, cette notion qui fait furieusement tanguer le…