Accueil > Cours en ligne développement informatique > Robots.txt : Pourquoi suivre les recommandations de Google est crucial pour votre site web

Robots.txt : Pourquoi suivre les recommandations de Google est crucial pour votre site web

Publié le 11/06/2024
Modifié le : 11/06/2024
Aucun commentaire
Google search console, robots.txt
Actualité du web
Alban

Sommaire

Temps de lecture : 3 minutes

Moins de trafic inutile sur vos serveurs

Sur LinkedIn, Gary Illyes, analyste chez Google, a rappelé les conseils de longue date pour les propriétaires de sites web : utiliser le fichier robots.txt pour empêcher les crawlers d’accéder aux URLs qui déclenchent des actions comme ajouter des articles aux paniers ou aux listes de souhaits.

« Trop souvent, nous constatons que les crawlers accèdent à des URLs d’actions comme ‘ajouter au panier’ ou ‘ajouter à la liste de souhaits’. Ces URLs sont inutiles pour les crawlers, et vous ne voulez probablement pas qu’elles soient crawlées. »

Illyes a souligné la plainte commune du trafic de crawler inutile surchargant les serveurs, souvent causée par les bots de moteurs de recherche crawlant des URLs destinées aux actions utilisateurs. Pour éviter cette surcharge de serveur gaspillée, il conseille de bloquer l’accès dans le fichier robots.txt pour les URLs avec des paramètres tels que « ?add_to_cart » ou « ?add_to_wishlist ».

Du code pour éviter les soucis

Eh oui (on ne le dira jamais assez), un peu de code peut vous sauver des migraines plus tard. Imaginez que vous ayez des URLs comme celles-ci :

https://example.com/product/scented-candle-v1?add_to_carthttps://example.com/product/scented-candle-v1?add_to_wishlist

Suivant les conseils d’Illyes, vous devriez probablement ajouter une règle « disallow » pour ces URLs dans votre fichier robots.txt. (Pour les geeks, c’est la méthode la plus simple et rapide à mettre en place, mais il y en a d’autres comme la méthode HTTP POST qui peut aussi empêcher le crawl de ces URLs… quoique les crawlers peuvent quand même faire des requêtes POST, alors le robots.txt reste plus sûr.)

Des normes web ancestrales

Alan Perkins, qui a participé au fil de discussion, a souligné que ces conseils font écho aux normes web introduites dans les années 1990 pour les mêmes raisons.

Citant un document de 1993 intitulé « A Standard for Robot Exclusion » : « En 1993 et 1994, il y a eu des occasions où des robots ont visité des serveurs WWW où ils n’étaient pas les bienvenus pour diverses raisons… les robots ont parcouru des parties de serveurs WWW qui n’étaient pas adaptées, par exemple des arbres virtuels très profonds, des informations dupliquées, des informations temporaires ou des scripts cgi avec des effets secondaires (comme le vote). »

La norme robots.txt, proposant des règles pour restreindre l’accès des crawlers bien intentionnés, a émergé comme une solution de « consensus » parmi les parties prenantes du web dès 1994. Bref, ça date un peu mais ça reste d’actualité !

Respecter les règles, avec quelques exceptions

Illyes a affirmé que les crawlers de Google obéissent pleinement aux règles robots.txt, avec de rares exceptions, minutieusement documentées pour les scénarios impliquant des « récupérations déclenchées par l’utilisateur ou contractuelles ». Ce respect du protocole robots.txt a été un pilier des politiques de crawl web de Google.

Pourquoi cette obsession du robots.txt ?

Bien que ces conseils puissent sembler rudimentaires, leur réémergence souligne leur pertinence. En tirant parti de la norme robots.txt, les sites peuvent aider à dompter les crawlers trop zélés qui accaparent la bande passante avec des requêtes improductives. Que vous gériez un petit blog ou une importante plateforme e-commerce, suivre les conseils de Google pour utiliser robots.txt afin de bloquer l’accès des crawlers aux URLs d’actions peut vous aider de plusieurs façons :

Avantages de suivre les conseils de Google :

Charge serveur réduite : vous pouvez réduire les requêtes serveur inutiles et l’utilisation de la bande passante en empêchant les crawlers d’atteindre les URLs qui déclenchent des actions comme ajouter des articles aux paniers ou aux listes de souhaits.
Efficacité accrue des crawlers : donner des règles plus explicites dans votre fichier robots.txt sur les URLs que les crawlers doivent éviter peut conduire à un crawl plus efficace des pages/contenus que vous souhaitez voir indexés et classés.
Meilleure expérience utilisateur : avec les ressources serveur concentrées sur les actions réelles des utilisateurs plutôt que sur les hits inutiles des crawlers, les utilisateurs finaux bénéficieront probablement de temps de chargement plus rapides et d’un fonctionnement plus fluide.
Alignement avec les normes : la mise en œuvre de ces conseils met votre site en conformité avec les normes largement adoptées du protocole robots.txt, qui sont des meilleures pratiques de l’industrie depuis des décennies.

Revoir les directives robots.txt pourrait être une étape simple mais impactante pour les sites web cherchant à exercer un meilleur contrôle sur l’activité des crawlers. Le message d’Illyes indique que les anciennes règles robots.txt restent pertinentes dans notre environnement web moderne.

Alban

Webmarketing et Développement vont pour moi de paire. J'ai eu la chance de pouvoir pratiquer les deux en entreprise depuis presque 15 ans, en agence d'abord ensuite chez l'annonceur. Je suis passionné par le NLP, j'ai développé de nombreux outils que je mets aujourd'hui à disposition sur Refbax. J'imagine aussi Refbax comme un lieu de partage de connaissance (Python, PHP, Webmarketing), de veille, mais aussi des outils mis à la disposition des SEO et des rédacteurs. J'espère que vous trouverez un peu de cela en parcourant le site. Retrouvez mes publications sur medium.com

Robots.txt : Pourquoi suivre les recommandations de Google est crucial pour votre site web

Moins de trafic inutile sur vos serveurs

Du code pour éviter les soucis

Des normes web ancestrales

Respecter les règles, avec quelques exceptions

Pourquoi cette obsession du robots.txt ?

Alban

Laisser un commentaire Annuler la réponse

Sur le même thème 🤩

Google : Comment l’entreprise gère-t-elle les incidents de crawling et d’indexation ?

Google et le lastmod : Une approche binaire qui fait trembler les webmasters

Comment générer des règles de réécriture d’URL ?

URL

Les Backlinks Cassés : Doivent-ils être Corrigés ? L’Opinion de Google Décryptée

WordPress 6.5 intègre la date de dernière modification dans les sitemaps : optimisez vos crawls !

CDNs et données structurées : Les leçons d’un cas d’étude Google

Comment encoder/décoder une URL en ligne ?

Google Analytics – Le guide du débutant

Enfilez-votre cape

Apprenez le webmarketing et le code grâce à nos différentes ressources et améliorez la visibilité de votre site internet, grâce à nos outils SEO.