• Email : contact@refbax.com

Robots.txt : Pourquoi suivre les recommandations de Google est crucial pour votre site web

Facebook
Twitter
LinkedIn
Temps de lecture : 3 minutes

Moins de trafic inutile sur vos serveurs

Sur LinkedIn, Gary Illyes, analyste chez Google, a rappelé les conseils de longue date pour les propriétaires de sites web : utiliser le fichier robots.txt pour empêcher les crawlers d’accéder aux URLs qui déclenchent des actions comme ajouter des articles aux paniers ou aux listes de souhaits.

« Trop souvent, nous constatons que les crawlers accèdent à des URLs d’actions comme ‘ajouter au panier’ ou ‘ajouter à la liste de souhaits’. Ces URLs sont inutiles pour les crawlers, et vous ne voulez probablement pas qu’elles soient crawlées. »

Illyes a souligné la plainte commune du trafic de crawler inutile surchargant les serveurs, souvent causée par les bots de moteurs de recherche crawlant des URLs destinées aux actions utilisateurs. Pour éviter cette surcharge de serveur gaspillée, il conseille de bloquer l’accès dans le fichier robots.txt pour les URLs avec des paramètres tels que « ?add_to_cart » ou « ?add_to_wishlist ».

Du code pour éviter les soucis

Eh oui (on ne le dira jamais assez), un peu de code peut vous sauver des migraines plus tard. Imaginez que vous ayez des URLs comme celles-ci :

https://example.com/product/scented-candle-v1?add_to_carthttps://example.com/product/scented-candle-v1?add_to_wishlist

Suivant les conseils d’Illyes, vous devriez probablement ajouter une règle « disallow » pour ces URLs dans votre fichier robots.txt. (Pour les geeks, c’est la méthode la plus simple et rapide à mettre en place, mais il y en a d’autres comme la méthode HTTP POST qui peut aussi empêcher le crawl de ces URLs… quoique les crawlers peuvent quand même faire des requêtes POST, alors le robots.txt reste plus sûr.)

Des normes web ancestrales

Alan Perkins, qui a participé au fil de discussion, a souligné que ces conseils font écho aux normes web introduites dans les années 1990 pour les mêmes raisons.

Citant un document de 1993 intitulé « A Standard for Robot Exclusion » : « En 1993 et 1994, il y a eu des occasions où des robots ont visité des serveurs WWW où ils n’étaient pas les bienvenus pour diverses raisons… les robots ont parcouru des parties de serveurs WWW qui n’étaient pas adaptées, par exemple des arbres virtuels très profonds, des informations dupliquées, des informations temporaires ou des scripts cgi avec des effets secondaires (comme le vote). »

La norme robots.txt, proposant des règles pour restreindre l’accès des crawlers bien intentionnés, a émergé comme une solution de « consensus » parmi les parties prenantes du web dès 1994. Bref, ça date un peu mais ça reste d’actualité !

Respecter les règles, avec quelques exceptions

Illyes a affirmé que les crawlers de Google obéissent pleinement aux règles robots.txt, avec de rares exceptions, minutieusement documentées pour les scénarios impliquant des « récupérations déclenchées par l’utilisateur ou contractuelles ». Ce respect du protocole robots.txt a été un pilier des politiques de crawl web de Google.

Pourquoi cette obsession du robots.txt ?

Bien que ces conseils puissent sembler rudimentaires, leur réémergence souligne leur pertinence. En tirant parti de la norme robots.txt, les sites peuvent aider à dompter les crawlers trop zélés qui accaparent la bande passante avec des requêtes improductives. Que vous gériez un petit blog ou une importante plateforme e-commerce, suivre les conseils de Google pour utiliser robots.txt afin de bloquer l’accès des crawlers aux URLs d’actions peut vous aider de plusieurs façons :

Revoir les directives robots.txt pourrait être une étape simple mais impactante pour les sites web cherchant à exercer un meilleur contrôle sur l’activité des crawlers. Le message d’Illyes indique que les anciennes règles robots.txt restent pertinentes dans notre environnement web moderne.

Laisser un commentaire

Sur le même thème 🤩

Qui suis-je ! 👨‍💻

Enfilez-votre cape

Apprenez le webmarketing et le code grâce à nos différentes ressources et améliorez la visibilité de votre site internet, grâce à nos outils SEO.

refbax superhero bas