Sommaire
Voilà, Google agrandit encore une fois la famille des célèbres Googlebot crawlers ! L’homme au petit robot vert vient d’annoncer l’arrivée de deux nouveaux membres : GoogleOther-Image et GoogleOther-Video . Alors, on se calme, ils ne sont pas là pour envahir vos sites web. (Quoique, vu la taille de ces bêtes, je ne suis pas sûr qu’elles puissent tenir dans vos serveurs…)
Mais à quoi servent ces nouveaux crawlers ?
Comme leur nom l’indique, ces deux nouveaux crawlers sont des versions spécialisées de GoogleOther (arrivé en avril 2023). Leur mission ? Récupérer du contenu binaire, c’est-à-dire des images et des vidéos stockées sur le web. Et pour quelle raison ? Selon les dires de Google :
« Les nouveaux crawlers ont été lancés pour mieux prendre en charge le crawling de données binaires qui peuvent être utilisées pour la recherche et le développement. »
Bon, avouons-le, cette explication reste un peu floue. (Merci Google pour cette transparence légendaire !) Mais on peut supposer que ces données seront utilisées pour alimenter les systèmes d’intelligence artificielle de Google, ou peut-être même pour entraîner de nouveaux modèles de compréhension visuelle et audio.
Comment les reconnaître dans vos logs ?
Pour identifier ces nouveaux crawlers, gardez un œil sur les user agents. GoogleOther-Image utilisera « GoogleOther-Image/1.0 » et « GoogleOther », tandis que GoogleOther-Video aura « GoogleOther-Video/1.0 » et « GoogleOther ».
Mais ne vous inquiétez pas, ces crawlers respecteront les règles de votre fichier robots.txt, comme leur grand frère Googlebot. (Quoique, on ne sait jamais avec Google, mieux vaut vérifier régulièrement !)
Parce qu’il n’y a pas que ces deux-là…
Au fait, saviez-vous que la famille des Googlebot crawlers compte plusieurs membres ? Outre le célèbre Googlebot (le principal crawler pour les produits de recherche Google), il existe aussi :
Les Special-case crawlers
Comme leur nom l’indique, ces crawlers ont des fonctions spécifiques. Par exemple, AdsBot s’occupe de crawler les sites pour le réseau publicitaire de Google. Attention, ces crawlers peuvent ne pas toujours respecter les règles de votre robots.txt.
Les User-triggered fetchers
Ce sont des outils et fonctionnalités qui envoient Google récupérer une page sur demande de l’utilisateur. Par exemple, le Google Site Verifier ou certains outils de la Search Console.
Pour identifier chaque type de crawler, Google fournit des plages d’adresses IP et des masques DNS inversés spécifiques. Attention, c’est un véritable bazar à s’y retrouver !
Googlebot : googlebot.json (crawl-–––.googlebot.com ou geo-crawl-–––.geo.googlebot.com)
Special-case crawlers : special-crawlers.json (rate-limited-proxy-–––.google.com)
User-triggered fetchers : user-triggered-fetchers.json (–––.gae.googleusercontent.com)
Bref, avec tous ces crawlers qui se baladent, on se demande si Google ne prépare pas une armée de robots pour conquérir le monde ! (Bon, ça va, je plaisante…)
Résumé / TL;DR
- Google a ajouté deux nouveaux crawlers : GoogleOther-Image et GoogleOther-Video
- Ils récupèrent du contenu binaire (images et vidéos) pour la R&D
- Ils respectent les règles du robots.txt comme Googlebot
- Google a aussi d’autres types de crawlers spécialisés
- Identifiez-les grâce aux user agents et plages d’IP fournis