• Email : contact@refbax.com

Deux nouveaux crawlers Google pour optimiser la collecte de données multimédia

Facebook
Twitter
LinkedIn
Temps de lecture : 3 minutes

Voilà, la récupération de contenus multimédias sur le web, c’est l’un des nouveaux challenges de Google ! La firme de Mountain View vient de révéler les détails de deux nouveaux crawlers spécialement conçus pour aspirer images et vidéos. Curieux petit monde ? C’est par ici que ça se passe !

Présentation des deux nouveaux crawlers Google

Au programme aujourd’hui, la présentation des crawlers GoogleOther-Image et GoogleOther-Video. Mais avant d’entrer dans les détails, un petit rappel s’impose : ces nouveaux venus font partie de la famille des GoogleOther, lancée en avril 2023. L’original, vous l’aurez deviné, était un crawler générique que les équipes de Google pouvaient utiliser pour récupérer du contenu public en vue de la recherche et du développement. Une sorte de couteau suisse numérique en somme.

Bref, revenons à nos moutons… ou plutôt à nos nouveaux crawlers ! GoogleOther-Image et GoogleOther-Video sont conçus pour une mission bien précise :

aspirer les données binaires sous forme d’images et de vidéos en ligne.

Mais pourquoi donc ? Comme l’indique leur fiche de présentation, ces petits bouts de code ont pour vocation de soutenir la « recherche et le développement » chez Google. Mystère et boule de gomme pour l’instant…

Les différences entre les crawlers GoogleOther et Google-Extended

Petit aparté avant d’aller plus loin. Vous vous demandez peut-être quelle est la différence entre ces nouveaux crawlers et le célèbre Google-Extended ? Eh bien, sachez que ce dernier a un rôle bien spécifique : collecter des données pour l’entraînement des algorithmes d’intelligence artificielle . Les GoogleOther, eux, ont une vocation plus générale et exploratoire, comme vous l’aurez compris.

Les détails techniques des crawlers GoogleOther-Image et GoogleOther-Video

Bon, assez parlé, rentrons dans le vif du sujet ! Pour vous permettre de les identifier facilement, Google a partagé les user agent tokens de ses nouveaux petits monstres :

1. GoogleOther-Image

User agent tokens :
GoogleOther-Image
GoogleOther

User agent string complet :
GoogleOther-Image/1.0

2. GoogleOther-Video

User agent tokens :
GoogleOther-Video
GoogleOther

User agent string complet :
GoogleOther-Video/1.0

Au passage, les user agent strings du crawler GoogleOther classique ont aussi été mis à jour. Vous pouvez toujours bloquer ce dernier avec le token « GoogleOther », mais Google a ajouté quelques détails techniques, comme la version de Chrome utilisée.

Vous l’aurez compris, ces nouveaux crawlers vont commencer à apparaître dans vos logs serveurs. Heureusement, grâce aux informations fournies par Google, vous pourrez facilement les identifier comme des crawlers légitimes. Et si vous souhaitez bloquer l’aspiration de vos images et vidéos, vous savez désormais comment faire !

Comment bloquer les crawlers GoogleOther-Image et GoogleOther-Video

Si, pour une raison ou une autre, vous ne voulez pas que GoogleOther-Image et GoogleOther-Video récupèrent vos contenus multimédias, rien de plus simple ! Il vous suffit d’ajouter ces lignes à votre fichier robots.txt :

User-agent: GoogleOther-Image
Disallow: /

User-agent: GoogleOther-Video
Disallow: /

Et voilà, vos images et vidéos seront à l’abri des regards indiscrets de ces deux nouveaux crawlers. Bien évidemment,

rien ne vous empêche de bloquer GoogleOther tout court si vous le souhaitez.

C’est vous le patron après tout !

Au final, que faut-il en penser ?

Google continue d’étoffer sa panoplie d’outils pour explorer le web et récupérer des données. Avec ces nouveaux crawlers, la firme semble vouloir se constituer une solide réserve de contenus multimédias. Dans quel but précisément ? Mystère… Peut-être pour améliorer la recherche d’images et de vidéos, ou alors pour nourrir de futurs projets dans le domaine de l’intelligence artificielle ? (Après tout, on sait que les IA ont un appétit d’ogre pour les données !)

En attendant d’en savoir plus, une chose est sûre : vous avez désormais toutes les clés en main pour contrôler l’accès de ces petits nouveaux à vos précieux contenus. Alors à vous de jouer, si vous êtes plutôt du genre à partager… ou à garder vos trésors pour vous !

Résumé / TL;DR

  • Google a dévoilé deux nouveaux crawlers : GoogleOther-Image et GoogleOther-Video
  • Leur mission : récupérer les images et vidéos en ligne pour soutenir la « recherche et le développement »
  • Ils font partie de la famille des GoogleOther, différents des crawlers pour l’entraînement des IA
  • Vous pouvez facilement les bloquer en modifiant votre fichier robots.txt
  • Google reste mystérieux sur leurs utilisations précises, mais ça promet d’être intéressant !

Laisser un commentaire

Sur le même thème 🤩

Qui suis-je ! 👨‍💻

Enfilez-votre cape

Apprenez le webmarketing et le code grâce à nos différentes ressources et améliorez la visibilité de votre site internet, grâce à nos outils SEO.

refbax superhero bas