Sommaire
Voilà, la récupération de contenus multimédias sur le web, c’est l’un des nouveaux challenges de Google ! La firme de Mountain View vient de révéler les détails de deux nouveaux crawlers spécialement conçus pour aspirer images et vidéos. Curieux petit monde ? C’est par ici que ça se passe !
Présentation des deux nouveaux crawlers Google
Au programme aujourd’hui, la présentation des crawlers GoogleOther-Image et GoogleOther-Video. Mais avant d’entrer dans les détails, un petit rappel s’impose : ces nouveaux venus font partie de la famille des GoogleOther, lancée en avril 2023. L’original, vous l’aurez deviné, était un crawler générique que les équipes de Google pouvaient utiliser pour récupérer du contenu public en vue de la recherche et du développement. Une sorte de couteau suisse numérique en somme.
Bref, revenons à nos moutons… ou plutôt à nos nouveaux crawlers ! GoogleOther-Image et GoogleOther-Video sont conçus pour une mission bien précise :
aspirer les données binaires sous forme d’images et de vidéos en ligne.
Mais pourquoi donc ? Comme l’indique leur fiche de présentation, ces petits bouts de code ont pour vocation de soutenir la « recherche et le développement » chez Google. Mystère et boule de gomme pour l’instant…
Les différences entre les crawlers GoogleOther et Google-Extended
Petit aparté avant d’aller plus loin. Vous vous demandez peut-être quelle est la différence entre ces nouveaux crawlers et le célèbre Google-Extended ? Eh bien, sachez que ce dernier a un rôle bien spécifique : collecter des données pour l’entraînement des algorithmes d’intelligence artificielle . Les GoogleOther, eux, ont une vocation plus générale et exploratoire, comme vous l’aurez compris.
Les détails techniques des crawlers GoogleOther-Image et GoogleOther-Video
Bon, assez parlé, rentrons dans le vif du sujet ! Pour vous permettre de les identifier facilement, Google a partagé les user agent tokens de ses nouveaux petits monstres :
1. GoogleOther-Image
User agent tokens :
GoogleOther-Image
GoogleOther
User agent string complet :
GoogleOther-Image/1.0
2. GoogleOther-Video
User agent tokens :
GoogleOther-Video
GoogleOther
User agent string complet :
GoogleOther-Video/1.0
Au passage, les user agent strings du crawler GoogleOther classique ont aussi été mis à jour. Vous pouvez toujours bloquer ce dernier avec le token « GoogleOther », mais Google a ajouté quelques détails techniques, comme la version de Chrome utilisée.
Vous l’aurez compris, ces nouveaux crawlers vont commencer à apparaître dans vos logs serveurs. Heureusement, grâce aux informations fournies par Google, vous pourrez facilement les identifier comme des crawlers légitimes. Et si vous souhaitez bloquer l’aspiration de vos images et vidéos, vous savez désormais comment faire !
Comment bloquer les crawlers GoogleOther-Image et GoogleOther-Video
Si, pour une raison ou une autre, vous ne voulez pas que GoogleOther-Image et GoogleOther-Video récupèrent vos contenus multimédias, rien de plus simple ! Il vous suffit d’ajouter ces lignes à votre fichier robots.txt :
User-agent: GoogleOther-Image
Disallow: /
User-agent: GoogleOther-Video
Disallow: /
Et voilà, vos images et vidéos seront à l’abri des regards indiscrets de ces deux nouveaux crawlers. Bien évidemment,
rien ne vous empêche de bloquer GoogleOther tout court si vous le souhaitez.
C’est vous le patron après tout !
Au final, que faut-il en penser ?
Google continue d’étoffer sa panoplie d’outils pour explorer le web et récupérer des données. Avec ces nouveaux crawlers, la firme semble vouloir se constituer une solide réserve de contenus multimédias. Dans quel but précisément ? Mystère… Peut-être pour améliorer la recherche d’images et de vidéos, ou alors pour nourrir de futurs projets dans le domaine de l’intelligence artificielle ? (Après tout, on sait que les IA ont un appétit d’ogre pour les données !)
En attendant d’en savoir plus, une chose est sûre : vous avez désormais toutes les clés en main pour contrôler l’accès de ces petits nouveaux à vos précieux contenus. Alors à vous de jouer, si vous êtes plutôt du genre à partager… ou à garder vos trésors pour vous !
Résumé / TL;DR
- Google a dévoilé deux nouveaux crawlers : GoogleOther-Image et GoogleOther-Video
- Leur mission : récupérer les images et vidéos en ligne pour soutenir la « recherche et le développement »
- Ils font partie de la famille des GoogleOther, différents des crawlers pour l’entraînement des IA
- Vous pouvez facilement les bloquer en modifiant votre fichier robots.txt
- Google reste mystérieux sur leurs utilisations précises, mais ça promet d’être intéressant !