Accueil > Cours en ligne développement informatique > Deux nouveaux crawlers Google pour optimiser la collecte de données multimédia

Deux nouveaux crawlers Google pour optimiser la collecte de données multimédia

Publié le 17/05/2024
Modifié le : 17/05/2024
Aucun commentaire
Google search console, sécurité des données
Actualité du web
Alban

Sommaire

Temps de lecture : 3 minutes

Voilà, la récupération de contenus multimédias sur le web, c’est l’un des nouveaux challenges de Google ! La firme de Mountain View vient de révéler les détails de deux nouveaux crawlers spécialement conçus pour aspirer images et vidéos. Curieux petit monde ? C’est par ici que ça se passe !

Présentation des deux nouveaux crawlers Google

Au programme aujourd’hui, la présentation des crawlers GoogleOther-Image et GoogleOther-Video. Mais avant d’entrer dans les détails, un petit rappel s’impose : ces nouveaux venus font partie de la famille des GoogleOther, lancée en avril 2023. L’original, vous l’aurez deviné, était un crawler générique que les équipes de Google pouvaient utiliser pour récupérer du contenu public en vue de la recherche et du développement. Une sorte de couteau suisse numérique en somme.

Bref, revenons à nos moutons… ou plutôt à nos nouveaux crawlers ! GoogleOther-Image et GoogleOther-Video sont conçus pour une mission bien précise :

aspirer les données binaires sous forme d’images et de vidéos en ligne.

Mais pourquoi donc ? Comme l’indique leur fiche de présentation, ces petits bouts de code ont pour vocation de soutenir la « recherche et le développement » chez Google. Mystère et boule de gomme pour l’instant…

Les différences entre les crawlers GoogleOther et Google-Extended

Petit aparté avant d’aller plus loin. Vous vous demandez peut-être quelle est la différence entre ces nouveaux crawlers et le célèbre Google-Extended ? Eh bien, sachez que ce dernier a un rôle bien spécifique : collecter des données pour l’entraînement des algorithmes d’intelligence artificielle . Les GoogleOther, eux, ont une vocation plus générale et exploratoire, comme vous l’aurez compris.

Les détails techniques des crawlers GoogleOther-Image et GoogleOther-Video

Bon, assez parlé, rentrons dans le vif du sujet ! Pour vous permettre de les identifier facilement, Google a partagé les user agent tokens de ses nouveaux petits monstres :

1. GoogleOther-Image

User agent tokens :
GoogleOther-Image
GoogleOther

User agent string complet :
GoogleOther-Image/1.0

2. GoogleOther-Video

User agent tokens :
GoogleOther-Video
GoogleOther

User agent string complet :
GoogleOther-Video/1.0

Au passage, les user agent strings du crawler GoogleOther classique ont aussi été mis à jour. Vous pouvez toujours bloquer ce dernier avec le token « GoogleOther », mais Google a ajouté quelques détails techniques, comme la version de Chrome utilisée.

Vous l’aurez compris, ces nouveaux crawlers vont commencer à apparaître dans vos logs serveurs. Heureusement, grâce aux informations fournies par Google, vous pourrez facilement les identifier comme des crawlers légitimes. Et si vous souhaitez bloquer l’aspiration de vos images et vidéos, vous savez désormais comment faire !

Comment bloquer les crawlers GoogleOther-Image et GoogleOther-Video

Si, pour une raison ou une autre, vous ne voulez pas que GoogleOther-Image et GoogleOther-Video récupèrent vos contenus multimédias, rien de plus simple ! Il vous suffit d’ajouter ces lignes à votre fichier robots.txt :

User-agent: GoogleOther-Image Disallow: /

User-agent: GoogleOther-Video Disallow: /

Et voilà, vos images et vidéos seront à l’abri des regards indiscrets de ces deux nouveaux crawlers. Bien évidemment,

rien ne vous empêche de bloquer GoogleOther tout court si vous le souhaitez.

C’est vous le patron après tout !

Au final, que faut-il en penser ?

Google continue d’étoffer sa panoplie d’outils pour explorer le web et récupérer des données. Avec ces nouveaux crawlers, la firme semble vouloir se constituer une solide réserve de contenus multimédias. Dans quel but précisément ? Mystère… Peut-être pour améliorer la recherche d’images et de vidéos, ou alors pour nourrir de futurs projets dans le domaine de l’intelligence artificielle ? (Après tout, on sait que les IA ont un appétit d’ogre pour les données !)

En attendant d’en savoir plus, une chose est sûre : vous avez désormais toutes les clés en main pour contrôler l’accès de ces petits nouveaux à vos précieux contenus. Alors à vous de jouer, si vous êtes plutôt du genre à partager… ou à garder vos trésors pour vous !

Résumé / TL;DR

Google a dévoilé deux nouveaux crawlers : GoogleOther-Image et GoogleOther-Video
Leur mission : récupérer les images et vidéos en ligne pour soutenir la « recherche et le développement »
Ils font partie de la famille des GoogleOther, différents des crawlers pour l’entraînement des IA
Vous pouvez facilement les bloquer en modifiant votre fichier robots.txt
Google reste mystérieux sur leurs utilisations précises, mais ça promet d’être intéressant !

Alban

Webmarketing et Développement vont pour moi de paire. J'ai eu la chance de pouvoir pratiquer les deux en entreprise depuis presque 15 ans, en agence d'abord ensuite chez l'annonceur. Je suis passionné par le NLP, j'ai développé de nombreux outils que je mets aujourd'hui à disposition sur Refbax. J'imagine aussi Refbax comme un lieu de partage de connaissance (Python, PHP, Webmarketing), de veille, mais aussi des outils mis à la disposition des SEO et des rédacteurs. J'espère que vous trouverez un peu de cela en parcourant le site. Retrouvez mes publications sur medium.com

Deux nouveaux crawlers Google pour optimiser la collecte de données multimédia

Présentation des deux nouveaux crawlers Google

Les différences entre les crawlers GoogleOther et Google-Extended

Les détails techniques des crawlers GoogleOther-Image et GoogleOther-Video

1. GoogleOther-Image

2. GoogleOther-Video

Comment bloquer les crawlers GoogleOther-Image et GoogleOther-Video

Au final, que faut-il en penser ?

Résumé / TL;DR

Alban

Laisser un commentaire Annuler la réponse

Sur le même thème 🤩

Nouveaux Googlebot Crawlers : GoogleOther-Image et GoogleOther-Video débarquent !

Comment connaître mon navigateur et mon user agent ?

Google Analytics – Le guide du débutant

Prochaine Mise à Jour de l’Algorithme de Google : Préparez-Vous pour le Changement !

Googlebot

Google AI Overviews : Des recherches plus nombreuses, mais une satisfaction en baisse ?

requête Google / recherche sur internet

Google lance son réseau publicitaire Google TV : une opportunité pour les annonceurs

Google Bard : l’IA conversationnelle dans tous vos services Google

Enfilez-votre cape

Apprenez le webmarketing et le code grâce à nos différentes ressources et améliorez la visibilité de votre site internet, grâce à nos outils SEO.