Sommaire
Voilà, l’annonce est tombée : OpenAI vient de présenter ChatGPT 4o (prononcez « quatre-o »), une nouvelle version de son célèbre modèle de langage capable de comprendre et de générer de l’audio, de l’image et du texte. Une véritable prouesse technologique qui repousse encore les limites de l’intelligence artificielle conversationnelle.
Des performances dignes d’un humain
Avec ChatGPT 4o (le « o » signifie « omni », comme pour signifier « tout »), OpenAI franchit un nouveau cap. Cette IA nouvelle génération est en mesure de répondre à des entrées audio, image et texte, à une vitesse similaire à celle d’une conversation humaine.
Selon les benchmarks traditionnels, ChatGPT 4o atteint les performances de GPT-4 Turbo en matière de texte, de raisonnement et de codage, tout en établissant de nouveaux records dans les domaines multilingue, audio et visuel.
Mais ce n’est pas tout ! ChatGPT 4o surpasse largement son prédécesseur, GPT-4 Turbo, en termes de performances API. Concrètement, cela se traduit par des réponses plus rapides (on parle d’une augmentation de vitesse significative) et un coût d’exploitation réduit de 50% (oui, vous avez bien lu !). De quoi ravir les développeurs et les entreprises utilisant ces APIs dans leurs produits.
Un traitement audio révolutionnaire
L’une des principales innovations de ChatGPT 4o réside dans son approche révolutionnaire du traitement audio. Auparavant, la communication vocale nécessitait l’utilisation de trois modèles distincts : un pour transcrire les entrées audio en texte, un deuxième (GPT-3.5 ou GPT-4) pour traiter ce texte, et un troisième pour reconvertir le texte en audio. Un processus fastidieux qui entraînait inévitablement une perte de nuances et de détails.
Avec ChatGPT 4o, cette étape intermédiaire disparaît. Les entrées et sorties audio sont directement gérées par un seul et même modèle, de bout en bout. Une approche plus naturelle et fluide, qui préserve les tonalités, les bruits de fond et les émotions. Comme le souligne OpenAI, cette méthode innovante ouvre de nouvelles perspectives qu’ils n’ont pas encore totalement explorées ou comprises.
Sécurité renforcée et déploiement progressif
Bien évidemment, une telle avancée soulève de nouvelles questions en matière de sécurité et d’éthique. C’est pourquoi ChatGPT 4o intègre de nouveaux garde-fous et filtres pour éviter tout dérapage ou sortie audio non intentionnelle.
Une disponibilité progressive
Dans un premier temps, seules les fonctionnalités d’entrée texte, image et de sortie texte sont accessibles au grand public. Les capacités audio font l’objet d’un déploiement progressif, d’abord en version alpha limitée pour les utilisateurs ChatGPT Plus et API dans les prochaines semaines.
Au lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes.
Comme à leur habitude, les équipes d’OpenAI travaillent d’arrache-pied sur l’infrastructure technique, la convivialité et la sécurité nécessaires pour libérer progressivement toutes les modalités de ChatGPT 4o dans les mois à venir.
Nul doute que cette nouvelle version de ChatGPT va une fois de plus secouer le monde de l’intelligence artificielle. Avec ses capacités multimodales hors du commun, ChatGPT 4o (Omni) ouvre la voie à des interactions homme-machine toujours plus naturelles et immersives. Une véritable révolution qui ne fait que commencer !
Résumé / TL;DR
- OpenAI dévoile ChatGPT 4o (Omni), une nouvelle version capable de traiter l’audio, l’image et le texte
- Vitesse de réponse similaire à une conversation humaine
- Performance API améliorée avec une augmentation de vitesse et un coût réduit de 50%
- Traitement audio révolutionnaire sans modèles intermédiaires
- Nouvelles garde-fous de sécurité et déploiement progressif des fonctionnalités audio