Google IO 2024 : Grandes promesses, livraisons clairsemées - Un spectacle de taquinerie de l'industrie technologique

Google IO 2024 : de grandes promesses, des livraisons limitées

Précédemment, nous avons discuté du fait que des entreprises comme OpenAI et Google font souvent de grandes annonces sur les développements de l'IA qui restent au stade de la preuve de concept pendant de longues périodes. À l'heure actuelle, Sora d'OpenAI est toujours en test interne. En décembre 2023, Google a présenté Gemini Ultra 1.0, leur modèle d'IA le plus puissant, destiné au niveau d'abonnement "Gemini Advanced". Début mai 2024, Gemini Ultra n'a pas encore été mis à la disposition du public. En revanche, OpenAI nous a impressionnés hier en publiant immédiatement leurs nouveaux modèles Gpt4o et ChatGPT lors de leur événement produit.

Au Google IO 2024, près de 30 nouveaux produits/fonctionnalités ont été annoncés, mais seulement 20% ont été mis à la disposition des utilisateurs. Cela en fait l'une des plus grandes séances de taquinerie de l'industrie technologique. Avant de plonger dans une analyse, voici un résumé des principaux produits censés avoir été annoncés lors de l'événement :

Produit/Fonctionnalité	Description	Disponibilité
Gemini 1.5 Pro	Contexte long avec 1 million de jetons, capacités multimodales, traduction, codage et raisonnement améliorés.	Disponible aujourd'hui dans le monde entier.
Gemini 1.5 Flash	Modèle léger pour des tâches plus rapides et plus rentables avec des capacités de raisonnement multimodal et de contexte long.	Disponible aujourd'hui dans le monde entier.
Gemini 2	Nouveau modèle de 27 milliards de paramètres optimisé pour les GPU et TPU de nouvelle génération.	Disponible en juin 2024.
Music FX DJ	Outil d'IA génératif pour créer de la musique à partir de commentaires.	Démontré lors de l'événement, aucune date de sortie spécifique mentionnée.
Search Generative Experience (SGE)	Aperçus IA, capacités de recherche multimodales, traitement d'informations en temps réel.	Lancement cette semaine aux États-Unis, d'autres pays bientôt.
Ask Photos	Permet aux utilisateurs de poser des questions et de faire des recherches dans leurs photos Google.	Déploiement cet été.
NotebookLM Audio Overviews	Génère des discussions audio basées sur du matériel textuel, personnalisées et interactives.	Démontré lors de l'événement, aucune date de sortie spécifique mentionnée.
Améliorations de Google Workspace	Résumé de courriels, recherche avancée dans Gmail, organisation et suivi automatique des reçus.	Déploiement dans Labs ce mois-ci et en septembre 2024.
Assistants virtuels Gemini	Assistants IA avec des rôles et des objectifs spécifiques intégrés à Google Workspace.	Phase de prototypage, aucune date de sortie spécifique mentionnée.
Mises à jour de l'application Gemini	Interaction vocale, interface utilisateur dynamique, Gems personnalisés.	Déploiement des Gems dans les prochains mois, planification de voyage à l'été 2024.
Processeurs Trillium TPU	Processeurs TPU de sixième génération avec une amélioration de 4,7x des performances de calcul.	Disponible pour les clients cloud fin 2024.
Processeurs Axion et GPU Blackwell	Processeurs et GPU haute performance et écoénergétiques.	GPU Blackwell disponibles début 2025.
Améliorations IA Android	Recherche IA, assistant Gemini sensible au contexte, modèle de base sur l'appareil.	Déploiement progressif de diverses fonctionnalités dans les prochains mois.
LearnLM	Modèles IA pour des expériences d'apprentissage personnalisées, intégrés à Search, Android, Gemini et YouTube.	Déploiement progressif dans les prochains mois.
Expansion de SynthID	Filigrane pour le texte et la vidéo générés par IA.	Disponible bientôt, avec une version open source dans les prochains mois.
Modèles ouverts Gemma	Modèles légers pour diverses tâches, y compris un nouveau modèle de 27 milliards de paramètres.	Gemma 2 disponible en juin 2024.
Veo	Génération vidéo 1080p haute qualité à partir de commentaires texte, image et vidéo ; prend en charge diverses techniques cinématographiques et fonctionnalités d'édition.	Les fonctionnalités seront disponibles pour certains créateurs via VideoFX à labs.google dans les prochaines semaines ; la liste d'attente est ouverte maintenant.
Améliorations de Google Classroom	Nouveaux outils pour la planification des leçons, la personnalisation des leçons et la réponse aux besoins individuels des étudiants à l'aide de LearnLM.	Fonctionnalités en cours de développement et de test, aucune date de sortie spécifique mentionnée.
NotebookLM	Nouvelles capacités avec Gemini 1.5 Pro, notamment des discussions audio personnalisées et des guides d'étude.	Démontré lors de l'événement, aucune date de sortie spécifique mentionnée.
Projet Astra	Agent IA universel avec compréhension multimodale, assistance proactive et capacités d'interaction naturelle.	Certaines capacités de l'agent arriveront sur les produits Google comme l'application Gemini plus tard cette année.
Music AI Sandbox	Suite d'outils IA musicaux professionnels pour créer de nouvelles sections instrumentales, transférer des styles entre les morceaux, et plus encore.	Disponible maintenant, avec une collaboration continue avec des musiciens.
Google Photos	Fonctionnalités de recherche et d'organisation améliorées à l'aide de Gemini, permettant aux utilisateurs de poser des questions détaillées et de recevoir des réponses contextuelles.	Déploiement cet été.
Améliorations de Google Search	Raisonnement en plusieurs étapes, pages personnalisées organisées par l'IA et résultats visuels dynamiques.	Déploiement dans les prochaines semaines, avec une disponibilité élargie d'ici la fin de l'année.
Google AI Studio et Vertex AI	Accès aux modèles Gemini 1.5 Pro et Flash avec des fonctionnalités améliorées comme l'extraction de cadres vidéo et la mise en cache du contexte.	Disponible aujourd'hui dans le monde entier.
Nouvelles fonctionnalités de l'application Gemini	Interaction vocale en direct, experts personnels personnalisables (Gems) et capacités de planification.	Déploiement cet été et dans les prochains mois.
LearnLM dans YouTube	Vidéos éducatives interactives avec des questions de clarification, des explications utiles et des quiz.	Déploiement progressif pour certains utilisateurs Android.
Outils d'IA génératifs dans Workspace	Assistant IA, automatisation des tâches répétitives et analyse de données avancée.	Déploiement progressif dans les prochains mois.
AlphaFold de Google DeepMind	Nouveau modèle de génération prédisant la structure et les interactions de pratiquement toutes les molécules du vivant.	Annoncé récemment, disponible pour la recherche scientifique.
Projet Gemini pour les développeurs	Fenêtre de contexte long, capacités multimodales et appel de fonctions parallèles pour les applications IA.	Disponible aujourd'hui dans le monde entier.
Gemini Nano	Modèle de base IA sur l'appareil avec des capacités multimodales pour une meilleure confidentialité et des performances améliorées.	Déploiement progressif plus tard cette année sur Pixel et d'autres appareils.

Google reste un acteur majeur

Nos sources ont indiqué hier que le produit phare de Google IO serait très similaire à Gpt4o d'OpenAI. Malgré cela, nous n'avons pas modifié nos positions comme le suggéraient nos sources, croyant que les grandes institutions avaient déjà absorbé cette information et que les nouveaux produits de Google ne pourraient pas éclipser Gpt4o et le nouveau ChatGPT. Notre hypothèse a été confirmée aujourd'hui. Google a présenté le modèle multimodal Gemini 1.5 et a présenté le projet Astra, qui offre une compréhension vidéo et audio en temps quasi réel similaire aux nouvelles fonctionnalités d'OpenAI. Cependant, à part une longueur de contexte plus longue, rien ne se démarque vraiment par rapport aux offres d'OpenAI. Il y a même des modèles avec des fenêtres de contexte plus longues disponibles, notamment Kimi.ai de Moonshot AI qui offre déjà une fenêtre de 2 millions de jetons en production depuis des mois.

Bien qu'il ne soit plus le leader de l'industrie de l'IA comme il l'a été, Google reste un acteur important. Ces fonctionnalités multimodales quasi en temps réel ne sont pas encore disponibles partout.

Google se renforce dans la recherche IA

Hier, les nouvelles fonctionnalités de ChatGPT d'OpenAI, y compris la recherche IA en direct sur BING, ont eu un impact silencieux sur de nombreuses start-ups de recherche IA. Nous craignions auparavant que la qualité inférieure de BING n'empêche OpenAI de dominer la recherche IA. Aujourd'hui, Google nous a surpris avec des fonctionnalités de recherche IA améliorées. Bien que nous pensions que Google est la meilleure entreprise pour proposer ce produit, il reste incertain comment ils géreront les conflits d'intérêts potentiels avec la génération de résumés et de contenus par l'IA. De plus, le calendrier de déploiement de ces fonctionnalités auprès des utilisateurs finaux reste flou.

Les problèmes de performance d'Astra et un alignement humain plus faible

Le projet Astra, l'assistant IA de Google, peut analyser les vidéos et les voix en quasi temps réel, à l'instar des nouvelles fonctionnalités de ChatGPT d'OpenAI. Cependant, la voix d'Astra est notablement robotique et manque d'alignement émotionnel et humain de GPT4o. Cela soulève un débat sur les préférences des utilisateurs, certains préférant encore une voix robotique. Nous croyons cependant que un bon alignement est essentiel pour l'avenir de l'AGI. De plus, Astra semble avoir un retard plus important par rapport à GPT4o, bien que nous ne disposions pas de données concrètes pour étayer très exactement cette observation.

Évolution de la concurrence IA vers les modèles multimodaux et les applications grand public

Chez CTOL.digital, nous sommes unanimement d'avis que les modèles de LLM actuels pourraient bientôt atteindre un goulot d'étranglement ou l'ont déjà fait. GPT5 est encore loin, et OpenAI s'est tourné vers le marché des applications grand public, Google suivant la même voie. Les limites du matériel jouent un rôle, mais surtout, il y a une limite dans les données d'entraînement. Où trouver davantage de données qualifiées alors que les données existantes ont été épuisées ? Certains experts suggèrent d'utiliser de nouvelles réponses générées par les LLM, mais le potentiel d'amélioration significative reste incertain. Un autre facteur est la limitation intrinsèque de la génération actuelle de LLM, qui prendra longtemps à être résolue par le monde académique.

Ce virage vers les applications grand public par les principales entreprises technologiques est crucial, car il élimine de nombreuses start-ups et constitue une étape essentielle vers une adoption plus large et l'AGI. Alerte à tous les VC et fondateurs de start-ups : ce domaine connaîtra bientôt une concurrence plus féroce.

Seul le temps le dira

Google a un historique de discontinuation de produits et de non-respect de ses promesses. Pour plus d'informations, visitez Killed by Google. Bien que la dernière vitrine ait réussi à générer de l'engouement, chez CTOL.digital, nous valorisons la livraison réelle de produits apportant de la valeur aux utilisateurs. Seul le temps nous dira quand ces produits bénéficieront vraiment aux utilisateurs et comment.