Révolutionnant l'IA : le Cambrian-1 d'NYU présente des modèles de langage multimodaux axés sur la vision pour la maîtrise du monde réel
Cambrian-1 : Une approche centrée sur la vision pour révolutionner les systèmes de langage multimodaux de grande envergure
Des chercheurs de l'Université de New York ont présenté Cambrian-1, une famille novatrice de systèmes de langage multimodaux de grande envergure (MLLMs) qui privilégient une approche centrée sur la vision. Sous la direction de Shengbang Tong, Ellis Brown, Penghao Wu et d'une équipe d'experts, ce projet vise à combler l'écart entre les modèles linguistiques et l'apprentissage de la représentation visuelle. La sortie, intervenue le 24 juin 2024, inclut les poids des modèles, le code open-source, les bases de données et des recettes détaillées pour la formation et l'évaluation des modèles. Cambrian-1 cherche à améliorer les capacités des MLLMs dans les scénarios du monde réel en se concentrant sur le ancrage sensoriel grâce à des techniques avancées d'apprentissage de la représentation visuelle.
Points clés à retenir
- Conception centrée sur la vision : Cambrian-1 accorde la priorité aux composants de vision dans les MLLMs, en comblant l'écart entre les modèles linguistiques et l'apprentissage de la représentation visuelle.
- Banc d'essai complet : Introduction de CV-Bench, un banc d'essai centré sur la vision qui évalue la compréhension 2D et 3D des MLLMs.
- Connecteur avancé : L'agrégateur de vision spatiale (SVA) intègre dynamiquement de manière transparente les caractéristiques haute résolution de la vision avec les LLMs, améliorant le ancrage visuel tout en réduisant le nombre de jetons.
- Curatelle de données de haute qualité : Emphase sur l'équilibrage et la curation de données de mise en instruction de haute qualité à partir de sources publiques.
Analyse
Cambrian-1 représente un changement important dans la conception et l'évaluation des MLLMs en se concentrant sur une approche centrée sur la vision. Traditionnellement, l'intégration de la vision et des modèles linguistiques a été entravée par un manque d'études exhaustives sur l'apprentissage de la représentation visuelle. Cambrian-1 résout ce problème en évaluant plus de 20 encodeurs de vision par le biais de divers montages expérimentaux, y compris les modèles entièrement supervisés, les modèles faiblement supervisés et les modèles hybrides.
L'introduction de CV-Bench résout les limites des bancs d'essai existants en transformant les tâches traditionnelles de vision en formats de questionnement en langage naturel (VLQ). Cette approche offre un protocole d'évaluation robuste pour les MLLMs, en veillant à ce que les modèles soient testés sur divers défis de parception trouvés dans des scénarios du monde réel.
En outre, l'agrégateur de vision spatiale (SVA) améliore l'intégration des caractéristiques de vision avec les LLMs. En maintenant des informations visuelles haute résolution et en réduisant le nombre de jetons, SVA veille à ce que les modèles conservent des détails visuels cruciaux, ce qui améliore leurs performances sur les tâches nécessitant un ancrage visuel fort.
Pour soutenir ces avancées, Cambrian-1 inclut un jeu de données bien conçu, Cambrian-10M, qui équilibre les sources de données et ajuste les rapports de distribution. Ce jeu de données soigneusement conçu joue un rôle déterminant dans la mise au point, en permettant aux modèles de se comporter mieux sur diverses tâches en atténuant les problèmes tels que le phénomène de la machine à réponse, où les modèles fournissent des réponses trop concises.
Saviez-vous que
- L'explosion cambrienne, qui a inspiré le nom Cambrian-1, était une période il y a environ 541 millions d'années lorsque la plupart des embranchements majeurs des phyla sont apparus. Cela souligne l'importance de la vision dans le progrès évolutif, tout comme Cambrian-1 met l'accent sur la vision pour faire progresser les MLLMs.
- Le projet fournit des ressources open-source, y compris les poids des modèles et les recettes de formation détaillées, sur des platesformes telles que GitHub et Hugging Face, favorisant un environnement de recherche collaboratif.
- L'agrégateur de vision spatiale (SVA) non seulement réduit le nombre de jetons mais maintient également la structure spatiale, permettant aux modèles de mieux comprendre les scènes visuelles complexes.
Cambrian-1 marque une étape importante dans le domaine de l'apprentissage multimodal, offrant une approche complète et open-source pour améliorer la représentation visuelle dans les grands modèles linguistiques. Cette initiative non seulement définit une nouvelle norme pour le développement des MLLMs mais également ouvre également la voie à de futures avancées dans les systèmes multimodaux et l'apprentissage de la représentation visuelle.