DeepSeek lance Janus-Pro et JanusFlow, des avancées révolutionnaires en IA multimodale

Par
H Hao
5 min de lecture

DeepSeek dévoile Janus-Pro et JanusFlow : une nouvelle ère pour la compréhension et la génération multimodales de l'IA

DeepSeek repousse une fois de plus les limites de l'intelligence artificielle avec la sortie de deux modèles multimodaux visuels de pointe : Janus-Pro et JanusFlow. Ces modèles sont destinés à révolutionner le paysage de l'IA, offrant des capacités sans précédent en matière de compréhension et de génération multimodales. Lancés stratégiquement à la veille du Nouvel An chinois, ces innovations ont déjà suscité un enthousiasme et des discussions généralisés au sein de la communauté technologique, notamment sur des plateformes comme Twitter où des influenceurs de l'IA de premier plan ont partagé les nouvelles.

Janus-Pro : redéfinir la compréhension et la génération multimodales

Découplage du codage visuel pour des performances améliorées

Janus-Pro est une infrastructure unifiée conçue pour gérer les tâches de compréhension et de génération multimodales avec une efficacité remarquable. L'une de ses caractéristiques principales est le découplage du codage visuel, qui permet au modèle de traiter les tâches de compréhension et de génération indépendamment. Cette approche novatrice élimine les conflits fonctionnels qui surviennent souvent lorsqu'un seul encodeur est utilisé pour les deux tâches, améliorant ainsi les performances globales.

Architecture Transformer unifiée

Le modèle utilise une architecture Transformer unique pour gérer diverses tâches multimodales. Cela simplifie non seulement la conception, mais améliore également l'évolutivité. L'architecture unifiée garantit que Janus-Pro peut s'adapter facilement à diverses applications, de la réponse aux questions visuelles au légendage d'images.

Métric de performance exceptionnelles

Janus-Pro a démontré des performances supérieures sur plusieurs benchmarks. Par exemple, le modèle Janus-Pro-7B a surpassé DALL-E 3 et Stable Diffusion d'OpenAI dans les tests GenEval et DPG-Bench. Il a obtenu une précision globale impressionnante de 80 % sur GenEval, surpassant les 67 % de DALL-E 3 et les 74 % de Stable Diffusion 3 Medium. Sur DPG-Bench, il a obtenu un score de 84,19, établissant une nouvelle norme pour les tâches de suivi d'instructions texte-image.

Spécifications techniques

  • Encodeur visuel : Utilise SigLIP-L, prenant en charge les entrées de résolution 384x384 pour capturer des détails d'image complexes.
  • Module de génération : Utilise le tokeniseur LlamaGen avec un taux de sous-échantillonnage de 16, assurant une génération d'image plus fine.
  • Architecture de base : Construit sur DeepSeek-LLM-1.5b-base et DeepSeek-LLM-7b-base, fournissant une base solide pour son fonctionnement.

JanusFlow : simplifier l'intégration multimodale

Architecture innovante

JanusFlow introduit une architecture minimaliste mais puissante en intégrant Rectified Flow — une méthode de modèle génératif de pointe — avec des modèles linguistiques autorégressifs. Cette intégration permet un entraînement transparent au sein des infrastructures de grands modèles linguistiques sans nécessiter d'ajustements architecturaux complexes.

Génération d'images supérieure

Le modèle excelle dans la génération d'images de haute qualité, grâce à sa combinaison de Rectified Flow et de SDXL-VAE. Il prend en charge les sorties de résolution 384x384, ce qui le rend polyvalent pour diverses applications, de l'art numérique aux systèmes de vision en temps réel.

Flexibilité et évolutivité

JanusFlow est conçu pour être hautement flexible et évolutif, prenant en charge plusieurs tâches et extensions. Son architecture rationalisée en fait un excellent choix pour les chercheurs et les développeurs qui cherchent à repousser les limites de l'IA multimodale.

Spécifications techniques

  • Encodeur visuel : Utilise également SigLIP-L pour assurer une capture d'image détaillée.
  • Module de génération : Combine Rectified Flow avec SDXL-VAE pour une qualité d'image améliorée.
  • Architecture de base : Basé sur DeepSeek-LLM-1.3b-base, intégrant des points de contrôle EMA pré-entraînés et finement ajustés sous supervision pour des performances optimales.

Résumé des performances

Nom du modèleCompréhension multimodaleGénération d'imagesFlexibilité et évolutivité
Janus-ProSurpasse les modèles spécialisésHaute qualité, multi-scènesTrès flexible, design unifié
JanusFlowFusion efficace des modèles linguistiques et des flux génératifsHaute qualité, résolution 384x384Minimaliste, très flexible

Prise en main de Janus-Pro et JanusFlow

Les deux modèles sont désormais open source, permettant aux développeurs de les explorer et de les déployer dans diverses applications. Des tutoriels et des exemples détaillés sont disponibles dans les référentiels GitHub respectifs :

Approfondissement

Analyse des performances

Janus-Pro-7B a établi de nouvelles références en matière de compréhension multimodale et de génération d'images à partir de texte. Il a obtenu un score de 79,2 sur MMBench, surpassant des modèles plus importants comme TokenFlow-XL (13 milliards de paramètres) et MetaMorph. Sa précision de 80 % sur GenEval et son score de 84,19 sur DPG-Bench mettent en évidence ses capacités supérieures à gérer des tâches complexes.

Contributions uniques

  • Codage visuel découplé : Cette conception évite les conflits de tâches, améliorant à la fois la compréhension et la génération.
  • Stratégies d'entraînement optimisées : Une meilleure allocation des ressources et des données synthétiques de haute qualité ont considérablement amélioré les performances.
  • Évolutivité : Le modèle affiche des performances robustes de 1 milliard à 7 milliards de paramètres, indiquant son potentiel pour des applications plus larges.

Limitations et orientations futures

Bien que Janus-Pro excelle dans de nombreux domaines, des défis subsistent, tels que la résolution d'entrée limitée (384x384) et de légers déficits dans les détails fins. Ce sont des domaines à améliorer à l'avenir, mais ils n'enlèvent rien au succès global du modèle.

Impact sur le développement de l'IA

Janus-Pro et JanusFlow représentent des avancées significatives dans le domaine de l'IA, notamment dans des domaines comme la création de contenu, les systèmes de vision en temps réel et les agents conversationnels. Leur efficacité et leur évolutivité les rendent accessibles pour un large éventail d'applications, démocratisant potentiellement les technologies IA avancées.

Comparaison avec les modèles précédents

Si les modèles précédents de DeepSeek, R1 et V3, ont eu un impact, Janus-Pro et JanusFlow établissent de nouvelles normes en obtenant des résultats de pointe sur diverses tâches multimodales. Cela les positionne comme des avancées cruciales dans le portefeuille de DeepSeek et dans le paysage plus large de l'IA.

Conclusion

Janus-Pro et JanusFlow de DeepSeek ne sont pas de simples mises à jour incrémentales ; ce sont des modèles transformateurs qui redéfinissent ce qui est possible en matière d'IA multimodale. Grâce à leurs architectures innovantes, à leurs performances supérieures et à leur large applicabilité, ces modèles sont prêts à mener la prochaine vague d'avancées en IA. Alors que la course mondiale à l'IA s'intensifie, notamment entre la Chine et les États-Unis, les contributions de DeepSeek témoignent des prouesses croissantes de l'innovation chinoise en matière d'IA.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres