Le modèle IA open-source CogView4 établit une nouvelle référence pour la génération de texte à image

CogView4 : Le modèle d’IA Open Source qui redéfinit la génération de texte en image

Un tournant décisif dans les visuels générés par l’IA

Marquant une avancée majeure dans le domaine de l’imagerie générée par l’IA, la licorne de l’IA Zhipu AI, basée à Pékin, a officiellement publié et mis en open source CogView4, la dernière version de son modèle de génération de texte en image. Doté de 6 milliards de paramètres, d’une prise en charge du texte bilingue et de performances de pointe selon les critères de référence du secteur, CogView4 représente un bond en avant significatif dans la génération d’images pilotée par l’IA.

Surtout, il s’agit également du premier modèle chinois de génération de texte en image mis en open source sous la licence Apache 2.0, donnant aux développeurs du monde entier accès à un outil de pointe sans les restrictions des alternatives propriétaires comme DALL-E 3 d’OpenAI ou l’écosystème basé sur un abonnement de MidJourney.

Qu’est-ce qui différencie CogView4 ?

1. Alignement sémantique avancé et respect des instructions

CogView4 démontre un niveau élevé de compréhension et d’alignement sémantiques, lui permettant de générer des images qui adhèrent étroitement à des invites textuelles complexes. Contrairement aux modèles antérieurs qui avaient du mal avec les instructions nuancées, CogView4 est optimisé pour suivre les commandes avec une grande précision, ce qui en fait un atout puissant pour les professionnels de la publicité, du design et de la création de contenu numérique.

2. Prise en charge bilingue native (chinois et anglais)

L’une de ses caractéristiques les plus distinctives est la prise en charge bilingue native. Alors que de nombreux modèles open source s’adressent principalement aux entrées en anglais, CogView4 comprend efficacement les invites en chinois et en anglais, ce qui le rend particulièrement précieux pour les entreprises et les créateurs travaillant sur des marchés multilingues.

3. Résolution plus élevée et invites plus longues

Avec une prise en charge des résolutions d’image jusqu’à 2048 x 2048 pixels, CogView4 offre l’une des sorties de la plus haute qualité parmi les modèles open source. De plus, sa limite de longueur d’invite a été étendue à 1 024 tokens (contre 224 tokens dans les versions précédentes), permettant aux utilisateurs de saisir des descriptions plus complexes et détaillées pour la génération d’images.

4. Écosystème ouvert et licence Apache 2.0

Contrairement à DALL-E 3, qui reste en source fermée, CogView4 est disponible sous une licence open source Apache 2.0. Cela signifie que les développeurs peuvent librement modifier, intégrer et distribuer le modèle, encourageant une adoption plus large dans la recherche en IA et les applications commerciales.

La feuille de route de développement comprend également l’intégration avec ControlNet, ComfyUI et des kits d’outils de réglage fin supplémentaires, ce qui élargira les options de personnalisation pour les développeurs.

Performance de référence : En tête du peloton open source

1. N° 1 au classement sur DPG-Bench

CogView4-6B est classé n° 1 sur DPG-Bench, un critère de référence conçu pour tester les modèles d’IA sur l’alignement sémantique et le respect des instructions. Il surpasse d’autres modèles de premier plan, notamment Stable Diffusion XL et PixArt-alpha, en générant des images qui correspondent étroitement à des invites textuelles complexes.

2. Performance compétitive selon différentes mesures

Au-delà de DPG-Bench, CogView4 offre également de solides performances sur GenEval, T2I-CompBench et Chinese Text Accuracy Evaluation, démontrant sa robustesse dans :

Le comptage d’objets et le raisonnement spatial
L’attribution et le positionnement des couleurs
L’interaction multi-objets
Le rendu des caractères chinois

Modèle	Score DPG-Bench	Score GenEval	Score T2I-CompBench
CogView4-6B	85,13	0,73	0,78
SD3-Medium	84,08	0,74	0,81
DALL-E 3	83,50	0,67	0,77
Janus-Pro-7B	84,19	0,80	0,51

Défis et considérations pour les investisseurs

1. Coûts de calcul élevés et accessibilité limitée

CogView4 exige du matériel haut de gamme pour fonctionner efficacement. Avec des exigences minimales en matière de GPU d’A100 ou de RTX 4090 avec 40 Go de VRAM, ou au moins 32 Go de RAM avec déchargement du CPU, le modèle est actuellement optimisé pour une utilisation en entreprise et à des fins de recherche plutôt que pour des applications grand public.

🧐 Point de vue de l’investisseur : Sans optimisations légères, il est peu probable que CogView4 perturbe les outils d’art d’IA conviviaux tels que Stable Diffusion, qui peuvent fonctionner sur des GPU avec aussi peu que 8 Go de VRAM. L’adoption par les entreprises sera le principal marché de la monétisation.

2. Manque d’outils de réglage fin open source

Bien que CogView4 soit open source, il ne prend pas encore en charge les méthodes de réglage fin largement utilisées comme DreamBooth ou les adaptateurs LoRA, ce qui limite la personnalisation pour les secteurs qui exigent des visuels générés par l’IA hautement spécialisés (par exemple, contenu de marque, avatars personnalisés).

🧐 Point de vue de l’investisseur : Si Zhipu AI introduit des outils de réglage fin, cela pourrait augmenter considérablement l’adoption parmi les start-up et les agences de création. D’ici là, les modèles propriétaires dotés de solides fonctionnalités de personnalisation resteront compétitifs.

3. Avantage concurrentiel par rapport aux géants à source fermée

La plus grande force de CogView4 réside dans sa nature open source. DALL-E 3 restant en source fermée et MidJourney fonctionnant sur un modèle d’abonnement, CogView4 pourrait attirer les développeurs du monde entier à la recherche d’une alternative de haute qualité et gratuite.

🧐 Point de vue de l’investisseur : L’avantage de l’open source pourrait stimuler la recherche et l’adoption de l’IA à l’échelle mondiale, en particulier en Chine et dans les marchés émergents où les outils d’IA propriétaires sont confrontés à des obstacles réglementaires et de coût.

Une initiative forte dans l’innovation de l’IA open source

CogView4 représente une avancée significative dans l’IA de génération de texte en image, combinant des capacités de pointe avec la liberté d’une licence open source. Bien que ses difficultés d’accessibilité puissent limiter son adoption généralisée à court terme, sa prise en charge bilingue, sa haute résolution et ses performances de pointe en font un modèle à surveiller.

Pour les investisseurs, les principales questions seront les suivantes :

Zhipu AI introduira-t-il des capacités de réglage fin ?
Peuvent-ils réduire les exigences de calcul pour atteindre des marchés plus larges ?
Comment les concurrents de l’IA propriétaires vont-ils réagir ?

Alors que l’espace de l’image générée par l’IA évolue, CogView4 se présente à la fois comme une percée technologique et un défi au statu quo des modèles à source fermée. Son succès dépendra de sa capacité à combler le fossé entre l’accessibilité aux entreprises et aux consommateurs.