Rapport technique Wan : La centrale open source d’Alibaba pour la génération de vidéos par IA

Par
CTOL Editors - Ken
8 min de lecture

Wan : Le géant open source d’Alibaba pour la création de vidéos IA

Début 2024, Sora d’OpenAI a illuminé le monde de l’IA en créant des vidéos avec un niveau de réalisme autrefois réservé à Hollywood. Bien qu’impressionnants, les modèles comme Sora sont verrouillés et ne sont pas accessibles, ce qui laisse la communauté open source se démener pour rattraper son retard. Cela change aujourd’hui.

Wan, développé par Alibaba Group, est une suite open source révolutionnaire de modèles fondamentaux de vidéos. Conçu pour combler le fossé entre les générateurs de vidéos de qualité commerciale et le monde open source, Wan n’est pas seulement une réussite technique, mais aussi une déclaration d’intention. Avec des performances concurrentielles, une vaste gamme d’applications et une efficacité surprenante (même sur les GPU grand public), Wan redéfinit ce qui est possible avec les modèles génératifs ouverts.


Bris de la chaîne : Pourquoi Wan devait être créé

La création de vidéos a évolué rapidement, mais des défis majeurs limitent encore l’utilisation et l’innovation généralisées. La plupart des modèles open source sont toujours bloqués dans des tâches étroites comme la création basique de texte en vidéo et ont du mal avec les mouvements haute fidélité, la prise en charge multilingue ou le déploiement efficace. Pendant ce temps, les modèles commerciaux font des progrès considérables, soutenus par d’immenses capacités de calcul et de données privées.

Wan a été créé pour résoudre ce déséquilibre. Il est conçu pour être ouvert, évolutif et, surtout, capable de générer des vidéos dynamiques, ancrées et nuancées. Imaginez de la neige tourbillonnante, des panneaux lisibles en chinois et en anglais, et des mouvements de caméra qui ont du sens dans l’espace physique. Tout cela est soutenu par une suite de modèles reproductible, modulaire et conçue pour l’évolution.


Ingénierie du cœur : Au cœur de l’architecture nouvelle génération de Wan

Au cœur de Wan se trouve une architecture hautement optimisée composée de trois composants principaux : un VAE spatio-temporel, un transformateur de diffusion et un encodeur de texte multilingue. Chaque partie a été conçue non seulement pour la performance, mais aussi pour la convivialité dans les tâches du monde réel.

Le Wan-VAE est responsable de la compression des vidéos dans le temps et l’espace. Il s’agit d’un auto-encodeur variationnel causal 3D qui réduit le volume de données vidéo de plus de 250 fois tout en conservant les détails des mouvements précis. Grâce à des convolutions causales et à un mécanisme intelligent de cache de fonctionnalités, il permet un traitement efficace des vidéos longues, ce qui est un problème pour la plupart des modèles vidéo.

Le transformateur de diffusion, un modèle de transformateur pur conçu pour traiter ces fonctionnalités latentes compressées, complète cela. Il utilise une attention spatio-temporelle complète pour raisonner à la fois sur la séquence et la disposition du contenu vidéo. Ce qui est impressionnant ici, c’est l’utilisation du Flow Matching, une nouvelle méthode d’entraînement qui évite la prédiction itérative du bruit au profit d’une modélisation ODE plus stable et mathématiquement fondée.

Pour interpréter les invites de l’utilisateur et guider la création, Wan utilise umT5, un encodeur de texte multilingue. Il est capable de gérer des instructions complexes et descriptives en anglais et en chinois, ce qui garantit que le modèle ne se contente pas de créer des vidéos, mais qu’il suit les instructions.

Architecture Wan
Architecture Wan


L’épine dorsale des données : Comment Wan a été entraîné sur des billions de jetons

Un modèle n’est aussi bon que les données sur lesquelles il est entraîné, et le pipeline de données de Wan est un chef-d’œuvre d’ingénierie de jeux de données moderne. Plus de milliards d’images et de vidéos ont été organisées, nettoyées et enrichies pour entraîner ce modèle.

Le processus a commencé par un filtrage à grande échelle, supprimant le contenu filigrané, le contenu réservé aux adultes, les séquences trop floues et les clips basse résolution. Mais Wan est allé plus loin. Il a introduit un classificateur de qualité de mouvement pour hiérarchiser les vidéos avec des mouvements fluides et expressifs et un rapport mouvement/statique équilibré. Parallèlement, un pipeline de texte visuel a traité des exemples de texte dans l’image synthétiques et réels, ce qui a amélioré la capacité de Wan à rendre le texte à l’écran de manière lisible et précise.

Pour donner au modèle une compréhension plus approfondie de ce qui se passe dans chaque image, Alibaba a créé son propre système de légende dense, entraîné pour rivaliser même avec Gemini 1.5 Pro de Google. Ce système étiquette des éléments tels que l’angle de la caméra, le nombre d’objets, les types de mouvement, les catégories de scènes, et plus encore, créant ainsi un ensemble de données d’entraînement richement annoté pour les tâches en aval telles que le montage et la personnalisation.


Grands modèles, petits empreintes : Découvrez Wan 1.3B et 14B

Wan est disponible en deux versions : le modèle de 1,3 milliard de paramètres et le modèle phare plus puissant de 14 milliards de paramètres. Les deux sont capables de produire des vidéos haute résolution jusqu’à 480p, et les deux partagent la même architecture robuste.

La vraie surprise ? Le modèle 1.3B est conçu pour fonctionner sur des GPU grand public avec seulement 8,19 Go de VRAM. Cela change la donne. Cela signifie que les artistes, les développeurs et les petits studios peuvent accéder à une création vidéo de haute qualité sans avoir besoin d’un rack d’A100.

Le modèle 14B, en revanche, est conçu pour repousser les limites. Entraîné sur des billions de jetons, il excelle dans la cohérence vidéo longue durée, le mouvement réaliste et le suivi d’invites textuelles complexes. Qu’il s’agisse de créer des scènes naturelles ou des animations stylisées, le modèle 14B prouve que l’open source peut être compétitif à la pointe de la technologie.


Face-à-face : Comment Wan se comporte face à la concurrence

Dans les évaluations comparatives et les tests de préférence humaine en face-à-face, Wan arrive toujours en tête. Il bat non seulement les modèles open source tels que Mochi et HunyuanVideo, mais rivalise également favorablement avec les poids lourds commerciaux tels que Runway Gen-3.

Il ne s’agit pas seulement de qualité, mais aussi de contrôle. Wan permet un mouvement de caméra précis, un rendu de texte visuel, un suivi des invites et une diversité de style, autant de domaines où les modèles précédents avaient du mal ou nécessitaient un réglage manuel.

De plus, dans les études d’ablation, l’équipe de Wan a montré que sa fonction de perte de correspondance de flux et sa stratégie de légende dense étaient essentielles pour atteindre un alignement et une cohérence aussi forts. Cela rend Wan non seulement bon, mais fondé sur des principes, une suite de modèles où chaque choix de conception est validé et optimisé.

Scores de performance du modèle sur Vbench.

Nom du modèleScore de qualitéScore sémantiqueScore total
MiniMax-Video-01 (MiniMax, 2024.09)84,85 %77,65 %83,41 %
Hunyuan (Version open source) (Kong et al., 2024)85,09 %75,82 %83,24 %
Gen-3 (2024-07) (Runway, 2024.06)84,11 %75,17 %82,32 %
CogVideoX1.5-5B (5s SAT prompt-optimized) (Yang et al., 2025b)82,78 %79,76 %82,17 %
Kling (mode haute performance 2024-07) (Kuaishou, 2024.06)83,39 %75,68 %81,85 %
Sora (OpenAI, 2024)85,51 %79,35 %84,28 %
Wan 1.3B84,92 %80,10 %83,96 %
Wan 14B (2025-02-24)86,67 %84,44 %86,22 %

Vitesse, échelle et efficacité : Un modèle que vous pouvez réellement utiliser

L’efficacité de l’entraînement et de l’inférence est ce qui fait briller encore plus Wan. Pendant l’entraînement, Alibaba utilise un système sophistiqué de parallélisme de contexte 2D (Ulysses + Ring Attention), réduisant ainsi la surcharge de communication entre les GPU. Pendant l’inférence, ils ont introduit la mise en cache de la diffusion, exploitant les similitudes entre les étapes d’échantillonnage pour accélérer les choses.

Combiné à la quantification FP8 et au déchargement de l’activation, Wan atteint des vitesses de création en temps réel ou quasi réel. Résultat : une accélération de 1,62 fois par rapport aux modèles traditionnels, sans perte perceptible de la qualité vidéo.

Améliorations de la latence de Wan
Améliorations de la latence de Wan


Plus que du simple texte en vidéo : Des applications réelles, dès maintenant

Wan ne se limite pas à une seule tâche, c’est une plateforme. Il prend en charge une gamme complète de tâches vidéo multimodales, notamment :

  • Image en vidéo : Transformez une seule image en une scène dynamique.
  • Montage vidéo pédagogique : Modifiez des clips à l’aide de commandes en langage naturel.
  • Création personnalisée : Personnalisation sans exemple pour les avatars ou le contenu de marque.
  • Contrôle de la caméra : Ajustez le zoom, le panoramique ou le point de vue à l’aide de texte.
  • Création vidéo en temps réel : Grâce à la mise en cache intelligente et aux modèles légers.
  • Création audio : Son synchronisé pour accompagner les visuels créés.

Que vous soyez cinéaste, enseignant, annonceur ou développeur de jeux, Wan peut s’adapter à vos besoins.


La situation dans son ensemble : Ce que Wan signifie pour la recherche et l’industrie

D’un point de vue académique, Wan est un trésor. Avec un code ouvert, des poids ouverts et des méthodologies d’entraînement transparentes, il établit une nouvelle norme de reproductibilité dans la communauté de création vidéo. Les chercheurs peuvent s’appuyer sur ses modules, exécuter des évaluations et affiner le système pour de nouveaux domaines.

Sur le plan commercial, Wan ouvre la porte à une création de contenu rentable et de haute qualité. Vidéos marketing, explications pédagogiques, clips de médias sociaux, ceux-ci peuvent désormais être créés à grande échelle sans payer de frais par image aux API de la boîte noire. Il offre aux créateurs, aux startups et aux entreprises un avantage concurrentiel important.


Et après : La voie à suivre pour Wan

Wan est déjà l’un des modèles de création vidéo les plus performants disponibles, mais sa feuille de route ne fait que commencer. L’équipe prévoit de passer à la création 1080p et 4K, d’intégrer la conscience 3D et d’étendre la prise en charge multilingue pour une plus grande accessibilité mondiale.

Ils travaillent également sur la narration interactive, où les modèles créent des vidéos en fonction des commentaires des utilisateurs en temps réel, et sur des adaptateurs plug-and-play pour des secteurs verticaux comme la santé, l’éducation et les jeux.


Où l’essayer

Tout est disponible dès maintenant :

Que vous soyez chercheur, artiste, startup ou simplement curieux, Wan est ouvert et prêt.


En résumé

Wan est la suite open source de création vidéo la plus puissante à ce jour. Avec une architecture de pointe, un entraînement rigoureux et une large accessibilité, il ne se contente pas de rivaliser avec les modèles fermés, il établit une nouvelle référence pour ce que l’IA ouverte peut accomplir.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales