DeepGEMM : La bibliothèque open source qui révolutionne l'économie du calcul de l'IA
Troisième publication open source de DeepSeek en une semaine : Ce que vous devez savoir
Dans une démarche audacieuse visant à repousser les limites de l'efficacité de l'IA, DeepSeek a publié son troisième projet open source cette semaine : DeepGEMM, une bibliothèque de multiplication matricielle légère mais très performante, conçue pour la précision FP8. Cette publication fait suite aux dévoilements précédents de la société, FlashMLA et DeepEP, renforçant ainsi son engagement envers l'innovation ouverte dans l'infrastructure de l'IA.
DeepGEMM est optimisé pour les GPU Hopper de NVIDIA, un élément clé pour les charges de travail d'IA de nouvelle génération. Il prend en charge à la fois les multiplications matricielles générales denses standard et les GEMM groupés Mix-of-Experts, ce qui en fait un outil essentiel pour accélérer l'inférence et la formation dans les modèles d'IA à grande échelle.
Pourquoi DeepGEMM est important
1. FP8 : La prochaine frontière de l'efficacité de l'IA
DeepGEMM est conçu pour l'arithmétique de précision FP8, une avancée majeure dans l'efficacité du calcul de l'IA. Les charges de travail d'IA traditionnelles reposent principalement sur FP16 et BF16, mais FP8 offre un débit plus élevé et une utilisation réduite de la bande passante mémoire, ce qui le rend idéal pour la mise à l'échelle de modèles d'IA massifs.
Cependant, FP8 présente un défi inhérent : une précision numérique plus faible. DeepGEMM résout ce problème en introduisant l'accumulation à deux niveaux du cœur CUDA, ce qui atténue la perte de précision tout en conservant les avantages de vitesse de FP8. Cette innovation permet à DeepGEMM d'égaler ou de dépasser les benchmarks de performance établis par des bibliothèques standard de l'industrie telles que CUTLASS, tout en réduisant considérablement les frais de calcul.
2. Haute performance avec une complexité minimale
Contrairement à de nombreuses bibliothèques de calcul d'IA qui reposent sur des modèles profondément imbriqués et une abstraction excessive, DeepGEMM est simple et efficace de par sa conception. L'implémentation de base ne comprend qu'environ 300 lignes de code CUDA, ce qui la rend non seulement hautement optimisée, mais également facile à comprendre et à modifier.
3. Conçu pour la compilation juste-à-temps
DeepGEMM évite le besoin de compilation traditionnelle en tirant parti de la compilation JIT. Cela signifie qu'aucune pré-compilation n'est requise lors de l'installation, ce qui permet aux noyaux d'être compilés au moment de l'exécution. Cette approche permet une optimisation dynamique basée sur des configurations matérielles spécifiques, assurant une efficacité maximale.
4. Optimisation MoE pour les modèles d'IA de nouvelle génération
Les architectures MoE sont de plus en plus populaires dans l'IA en raison de leur capacité à évoluer efficacement tout en maintenant la rentabilité. DeepGEMM est uniquement optimisé pour les modèles MoE en implémentant :
- Les GEMM groupés contigus, où les séquences de jetons sont regroupées pour un traitement optimal.
- Les GEMM groupés masqués, permettant un calcul efficace même lorsque les activations d'experts sont rares.
Ces optimisations rendent les modèles d'IA de DeepSeek-V3 considérablement plus rapides et plus rentables, établissant ainsi une nouvelle référence en matière de performances de calcul MoE.
Analyse comparative des performances
DeepSeek a testé DeepGEMM sur une variété de tailles de matrices et de charges de travail sur le GPU NVIDIA H800 SXM5. Les résultats sont convaincants :
- Accélérations allant jusqu'à 2,7 fois par rapport aux implémentations précédentes.
- TFLOPS (Tera Floating Point Operations per Second) constamment élevés sur diverses formes de matrices.
- Utilisation supérieure de la bande passante mémoire, assurant une allocation efficace des ressources GPU.
Bien que DeepGEMM excelle dans la plupart des cas, certaines formes de matrices montrent une marge d'optimisation supplémentaire, et DeepSeek a invité les développeurs à contribuer à des améliorations via GitHub.
Implications stratégiques et commerciales
1. DeepSeek force un effondrement des prix des API d'IA
DeepSeek a anéanti les normes de tarification. Les tarifs d'API de DeepSeek sont 1/10 du prix des équivalents d'OpenAI, une décision qui a déjà déclenché la panique parmi les fournisseurs de services d'IA. Il ne s'agit pas seulement d'abordabilité ; il s'agit de redéfinir les attentes du marché.
Si les gains d'efficacité du modèle de DeepSeek se poursuivent, les fournisseurs d'infrastructure d'IA seront confrontés à une guerre des prix brutale, à l'image de la fameuse course vers le bas du secteur de l'informatique en nuage. OpenAI, Anthropic et Cohere n'ont d'autre choix que d'égaler les prix ou de justifier leurs offres premium par une valeur inégalée, ce qui, à ce stade, semble de plus en plus difficile.
2. Le monopole de NVIDIA est renforcé, légèrement
L'accent mis par DeepGEMM sur les GPU Hopper renforce la position de NVIDIA dans le domaine du calcul d'IA haute performance, mais les implications sont doubles. D'une part, ces optimisations rendent le matériel NVIDIA plus attrayant en abaissant le coût total des opérations d'IA, incitant davantage d'acteurs à choisir son écosystème. D'autre part, une efficacité accrue signifie que chaque acteur peut avoir besoin de moins de GPU au total, ce qui pourrait réduire la demande globale de matériel NVIDIA à long terme. Si DeepSeek et d'autres acteurs similaires veulent contester la domination de NVIDIA, ils pourraient encore avoir besoin d'étendre la prise en charge des accélérateurs AMD MI300 et Intel Gaudi pour créer un paysage plus concurrentiel.
3. Les modèles MoE sont l'avenir, et DeepSeek le sait
La poussée agressive de DeepSeek vers le calcul optimisé pour MoE signale un changement dans l'industrie. Les architectures existantes seront bientôt considérées comme des reliques inefficaces, car les modèles MoE permettent une mise à l'échelle avec des coûts de calcul considérablement inférieurs. Toute entreprise d'IA qui ne s'adapte pas risque l'obsolescence.
DeepSeek parie clairement sur la domination de MoE, et son leadership précoce dans l'optimisation des charges de travail MoE signifie que les concurrents pourraient avoir du mal à rattraper leur retard. Attendez-vous à ce que les principaux laboratoires d'IA se bousculent pour de meilleures implémentations MoE au cours des 12 prochains mois.
Perspectives d'avenir : Quelle est la prochaine étape pour le calcul de l'IA ?
DeepGEMM n'est pas qu'une simple bibliothèque : il représente un changement philosophique dans l'efficacité du calcul de l'IA. Avec DeepSeek optimisant systématiquement tous les aspects de l'infrastructure de l'IA, l'industrie se dirige vers des modèles d'IA ultra-efficaces et à faible coût.
Quelques tendances clés à surveiller :
- Adoption élargie de FP8 : Alors que DeepGEMM établit un précédent, de plus en plus de cadres d'IA pourraient intégrer FP8 comme norme.
- Autres contributions open source : La communauté pourrait étendre les optimisations de DeepGEMM à d'autres architectures au-delà de NVIDIA Hopper.
- Démocratisation du calcul de l'IA : Si les optimisations de DeepSeek se poursuivent, l'exécution de modèles d'IA à grande échelle pourrait devenir abordable pour les moyennes entreprises et les startups, brisant ainsi la domination des géants de la technologie.
Dernières réflexions
La publication de DeepGEMM est plus qu'une simple étape technique : c'est une décision stratégique avec des implications à l'échelle de l'industrie. En rendant le calcul de l'IA plus efficace, plus rentable et plus accessible, DeepSeek remodèle le paysage concurrentiel de la recherche et du déploiement de l'IA.
La vraie question maintenant est : Comment OpenAI, NVIDIA et les autres géants de l'IA vont-ils riposter ? S'ils ne parviennent pas à s'adapter, DeepSeek pourrait ne pas être qu'un simple outsider : il pourrait redéfinir l'économie de l'IA elle-même.