Le test d'IA de CoreWeave n'est pas juste une info, c'est un avertissement aux géants du cloud

La performance de CoreWeave en IA : bien plus qu'une simple nouvelle, un avertissement aux géants du cloud

Une avancée décisive ou un échec stratégique ?

CoreWeave vient de réaliser une performance record en inférence IA en utilisant les toutes dernières super puces GB200 Grace Blackwell de NVIDIA. En apparence, c'est impressionnant. Mais pour ceux qui suivent la course à l'armement de l'IA dans le cloud, c'est plus qu'une simple démonstration technique : c'est un signal stratégique. CoreWeave ne se contente pas de suivre le rythme des hyperscalers, il établit la référence.

Alors que les principaux fournisseurs de cloud se concentrent sur de grandes annonces, CoreWeave continue de se concentrer sur l'exécution. Et avec la publication de ses résultats MLPerf Inference v5.0, l'entreprise ne fait pas que rattraper son retard : elle oblige l'industrie à réévaluer ses priorités.

Ce que les chiffres signifient réellement

CoreWeave est désormais le premier fournisseur de cloud à publier les benchmarks MLPerf v5.0 en utilisant les puces GB200 de NVIDIA : une architecture qui associe deux GPU Blackwell et un CPU Grace, chaque GPU étant équipé de 192 Go de mémoire HBM3e.

Principaux points saillants des résultats :

800 tokens par seconde sur Llama 3.1 405B, l'un des plus grands LLM open source.
33 000 tokens par seconde sur Llama 2 70B, soit une augmentation de 40 % par rapport aux systèmes basés sur H100.
Amélioration des performances de 8 à 10 fois par rapport à un grand fournisseur de cloud sur le modèle GPT-J-6B d'EleutherAI.

Ce ne sont pas des chiffres marketing. Ils proviennent de MLPerf, la suite de benchmarks standard de l'industrie utilisée pour évaluer les performances ML réelles dans différents scénarios de déploiement. En d'autres termes, ce n'est pas de la théorie, c'est de la puissance prête à être déployée.

"Ces résultats de benchmark MLPerf renforcent la position de CoreWeave en tant que fournisseur de cloud préféré des principaux laboratoires d'IA et des entreprises", a déclaré Peter Salanki, CTO de CoreWeave.

Mais il ne s'agit pas seulement de puissance brute, il s'agit du poids stratégique que cette puissance confère.

Pourquoi c'est important au-delà de la vitesse

1. Efficacité à un nouveau niveau

L'inférence IA ne consiste pas seulement à être rapide, il s'agit de faire plus avec moins. Les 33 000 TPS de CoreWeave sur Llama 2 70B se traduisent par :

Un coût par inférence plus faible.
Une consommation d'énergie réduite par token.
Une densité plus élevée par rack de centre de données.

À une époque où les coûts de calcul et la consommation d'énergie deviennent des goulets d'étranglement, l'efficacité devient un avantage concurrentiel.

2. Cela résout le goulet d'étranglement le plus pressant de l'IA : la latence

La latence d'inférence est le talon d'Achille du déploiement moderne de l'IA, que ce soit pour les copilotes, les chatbots en temps réel ou les agents autonomes. Le bond en avant de CoreWeave s'attaque directement à ce problème. Une latence plus faible signifie une meilleure expérience utilisateur, une meilleure monétisation et une plus grande évolutivité.

3. Premier arrivé, premier servi

CoreWeave a été parmi les premiers avec les H100. Puis avec les H200. Maintenant, c'est le premier à proposer les clusters GB200 NVL72 en disponibilité générale. Dans un paysage où le GPU d'hier est déjà une vieille nouvelle, être le premier est plus qu'une question d'image, c'est un avantage à long terme.

Comment CoreWeave se positionne

Face aux hyperscalers traditionnels

AWS, Azure et Google Cloud ont des réseaux de clients plus importants et des portefeuilles de services plus larges. Mais ils sont plus lents à pivoter. CoreWeave est spécialement conçu pour l'inférence haute performance, plus léger, plus agile et plus spécialisé.

Face aux startups d'infrastructure IA

Des entreprises comme Lambda Labs et Crusoe ont des offres solides. Mais la position de leader répétée de CoreWeave en matière de benchmarks et son partenariat étroit avec NVIDIA lui confèrent un avantage en termes de vitesse et d'échelle.

Face aux fabricants de puces

Oui, les MI300X d'AMD et Gaudi 3 d'Intel font les gros titres. Mais l'architecture Blackwell de NVIDIA est aujourd'hui en tête en termes de performances, et CoreWeave est le chemin le plus rapide pour accéder à ces performances.

Ce que le marché néglige, et pourquoi c'est une erreur

L'inférence IA est la nouvelle frontière du cloud

La dernière décennie a été consacrée à l'entraînement de modèles géants. La prochaine décennie ? L'inférence à grande échelle. Les assistants en temps réel, les agents d'IA disponibles 24h/24 et 7j/7 et les copilotes interactifs exigent tous une inférence rapide, évolutive et efficace.

CoreWeave se positionne comme l'épine dorsale de cet avenir, au moment même où la demande d'infrastructure d'inférence explose.

CoreWeave est plus qu'un simple acteur technologique, c'est un atout stratégique

Les investisseurs devraient surveiller trois signaux clés :

La dépendance discrète de Microsoft à l'égard de CoreWeave pour prendre en charge les charges de travail d'OpenAI. Ce n'est pas seulement un accord de fournisseur, c'est une infrastructure stratégique.
L'intégration étroite avec NVIDIA, qui donne à CoreWeave un accès anticipé aux dernières générations de matériel.
Une valorisation de 23 milliards de dollars suite à une introduction en bourse de 1,5 milliard de dollars au prix de 40 dollars par action, alimentée par des revenus réels et une croissance opérationnelle, et non par du vent.

Quelles sont les prochaines étapes, et pourquoi cela pourrait remodeler le paysage du cloud IA ?

1. Une introduction en bourse qui pourrait réévaluer le marché

CoreWeave n'est pas seulement une licorne de plus. C'est maintenant une entreprise publique avec des benchmarks, des partenariats et une exécution pour étayer la valorisation. Si sa dynamique se poursuit, elle pourrait redéfinir la façon dont le marché valorise les acteurs de l'infrastructure IA.

2. Une leçon de spécialisation

Dans un monde de généralistes, CoreWeave prouve que la spécialisation profonde est payante. Sa concentration sur l'inférence IA, plutôt que sur les services cloud généraux, lui permet d'agir plus rapidement et d'optimiser plus en profondeur que les plateformes plus larges.

3. Un changement de pouvoir en cours

Si les hyperscalers ne peuvent pas suivre le rythme de CoreWeave, ils pourraient être contraints de sous-traiter davantage de charges de travail d'inférence. Cela fait passer CoreWeave de fournisseur de niche à épine dorsale de l'infrastructure critique, que les acteurs en place l'apprécient ou non.

Une ligne de démarcation

Les résultats MLPerf v5.0 de CoreWeave sont plus qu'impressionnants, ils sont une déclaration d'intention :

"Nous ne nous contentons pas de jouer dans le jeu de l'infrastructure IA. Nous avons l'intention de le diriger."

Pour les investisseurs et les observateurs de l'industrie, voici ce qu'il faut retenir :

Un acteur hautement spécialisé et en croissance rapide dans la partie la plus critique de la pile IA.
Soutenu par NVIDIA, vérifié par des benchmarks et déjà partenaire des plus grands noms de l'IA.
Positionné non seulement pour la croissance, mais aussi pour le leadership.

CoreWeave a battu le record. La vraie question est : qui peut rattraper son retard, et combien de temps cela prendra-t-il ?