Revue technique de l'article DeepSeek-R1 : Redéfinir l'IA du raisonnement

1. Introduction et impressions générales

DeepSeek-R1 a suscité un intérêt considérable grâce à sa nouvelle approche de l'entraînement des grands modèles de langage (LLM). Comparé à son prédécesseur, DeepSeek-V3, ce nouveau travail met l'accent sur un style « plus simple et plus élégant » dans sa conception expérimentale et théorique.

Lors de l'évaluation de DeepSeek-R1, de nombreux chercheurs ont été rappelés de l'évolution d'AlphaGo, notamment en raison du processus d'entraînement R1-Zero → R1. DeepSeek-R1 se distingue par ses hautes performances sur divers benchmarks exigeants, surpassant même ou égalant des modèles de premier plan tels qu'OpenAI-o1-1217. De plus, une version distillée de 32 milliards de paramètres (DeepSeek-R1-32B) a donné des résultats impressionnants, rivalisant avec OpenAI-o1-mini.

Globalement, DeepSeek-R1 montre qu'il est possible d'obtenir une forte capacité de raisonnement sans recourir à un ajustement fin supervisé (SFT) massif au départ. Le modèle utilise plutôt une combinaison d'apprentissage par renforcement (RL) avec une approche SFT légère, plus un modèle de récompense basé sur des règles qui contourne certains des pièges de la modélisation de récompense conventionnelle.

2. Conception de la récompense : s'éloigner des modèles PRM et ORM

2.1 Pourquoi une récompense basée sur des règles ?

Les auteurs ont opté pour des récompenses basées sur des règles plutôt qu'un modèle de récompense paramétré (PRM). Leurs principaux arguments sont :

L'étiquetage granulaire des étapes est difficile Dans les tâches de raisonnement général, il est difficile de définir des critères clairs et précis pour chaque étape intermédiaire.
Coût et précision de l'étiquetage L'automatisation de la génération d'étiquettes est généralement médiocre, tandis que l'annotation manuelle est trop coûteuse pour être mise à l'échelle.
Éviter le « reward hacking » Lorsque la fonction de récompense est elle-même modélisée par un système d'apprentissage automatique (PRM), le modèle peut apprendre à manipuler ou à exploiter cette récompense (reward hacking). Le réentraînement continu d'un PRM augmente également la complexité et les besoins en ressources.

Par conséquent, DeepSeek-R1 utilise des signaux directs basés sur des règles, en particulier dans les tâches mathématiques ou de programmation, en comparant les réponses finales aux vérités terrain ou en utilisant la compilation et des cas de test pour vérifier l'exactitude. Ils intègrent également des règles pour vérifier le format de sortie (par exemple, si le raisonnement est inclus entre les balises <think>...</think>) et la cohérence linguistique.

2.2 Abandon des récompenses de sortie basées sur le modèle (ORM)

DeepSeek-R1 abandonne même une approche alternative « ORM » — où un modèle distinct juge ou note les sorties — en raison de préoccupations similaires concernant les hallucinations, le « reward hacking » potentiel et l'instabilité. Malgré les avantages des méthodes de « récompense dense » dans certaines tâches, l'équipe privilégie la simplicité, la stabilité et la robustesse offertes par une approche purement basée sur des règles.

3. Stratégie d'entraînement : de « zéro » à un processus multi-étapes

L'entraînement de DeepSeek-R1 peut être décomposé en phases distinctes :

DeepSeek-R1-Zero
- Point de départ : Prendre DeepSeek-V3-Base (ou un modèle de base pré-entraîné similaire) et appliquer directement le RL, sans aucun SFT initial.
- Méthode : Utiliser une récompense basée sur des règles combinée à l'algorithme GRPO (Generalized Rejection Policy Optimization).
- Objectif : Maximiser l'exactitude des tâches mathématiques/de programmation et garantir le respect de certaines règles de formatage.
- Résultats :
  - Les sorties du modèle deviennent plus longues au cours de l'entraînement, montrant des signes précoces d'introspection ou d'autoréflexion dans ses réponses.
  - Cependant, le texte peut être difficile à lire, et il y a un certain mélange de langues.
Transition vers DeepSeek-R1 complet
- Bien que R1-Zero améliore avec succès les performances de raisonnement, il a encore du mal avec la lisibilité et la cohérence linguistique.
- L'équipe ajoute ensuite une petite quantité de données de haute qualité pour effectuer un SFT, améliorant ainsi la clarté et la cohérence globales. Après ce démarrage à froid SFT, ils reprennent le RL pour améliorer encore les performances.

La pipeline d'entraînement final de R1 comprend quatre étapes :

SFT minimal avec des données de haute qualité
- Collecter quelques milliers d'exemples sélectionnés (par exemple, des données CoT détaillées).
- Effectuer un SFT court pour que le modèle « parle » plus cohéremment.
RL ciblé pour le raisonnement
- Mêmes récompenses basées sur des règles pour les tâches mathématiques/logiques que dans R1-Zero.
- Ajoute une récompense de cohérence linguistique pour réduire le mélange de plusieurs langues dans une seule réponse.
Échantillonnage par rejet + SFT
- Utiliser l'échantillonnage par rejet pour filtrer les sorties du modèle de la phase précédente, en supprimant les réponses de faible qualité ou mal formatées.
- Intégrer des tâches qui ne sont pas facilement jugées par une approche simple basée sur des règles en utilisant une vérification de type « LLM-comme-juge » (par exemple, à partir de DeepSeek-V3).
- Combiner environ 60 000 à 600 000 (selon l'ensemble de données mentionné) échantillons de raisonnement filtrés avec environ 20 000 à 200 000 échantillons non liés au raisonnement pour effectuer un autre cycle de SFT (2 époques).
RL pour une couverture complète
- Pour différents types de tâches, le modèle utilise différentes invites et règles de récompense.
- Les tâches mathématiques/logiques continuent de s'appuyer sur le système de notation initial basé sur des règles.
- Les « tâches générales » utilisent un modèle de récompense standard pour l'utilité et la sécurité.

Au final, DeepSeek-R1 trouve un équilibre entre les performances de raisonnement et les qualités axées sur l'utilisateur telles que la clarté et l'innocuité, égalant efficacement les modèles de premier plan sur de nombreux benchmarks.

4. Observations : perte KL et GRPO contre PPO

DeepSeek-R1 utilise GRPO pour sa phase RL, ce qui le distingue de méthodes comme PPO :

PPO multiplie généralement le terme de pénalité KL par la récompense avant de calculer le gradient de politique final.
GRPO soustrait plutôt un terme KL directement, généralement avec un estimateur spécialisé (K3) pour garantir une variance inférieure.

Cette approche rend l'entraînement plus stable, surtout lorsque vous n'échantillonnez que des jetons partiels. Elle évite la variance plus élevée qui découle de l'utilisation d'estimations de Monte-Carlo simples de KL.

5. Échos d'AlphaGo : pourquoi « zéro » semble familier

Les lecteurs remarquent souvent des parallèles avec AlphaGo parce que les auteurs ont également essayé MCTS (Monte Carlo Tree Search) et une approche de type « zéro » :

R1-Zero est parallèle à AlphaGo Zero en ce sens qu'il commence avec des données supervisées minimales ou inexistantes.
AlphaGo utilisait des enregistrements de jeux humains pour une politique supervisée initiale, puis l'autojeu a conduit à AlphaZero. En revanche, DeepSeek effectue un flux de travail presque inversé : R1-Zero effectue d'abord du RL à partir de zéro, puis ajoute un peu de SFT.

En fin de compte, les tentatives de DeepSeek pour utiliser MCTS dans le raisonnement linguistique ont rencontré des obstacles (grand facteur de branchement, difficulté d'entraîner un modèle de valeur précis, etc.), donc MCTS n'a pas été jugé réussi dans le pipeline final.

6. Résultats expérimentaux et benchmarks

Sur une gamme de tâches de haute difficulté (raisonnement mathématique, complétion de code, QA complexe), DeepSeek-R1 offre des performances comparables à OpenAI-o1-1217 — le plaçant dans le groupe leader des LLM capables de raisonner.

Pendant ce temps, R1-Zero intermédiaire montre déjà des gains substantiels par rapport à la référence dans les tâches de raisonnement. Pourtant, il produit des sorties plus maladroites ou un mélange de langues. Par conséquent, les étapes SFT introduites plus tard améliorent l'expérience utilisateur et la fiabilité, tout en continuant à préserver ou même à améliorer les fortes capacités de raisonnement du modèle.

7. Distillation des connaissances et petits modèles

Les auteurs notent que la simple distillation de DeepSeek-R1 en modèles plus petits (par exemple, Qwen2.5-32B) peut donner des résultats équivalents à un entraînement RL plus coûteux pour les petits modèles. Il s'agit d'un argument convaincant selon lequel, au lieu d'effectuer un pipeline RL complet sur un petit modèle, on pourrait efficacement collecter des sorties de haute qualité à partir d'un modèle plus performant (comme R1) puis effectuer un ajustement fin supervisé sur ces sorties.

Résultat :

DeepSeek-R1-32B distillé atteint des performances proches de OpenAI-o1-mini à une fraction du coût de développement d'un petit modèle à partir de zéro avec RL.

8. Défis et orientations futures

Capacités polyvalentes
- DeepSeek-R1 se concentre sur les tâches de raisonnement mais reste en deçà de DeepSeek-V3 dans certains domaines généraux. L'équipe prévoit d'améliorer la couverture plus large du modèle, éventuellement en utilisant des données CoT ou spécifiques à un domaine plus étendues.
Mélange de langues et prise en charge multilingue
- Bien que R1 dispose de contrôles de cohérence linguistique pour le chinois et l'anglais, il a encore du mal avec d'autres langues ou des scénarios de commutation de langue.
Sensibilité à l'ingénierie des invites
- R1 peut être sensible aux invites à plusieurs tours ou à quelques exemples. Les auteurs recommandent une approche zéro-tir, en spécifiant simplement le format de sortie souhaité pour des résultats optimaux.
Ingénierie logicielle et longues évaluations
- Étant donné que les tâches de code peuvent prendre plus de temps à vérifier, le RL à grande échelle est plus difficile. DeepSeek-R1 montre des améliorations sur les tests logiciels, mais pas un bond spectaculaire par rapport à DeepSeek-V3. Les projets futurs incluent l'évaluation asynchrone pour accélérer le RL dans les tâches de programmation.
Mise à l'échelle à 600 milliards de paramètres et au-delà
- L'article ne démontre pas entièrement si cette approche reste stable et efficace à des échelles extrêmes (par exemple, 600 milliards de paramètres). Il s'agit d'un autre domaine ouvert que l'équipe pourrait explorer.

9. Conclusion

DeepSeek-R1 démontre que le SFT massif n'est pas une condition préalable absolue pour améliorer considérablement la capacité de raisonnement d'un modèle linguistique. En tirant parti d'une récompense basée sur des règles simple mais robuste, en sautant ou en minimisant le SFT au départ, puis en intégrant un petit ensemble de données organisées ainsi que des phases RL répétées, R1 atteint des performances de pointe sur des benchmarks exigeants.

L'étude souligne également comment la distillation des connaissances — prendre les sorties d'un modèle plus performant (R1) pour entraîner un modèle plus petit — peut être plus efficace et produire de meilleurs résultats que de faire subir un entraînement RL intensif au petit modèle.

Bien que DeepSeek-R1 présente encore certaines lacunes en termes de généralité et reste sensible aux invites, il ouvre la voie à un avenir où le RL hybride + SFT minimal peut produire des LLM puissants, flexibles et plus contrôlables. Cet article établit une étape prometteuse, montrant qu'avec les bonnes récompenses et les phases d'entraînement itératives, les modèles peuvent « découvrir » l'autoréflexion, le raisonnement étendu et des performances robustes sans annotation étape par étape à grande échelle.