ByteDance et les chercheurs de Tsinghua publient en open source DAPO pour améliorer l'apprentissage par renforcement des LLM à grande échelle

Par
Lang Wang
5 min de lecture

DAPO : L'apprentissage par renforcement open source pour les grands modèles de langage à grande échelle

Briser les barrières du raisonnement des LLM grâce à l'apprentissage par renforcement open source

Dans la course à la construction de modèles de langage de grande taille (LLM) plus intelligents, l'industrie s'est largement appuyée sur l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement. Cependant, un défi persistant a été le manque de transparence : les techniques de RL de pointe pour les LLM restent enfermées derrière des systèmes propriétaires de grands acteurs de l'IA tels qu'OpenAI et DeepSeek. Ce secret étouffe non seulement l'innovation, mais rend également difficile pour les chercheurs et les entreprises de reproduire ou de s'appuyer sur ces progrès.

Un nouvel effort de recherche, DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization), vise à changer cela en rendant entièrement open source un cadre RL évolutif pour le raisonnement des LLM. Développé par ByteDance Seed, l'AI Industry Research Institute de l'université Tsinghua et l'université de Hong Kong, DAPO offre un système RL transparent et performant, en publiant non seulement l'algorithme, mais aussi le code d'entraînement et un ensemble de données organisé. L'objectif : démocratiser le RL du raisonnement des LLM et accélérer les progrès de la recherche en IA et des applications industrielles.

Principales innovations de DAPO

Au cœur de DAPO se trouve une nouvelle approche RL qui améliore le raisonnement dans les LLM. L'efficacité du système a été démontrée par ses performances sur l'ensemble de données de problèmes mathématiques AIME 2024, où il obtient 50 points en utilisant le modèle de base Qwen2.5-32B, dépassant ainsi les références antérieures tout en nécessitant moins d'étapes d'entraînement.

1. Rendre open source un système d'apprentissage par renforcement complet

Contrairement à la plupart des modèles propriétaires, DAPO fournit un pipeline d'entraînement RL entièrement ouvert, comprenant :

  • Algorithme DAPO : une méthode RL affinée basée sur GRPO (Generalized Reinforcement Policy Optimization).
  • Code d'entraînement (cadre verl) : code RL pratique et évolutif pour l'entraînement des LLM.
  • Ensemble de données organisé : un ensemble de données spécialement traité pour le raisonnement mathématique et l'entraînement RL.

2. Innovations algorithmiques : quatre techniques clés

DAPO intègre quatre améliorations techniques majeures qui améliorent l'efficacité et la stabilité de l'entraînement RL pour les LLM :

  • Clip-Higher : les modèles RL traditionnels utilisent des techniques de clipping pour éviter les fluctuations de valeur extrêmes, mais cela conduit souvent à un effondrement de l'entropie, ce qui rend le modèle excessivement déterministe. DAPO découple les seuils de clipping inférieur et supérieur, encourageant une génération de jetons plus diversifiée et une meilleure exploration.
  • Échantillonnage dynamique : de nombreux processus d'entraînement RL gaspillent des ressources de calcul sur des invites redondantes. DAPO filtre les invites inefficaces (celles qui produisent des échantillons à gradient nul), garantissant que chaque lot d'entraînement est significatif et accélère la convergence.
  • Perte de gradient de politique au niveau du jeton : au lieu de traiter une réponse entière comme un seul échantillon, DAPO attribue des gradients au niveau du jeton, permettant aux chaînes de raisonnement plus longues de porter plus de poids. Ceci est particulièrement utile pour la résolution de problèmes complexes en plusieurs étapes.
  • Mise en forme de récompense excessivement longue : les modèles traditionnels pénalisent sévèrement les réponses longues. DAPO affine cette approche, en échelonnant la pénalité de manière dynamique pour éviter la perte abrupte d'informations précieuses, conduisant à un entraînement plus stable.

Comment DAPO surpasse les modèles existants

1. Précision plus élevée dans les tâches de raisonnement complexes

Les résultats empiriques montrent que DAPO obtient 50 points sur AIME 2024, dépassant le score de 47 de DeepSeek-R1-Zero-Qwen-32B. Contrairement aux modèles précédents, DAPO atteint cette performance avec la moitié des étapes d'entraînement, démontrant à la fois l'efficacité et l'efficience.

2. Efficacité et stabilité d'entraînement améliorées

En résolvant les problèmes RL courants : l'effondrement de l'entropie, le bruit de récompense et l'échantillonnage inefficace, DAPO rationalise l'entraînement, réduisant ainsi les coûts de calcul nécessaires au développement de LLM haute performance.

3. Reproductibilité totale et transparence open source

Un problème critique dans la recherche sur les LLM est le manque de méthodes RL open source vérifiables. DAPO est l'un des rares systèmes qui fournit un cadre d'entraînement RL de bout en bout complet, ce qui permet aux chercheurs universitaires et aux startups d'IA de reproduire et d'étendre plus facilement le travail.

Impact sur l'industrie et les entreprises

1. Accélérer la recherche et le développement en IA

La disponibilité d'un système d'entraînement RL de pointe peut accélérer considérablement la recherche dans le raisonnement mathématique, le tutorat basé sur les LLM et d'autres applications avancées de résolution de problèmes. L'accessibilité open source réduit les barrières à l'entrée, favorisant une participation plus large au développement de l'IA.

2. Développer les applications commerciales des LLM

Les entreprises axées sur les tâches de raisonnement basées sur l'IA, de l'assistance clientèle automatisée aux assistants de codage et à la modélisation financière, sont susceptibles de bénéficier des avancées de DAPO. En intégrant les techniques de DAPO, les entreprises peuvent entraîner des modèles d'IA plus performants et plus rentables, adaptés aux défis spécifiques de l'industrie.

3. Réduire les coûts d'entraînement de l'IA

Grâce à une efficacité accrue et à une réduction des étapes d'entraînement, DAPO permet aux petites entreprises et aux startups d'entraîner des LLM haute performance sans dépenses de calcul massives. Cela pourrait conduire à une commercialisation plus large de l'IA de raisonnement avancée au-delà des géants de la technologie.

Défis et considérations

Bien que DAPO représente une contribution révolutionnaire, certains facteurs doivent être notés :

  • Portée de la référence : l'efficacité du modèle a été validée sur AIME 2024, un ensemble de données basé sur les mathématiques. Des évaluations supplémentaires sur d'autres références de raisonnement complexes (par exemple, MATH, GSM8K) sont nécessaires pour confirmer une applicabilité plus large.
  • Exigences de calcul : malgré une efficacité améliorée, l'entraînement des LLM avec RL exige toujours des ressources GPU considérables. Bien que DAPO abaisse la barrière, les petites organisations peuvent encore être confrontées à des défis d'infrastructure.
  • Complexité de la mise en œuvre : les techniques avancées de DAPO, en particulier la perte de gradient de politique au niveau du jeton et la mise en forme de récompense excessivement longue, nécessitent une compréhension approfondie des principes RL, ce qui peut poser des difficultés d'adoption pour les équipes peu familières avec l'apprentissage par renforcement.

Un tournant décisif pour l'IA open source

DAPO représente un bond en avant significatif dans l'apprentissage par renforcement évolutif et transparent pour le raisonnement des LLM. En rendant open source un système RL complet et performant, l'équipe de recherche fait non seulement progresser les connaissances académiques, mais permet également aux entreprises et aux startups de développer leurs propres modèles d'IA sophistiqués.

Pour les investisseurs et les entreprises qui cherchent à améliorer les capacités de raisonnement des LLM, DAPO offre une opportunité rare : un cadre RL de pointe entièrement accessible qui réduit à la fois le coût et la complexité du développement de modèles d'IA avancés. Alors que l'adoption de l'IA s'accélère dans tous les secteurs, les innovations open source comme DAPO joueront un rôle crucial dans la façon dont l'IA résoudra les problèmes à l'avenir.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales