DeepSeek est-il vraiment open source ou suit-il simplement les normes de l'industrie?

Par
CTOL Editors - Ken
4 min de lecture

DeepSeek est-il vraiment open source ? La vérité derrière le standard de l’industrie

La société de recherche en intelligence artificielle DeepSeek a récemment publié son grand modèle de langage (LLM) sous licence MIT, fournissant les poids du modèle, le code d’inférence et la documentation technique. Cependant, l’entreprise n’a pas publié son code d’entraînement, ce qui a déclenché un débat animé sur la question de savoir si DeepSeek peut réellement être considéré comme « open source ».

Cette controverse découle de différentes interprétations de ce qui constitue l’open source dans le contexte des grands modèles de langage. Alors que certains soutiennent que sans code d’entraînement, un modèle ne peut pas être considéré comme totalement open source, d’autres soulignent que l’approche de DeepSeek s’aligne sur les normes de l’industrie suivies par les grandes entreprises d’IA comme Meta, Google et Alibaba.

Points clés à retenir

  1. L’approche open source de DeepSeek

    • Publication des poids du modèle sous licence MIT
    • Fourniture du code d’inférence et de la documentation technique
    • Non-publication du code d’entraînement, ce qui a mené à des débats sur sa crédibilité open source
  2. Standard de l’industrie pour les LLM open source

    • La plupart des entreprises (Meta, Google, Alibaba) suivent un modèle similaire
    • La pratique courante comprend le partage des poids et du code d’inférence, mais pas du code d’entraînement
    • Les publications entièrement open source (y compris le code d’entraînement) sont rares
  3. Considérations pratiques

    • Les coûts d’entraînement des LLM sont extrêmement élevés (coût d’entraînement de DeepSeek v3 : 30 millions de RMB)
    • Les poids du modèle sont hébergés sur Hugging Face en raison de la taille importante des fichiers
    • La communauté profite de l’accès aux poids, ce qui permet l’ajustement fin et l’expérimentation
  4. Réactions de la communauté

    • Certains critiquent l’absence de code d’entraînement, arguant que cela limite la transparence
    • D’autres soulignent les avantages pratiques des poids ouverts et du déploiement local
    • Des critiques similaires ont été émises à l’encontre de grandes entreprises d’IA, dont OpenAI

Analyse approfondie : contexte et implications de l’industrie

Un regard plus large sur l’open source dans l’industrie de l’IA

DeepSeek n’est pas une anomalie dans sa façon d’aborder l’IA open source. La pratique de la publication des poids du modèle sans code d’entraînement est la norme de l’industrie depuis la publication de Llama 2 par Meta. Des entreprises comme Google (Gemma), Alibaba (Qwen) et la série GLM4 ont adopté des politiques similaires. Même Llama 2 comprend des restrictions commerciales, limitant son utilisation pour les entreprises comptant plus de 700 millions d’utilisateurs actifs mensuels.

Pourquoi les entreprises ne publient-elles pas le code d’entraînement ? La réponse réside dans les coûts, la complexité et l’avantage concurrentiel. L’entraînement de grands modèles comme DeepSeek v3 nécessite des dizaines de millions de dollars en ressources informatiques. De plus, les entreprises d’IA protègent leurs méthodologies d’entraînement comme des secrets commerciaux, assurant ainsi la compétitivité de leurs modèles.

L’absence de code d’entraînement est-elle importante ?

Bien que les critiques soutiennent que le code d’entraînement est nécessaire pour une transparence totale, la plupart des utilisateurs de LLM n’en ont pas besoin. Les poids ouverts permettent aux développeurs de :

  • Affiner les modèles pour des tâches spécifiques
  • Déployer les modèles localement
  • Mener des expériences et créer des applications en aval

De plus, de nombreux modèles d’IA reposent sur des cadres standards tels que PyTorch, les transformers et vLLM, ce qui permet de déduire les détails architecturaux et les fonctionnalités sans accès explicite aux scripts d’entraînement.

Points de vue de la communauté et deux poids, deux mesures

Une préoccupation émergente est de savoir si DeepSeek et d’autres entreprises chinoises d’IA font l’objet d’un examen plus minutieux que les entreprises occidentales. Les critiques notent qu’OpenAI, qui a le mot « open » dans son nom, ne publie pas du tout les poids des modèles, alors que DeepSeek reçoit des critiques plus sévères malgré qu’elle suive la même stratégie que Meta et Google.

La discussion reflète un schéma plus large dans les débats technologiques : un engouement initial, suivi d’un retour de bâton, puis d’une réévaluation plus équilibrée. La publication de DeepSeek a suivi ce cycle, avec un enthousiasme initial quant à ses capacités, laissant place à des critiques sur ses revendications d’open source.

Le saviez-vous ? Faits moins connus sur l’IA open source

  • OLMO est l’un des rares LLM véritablement open source, publiant non seulement les poids, mais aussi le code d’entraînement et les données. Cependant, les modèles entièrement open source restent une niche et sont principalement utilisés à des fins éducatives et de recherche.
  • Les poids des modèles d’IA sont souvent hébergés sur Hugging Face, et non sur GitHub, en raison de la taille massive des fichiers, ce qui rend l’accès direct difficile pour certains utilisateurs en Chine.
  • Le débat sur l’IA open source n’est pas nouveau. Les discussions sur « l’ouverture » remontent aux débuts d’OpenAI, lorsqu’elle est passée d’un laboratoire de recherche ouvert à une puissance commerciale de l’IA.
  • Les coûts d’entraînement pour les grands modèles d’IA sont astronomiques. Par exemple, l’entraînement de GPT-4 a probablement coûté des centaines de millions de dollars, ce qui rend impossible pour la plupart des organisations de le reproduire, même si le code d’entraînement complet était disponible.

Dernières réflexions

L’approche de DeepSeek en matière d’IA open source suit les normes de l’industrie, même si elle ne correspond pas aux définitions traditionnelles du logiciel open source. La question clé est de savoir si l’open source dans l’espace LLM doit privilégier la transparence totale (code d’entraînement, données et poids) ou l’accessibilité pratique (poids du modèle et capacités d’inférence). Pour l’instant, la plupart des développeurs d’IA bénéficient des poids ouverts, ce qui permet des applications et des innovations concrètes.

Le débat sur la signification de « open source » dans l’IA se poursuivra, mais DeepSeek est loin d’être seul dans son approche. À mesure que la recherche sur l’IA évolue, la définition de l’ouverture dans ce domaine en pleine croissance évoluera également.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres