Scandale de plagiat engloutit l'équipe d'IA de Stanford : Llama 3-V accusé de copier le modèle de Tsinghua
Le 29 mai, une équipe de l'Université de Stanford a annoncé le développement de Llama 3-V, un modèle d'IA révolutionnaire, affirmant qu'il surpassait d'autres modèles leaders comme GPT-4V, Gemini Ultra et Claude Opus, tout en étant nettement plus petit et moins coûteux à entraîner. Cependant, l'enthousiasme a été de courte durée, car des accusations de plagiat ont émergé, suggérant que Llama 3-V s'était largement inspiré du modèle MiniCPM-Llama3-V 2.5 développé par la société d'IA de l'Université de Tsinghua, Mianbi Intelligence. La controverse s'est depuis intensifiée, des preuves montrant que Llama 3-V aurait pu copier des parties substantielles du modèle MiniCPM, alimentant un débat houleux au sein de la communauté de l'IA.
Principaux éléments à retenir
- Annonce du modèle : L'équipe de Stanford a affirmé que Llama 3-V était un modèle supérieur et rentable par rapport aux autres modèles d'IA leaders.
- Allégations de plagiat : Le modèle a été accusé de copier le modèle MiniCPM-Llama3-V 2.5 de Tsinghua, y compris sa structure et son code.
- Preuves de plagiat : Des comparaisons détaillées ont révélé des similitudes frappantes entre les modèles, notamment des configurations et des bases de code partagées.
- Défense de Stanford : L'équipe de Stanford a nié les accusations, affirmant n'avoir utilisé que le tokeniseur de MiniCPM.
- Suppression des preuves : Suite à la controverse, l'équipe de Stanford a supprimé les publications et les dépôts connexes, alimentant davantage les soupçons.
Analyse
Le scandale a commencé lorsque l'équipe de Stanford a publié un article sur Medium, se vantant des capacités de Llama 3-V. Le modèle a été promu comme une IA multimodale de pointe, nettement plus petite et moins coûteuse que ses concurrents. Cependant, les passionnés d'IA et les experts ont rapidement remarqué que Llama 3-V présentait une ressemblance troublante avec le modèle MiniCPM-Llama3-V 2.5 de Tsinghua.
Plusieurs éléments de preuve ont été présentés pour étayer ces allégations :
- Structure et code du modèle : Les comparaisons ont montré que Llama 3-V et MiniCPM-Llama3-V 2.5 partageaient des structures et des configurations presque identiques, ne différant que dans les noms de variables.
- Processus de tokenisation : L'équipe de Stanford a affirmé n'avoir utilisé que le tokeniseur de MiniCPM. Cependant, il a été souligné que le tokeniseur spécifique utilisé dans MiniCPM-Llama3-V 2.5 n'était pas public avant le développement de Llama 3-V, soulevant des questions sur la façon dont Stanford y a eu accès.
- Similarités comportementales : Les tests ont révélé que les performances et les erreurs de Llama 3-V reflétaient étroitement celles de MiniCPM-Llama3-V 2.5, suggérant plus qu'une coïncidence.
- Dépôts supprimés : La suppression soudaine des dépôts GitHub et HuggingFace par l'équipe de Stanford a encore intensifié la controverse, laissant supposer une tentative de dissimulation.
En réponse, l'équipe de Stanford a fourni une défense qui a été accueillie avec scepticisme. Ils ont affirmé que leur travail précédait la sortie de MiniCPM-Llama3-V 2.5 et que leur modèle utilisait des configurations publiquement disponibles. Cependant, les incohérences dans leurs explications et les similitudes frappantes entre les modèles ont entraîné un scepticisme généralisé.
La controverse a atteint son paroxysme lorsque l'équipe de Mianbi Intelligence a fourni des preuves supplémentaires, y compris des fonctionnalités spécifiques comme la reconnaissance des caractères chinois anciens (bambous de Qinghua), qui étaient exclusives à MiniCPM-Llama3-V 2.5. Ce niveau de détail, ont-ils fait valoir, ne pouvait pas avoir été reproduit sans accès à leurs données propriétaires.
Le saviez-vous ?
- Modèles d'IA multimodaux : Ces modèles, comme Llama 3-V et MiniCPM-Llama3-V 2.5, sont conçus pour traiter et interpréter simultanément plusieurs types de données (par exemple, texte, images), améliorant ainsi considérablement leur polyvalence et leur champ d'application.
- Tokeniseur : Il s'agit d'un composant essentiel des modèles de langage IA qui décompose le texte en morceaux gérables (jetons), facilitant leur traitement et leur compréhension par le modèle. La spécificité et la personnalisation des tokeniseurs sont essentielles pour la précision et l'efficacité des modèles d'IA.
- Bambous de Qinghua : Ces textes chinois anciens remontent à la période des Royaumes Combattants (475-221 av. J.-C.) et sont considérés comme extrêmement rares et précieux pour la recherche historique. La capacité d'un modèle d'IA à reconnaître et à interpréter ces textes indique un niveau élevé de sophistication et d'entraînement spécialisé.
Le scandale de plagiat de Llama 3-V a suscité un débat intense au sein de la communauté de l'IA, soulignant les défis éthiques et les pressions concurrentielles dans le domaine de la recherche en intelligence artificielle. L'issue de cette controverse pourrait avoir des implications importantes pour l'intégrité académique et la propriété intellectuelle dans le développement de l'IA.