Le benchmark LiveBench de Lecun révèle GPT-4o et Qwen d'Alibaba en tant que meilleurs performeurs

Le benchmark LiveBench de Lecun révèle GPT-4o et Qwen d'Alibaba en tant que meilleurs performeurs

Par
Jane Park
2 min de lecture

Le classement LiveBench de Lecun met en avant GPT-4o et Qwen d'Alibaba en tête de liste

Dans l'univers de l'intelligence artificielle, une avancée majeure a été récemment annoncée par Yann Lecun et son équipe : le lancement de LiveBench, une nouvelle plateforme de référencement pour les grands modèles de langage (GML). LiveBench vise à résoudre le problème répandu de la contamination de l'ensemble de test, qui survient lorsqu'un jeu de données de test est inclus dans l'ensemble d'entraînement d'un modèle, falsifiant ainsi la justesse et l'exactitude des évaluations. Ce benchmark novateur propose des questions fréquemment mises à jour, tirées de sources récentes telles que les compétitions mathématiques, les articles arXiv, les actualités et les jeux de données. Il couvre un large éventail de tâches stimulantes, comprenant les mathématiques, le codage, le raisonnement, le langage, le respect des instructions et l'analyse de données.

LiveBench évalue à la fois des modèles fermés populaires et de nombreux modèles GML open-source, avec des tailles allant de 0,5 milliard à 110 milliards de paramètres. Le dernier classement met en avant GPT-4o comme le modèle phare au classement général, tandis que Qwen d'Alibaba émerge comme le meilleur GML open-source. Cette initiative révolutionnaire cherche à garantir que, tandis que les GML évoluent, leurs capacités soient rigoureusement et équitablement évaluées.

Classement actuel de LiveBench

Points clés à retenir

  1. Présentation de LiveBench : Un nouveau benchmark GML créé par Yann Lecun et son équipe, conçu pour éviter la contamination de l'ensemble de test et les biais causés par des juges humains ou des LLM.
  2. Portée et diversité : Le benchmark propose un ensemble varié de tâches, y compris les mathématiques, le codage, le raisonnement, le langage, le respect des instructions et l'analyse de données.
  3. Mises à jour régulières : Les questions sont régulièrement mises à jour à partir de sources récentes pour maintenir le benchmark actuel et stimulant.
  4. Meilleures performances : GPT-4o domine les performances globales, tandis que Qwen d'Alibaba se distingue comme le meilleur GML open-source.

Analyse

L'introduction de LiveBench représente un progrès important dans l'évaluation des grands modèles de langage. De nombreux benchmarks traditionnels souffrent de contamination de l'ensemble de test, où les données de test s'immiscent involontairement dans l'ensemble d'entraînement de nouveaux modèles, entraînant des mesures de performances gonflées. LiveBench surmonte cela en utilisant fréquemment des questions tirées d'informations récentes telles que les compétitions mathématiques récentes, les articles arXiv et les actualités, en assurant ainsi que l'évaluation reste exigeante et pertinente.

En outre, le système automatisé de notation de LiveBench repose sur des valeurs de référence objectives, réduisant ainsi les biais qui pourraient résulter de la notation réalisée par des humains ou des LLM. Cela est important, en particulier pour noter les questions complexes où les jugements subjectifs peuvent fortement varier.

Le benchmark couvre une gamme étendue de tâches, ce qui en fait un outil complet pour évaluer les capacités des GML. Les tâches ne se limitent pas à

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres