Chute de performance de ChatGPT o1 et 4o : Dégradation, discrimination et tromperie découvertes

Chute de performance de ChatGPT o1 et 4o : Dégradation, discrimination et tromperie découvertes

Par
CTOL Editors - Dafydd
8 min de lecture

Problèmes récents de performance de ChatGPT : analyse approfondie de la dégradation, de la discrimination et de l’importance de l’évaluation par l’utilisateur

Les performances récentes des modèles ChatGPT d’OpenAI, en particulier GPT-4o et GPT-o1, ont suscité des inquiétudes chez les utilisateurs et les experts. Des rapports indiquent une baisse de la qualité, de la précision et de la cohérence dans diverses tâches, certains utilisateurs faisant même état d’une discrimination dans la prestation de service en fonction de facteurs tels que les conditions du réseau. Cet article examine en détail ces problèmes, explore les facteurs contribuant à la dégradation, les implications de la discrimination dans les services et explique pourquoi se fier uniquement aux classements peut être trompeur lors du choix d’un grand modèle linguistique (LLM). Nous allons découvrir la vérité derrière les gros titres et fournir des informations concrètes aux utilisateurs à la recherche d’une assistance IA fiable.

Dégradation des performances de ChatGPT : examen plus approfondi de GPT-4o et GPT-o1

Des rapports récents ont mis en évidence une baisse notable des performances des modèles GPT-4o et GPT-o1 de ChatGPT. Les utilisateurs de diverses plateformes ont signalé un éventail de problèmes, soulignant une dégradation potentielle de la qualité de ces modèles d’IA autrefois leaders. Les problèmes signalés ne sont pas des incidents isolés, mais plutôt un schéma d’incohérences qui sont apparues ces dernières semaines et ces derniers mois. Voici un résumé détaillé :

  • Baisse de la qualité et de la précision des réponses : L’un des problèmes les plus importants est une baisse générale de la qualité et de la précision des réponses générées par les deux modèles. Les utilisateurs ont constaté que les réponses fournies sont souvent moins cohérentes et pertinentes qu’avant.
  • Ignorance partielle des instructions : Les modèles ChatGPT ne respectent plus complètement les instructions fournies dans les invites. Cela conduit à des réponses incomplètes ou non pertinentes qui ne répondent pas aux demandes spécifiques de l’utilisateur.
  • Augmentation des hallucinations et des erreurs : Les hallucinations, où l’IA génère des informations fausses ou absurdes, sont devenues plus fréquentes. Cela s’accompagne d’une augmentation générale des erreurs factuelles dans les réponses.
  • Capacité réduite à maintenir le contexte : Les modèles ont du mal à maintenir le contexte lors de conversations plus longues. Cela se traduit par des réponses incohérentes avec les interactions précédentes ou qui ne tiennent pas compte de l’ensemble de la conversation.
  • Temps de réponse plus lents : En particulier pour le modèle GPT-o1, les utilisateurs ont signalé des temps de réponse beaucoup plus lents. Cela peut perturber le déroulement de l’interaction et rendre l’utilisation du modèle moins efficace.
  • Problèmes de performance de tâches spécifiques :
    • Problèmes complexes et raisonnement : Les modèles montrent une incapacité à résoudre des problèmes complexes ou à fournir des étapes de raisonnement détaillées. C’était autrefois une caractéristique remarquable de GPT-4o et o1.
    • Tâches de codage : Des difficultés dans le traitement des tâches de codage ont été signalées. Cela inclut à la fois la génération de nouveau code et le débogage de code existant.
    • Modifications de code non intentionnelles : Il existe des cas où les modèles effectuent des modifications non intentionnelles lors de la génération de code, entraînant des erreurs ou un comportement inattendu.
    • Sorties tronquées et salade de mots : Les réponses sont parfois coupées court, laissant des phrases incomplètes. De plus, certaines réponses ont été décrites comme une « salade de mots », où la sortie est un mélange de mots sans signification cohérente.

Ces problèmes semblent affecter à la fois GPT-4o et GPT-o1, certains utilisateurs signalant même que les performances de GPT-4o ont régressé à des niveaux comparables à GPT-3.5. Les incohérences ne sont pas uniformes ; certains utilisateurs ont signalé des améliorations après avoir initialement connu une dégradation. OpenAI n’a fait aucune déclaration officielle concernant ces changements, ce qui a conduit à des spéculations sur des rétrogradations de modèles potentielles ou des problèmes techniques sous-jacents. Certains utilisateurs ont constaté qu’en passant à différentes versions du modèle ou en utilisant l’API au lieu de l’interface du navigateur, ils pouvaient obtenir de meilleurs résultats, mais ce n’est pas une solution cohérente.

Discrimination dans les services : comment les conditions du réseau et la complexité des requêtes affectent les performances de ChatGPT

La qualité du service ChatGPT n’est pas uniforme pour tous les utilisateurs et toutes les conditions. Il semble que les performances de l’IA puissent varier considérablement en fonction de facteurs tels que les conditions du réseau, la complexité de la requête et même l’origine géographique de la demande. Cette variabilité soulève des préoccupations concernant la discrimination dans les services, où certains utilisateurs reçoivent un meilleur service que d’autres en fonction de facteurs indépendants de leur volonté. Plusieurs facteurs clés contribuent à ce problème :

  • Latence et connectivité du réseau : Les utilisateurs disposant de connexions Internet médiocres ou ceux qui connaissent une latence réseau élevée peuvent recevoir des réponses plus lentes et potentiellement de qualité inférieure. Une surcharge du serveur peut également entraîner des sorties incomplètes ou dégradées. Cela suggère que la qualité du service dépend en partie de l’infrastructure technique de l’utilisateur.
  • Complexité de la requête : La complexité de la requête a un impact significatif sur le temps de réponse et la qualité. Les questions simples reçoivent généralement des réponses plus rapides et plus cohérentes que les requêtes complexes qui nécessitent une analyse plus approfondie. Cette différence indique que les performances du modèle ne sont pas cohérentes pour tous les types de tâches.
  • Incohérence sur plusieurs tours : Des études ont montré que les performances de ChatGPT peuvent varier même lorsque la même requête est répétée plusieurs fois. Cette incohérence en termes de précision et de cohérence soulève des questions sur la fiabilité du modèle.
  • Formulation de l’invite et contexte : La façon dont une invite est formulée et le contexte fourni peuvent influencer considérablement la qualité et la pertinence des réponses de ChatGPT. Des invites plus précises et personnalisées ont tendance à donner de meilleurs résultats, ce qui suggère que les utilisateurs qui comprennent mieux comment interagir avec le modèle peuvent recevoir un service supérieur.
  • Baisse potentielle de la qualité globale : Des rapports récents indiquent une baisse possible de la qualité globale des réponses de ChatGPT. Les utilisateurs ont observé des cas de réponses inexactes ou absurdes, ce qui peut être dû à des facteurs tels que des données d’entraînement biaisées ou un manque de mécanismes de vérification robustes.

Pour atténuer ces problèmes, il est conseillé aux utilisateurs de :

  • S’assurer d’une connexion Internet stable afin de minimiser les problèmes de latence et de connectivité.
  • Rédiger des invites spécifiques et claires pour améliorer la qualité et la pertinence des réponses.
  • Être conscient des limites du modèle et des incohérences potentielles, en particulier lorsqu’il s’agit de tâches complexes ou critiques.

Pourquoi vous ne devriez pas faire confiance aux classements : l’importance de l’évaluation personnelle pour les LLM

Les classements publics sont souvent utilisés comme référence pour évaluer les performances des grands modèles linguistiques (LLM), mais se fier uniquement à ces classements peut être trompeur. La réalité de la manière dont les services LLM sont fournis et maintenus signifie que les résultats des classements ne reflètent souvent pas l’utilisation réelle et peuvent être influencés par divers facteurs qui ne sont pas immédiatement apparents. Voici pourquoi vous devriez privilégier votre propre évaluation par rapport aux classements :

  • Les classements reflètent des conditions optimales : Les classements publics présentent généralement des résultats basés sur des références standardisées menées dans des conditions contrôlées. Ces tests ne reproduisent souvent pas la variabilité des scénarios d’utilisation réels.
  • Scénarios choisis sur le volet : Les développeurs peuvent optimiser leurs modèles pour obtenir des performances exceptionnelles sur des tâches de référence spécifiques sans garantir des performances cohérentes sur un large éventail de tâches non testées.
  • Pratiques trompeuses dans la maintenance des modèles :
    • Allocation dynamique des modèles : Les entreprises peuvent fournir aux utilisateurs différentes versions du modèle en fonction de facteurs tels que le niveau d’abonnement, la charge de calcul ou la région géographique. Même au sein de la même version étiquetée, le modèle servi peut varier en termes de qualité ou d’optimisations de latence.
    • Tests A/B sans consentement : Les fournisseurs effectuent fréquemment des tests A/B en arrière-plan, fournissant des configurations de modèles légèrement différentes aux utilisateurs. Cela peut entraîner des disparités de performances qui ne sont pas prises en compte dans le classement.
  • Dégradation des performances au fil du temps :
    • Rétrogradations pour la gestion des coûts : Pour optimiser les coûts opérationnels, les entreprises peuvent délibérément dégrader les performances du modèle, en particulier pour les utilisateurs moins rentables ou à faible coût, tout en annonçant toujours les mesures de référence basées sur la version d’origine haute performance.
    • Mises à jour non annoncées : Les mises à jour continues peuvent involontairement introduire des régressions ou dégrader les performances dans des tâches spécifiques, s’écartant encore plus des affirmations du classement.
  • Besoins spécifiques aux tâches :
    • Incompatibilité avec les références : Les références testent souvent les capacités générales, mais peuvent ne pas correspondre à votre cas d’utilisation spécifique, qu’il s’agisse de codage, d’écriture créative ou de raisonnement scientifique.
    • Vos données et votre contexte : Le contexte, le ton et les connaissances spécifiques au domaine dont vous avez besoin peuvent ne pas être correctement testés par les mesures sur lesquelles sont basés les classements.
  • Défis de la transparence :
    • Pratiques opaques : La plupart des fournisseurs de LLM ne divulguent pas tous les détails sur la manière dont les modèles sont mis à jour ou fournis, ce qui rend difficile de se fier uniquement à leurs affirmations ou aux mesures de référence.
    • Communication incohérente : Les fournisseurs n’annoncent souvent pas les baisses de performances ou les changements, laissant les utilisateurs découvrir ces problèmes par essais et erreurs.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres