L'IA médicale sous le feu des projecteurs : les meilleurs LLM échouent au diagnostic, surpassés par des réponses aléatoires

L'IA médicale sous le feu des projecteurs : les meilleurs LLM échouent au diagnostic, surpassés par des réponses aléatoires

Par
Mason Harper
6 min de lecture

Des chercheurs ont découvert que les LLM ont de moins bonnes performances que des réponses aléatoires sur les questions médicales

Une étude récente menée par des chercheurs de l'Université de Californie à Santa Cruz et de l'Université Carnegie Mellon a soulevé des inquiétudes quant à la fiabilité des grands modèles multimodaux (LMM) dans le domaine médical. La recherche, intitulée "Pire que le hasard ? Une évaluation de sondage ridiculement simple des grands modèles multimodaux dans la VQA médicale", a révélé que les modèles LMM de pointe, tels que GPT-4V et Gemini Pro, avaient de moins bonnes performances que des réponses aléatoires sur les questions de diagnostic médical. L'étude présente le jeu de données Probing Evaluation for Medical Diagnosis (ProbMed) pour évaluer les performances des LMM dans l'imagerie médicale grâce à l'évaluation par sondage et au diagnostic procédural, mettant en évidence des limites importantes dans la capacité des modèles actuels à gérer des questions médicales détaillées.

Principales conclusions

  • Performances des LMM : Les modèles les plus performants comme GPT-4V et Gemini Pro se sont avérés moins performants que le hasard sur les questions de diagnostic spécialisées.
  • Jeu de données ProbMed : Un nouveau jeu de données a été introduit pour évaluer de manière rigoureuse les performances des LMM dans l'imagerie médicale grâce à l'évaluation par sondage et au diagnostic procédural.
  • Paires adversaires : L'étude a utilisé des paires adversaires dans le processus d'évaluation pour tester la robustesse et la fiabilité des modèles, révélant une baisse significative de la précision lorsque ces paires ont été introduites.
  • Connaissances spécifiques au domaine : Les modèles comme CheXagent, formés sur des modalités spécifiques, ont démontré la transférabilité de l'expertise entre différentes modalités du même organe, soulignant l'importance des connaissances spécialisées dans un domaine.

Analyse approfondie

L'étude a mené une évaluation systématique à l'aide du jeu de données ProbMed sur sept modèles LMM de pointe afin d'identifier leurs forces et leurs faiblesses dans les diagnostics d'imagerie médicale de la vie réelle. L'évaluation comprenait à la fois des modèles généraux et spécialisés, en se concentrant sur leur capacité à répondre à des questions liées à l'imagerie médicale.

L'introduction de paires adversaires, qui sont des paires question-réponse conçues pour mettre à l'épreuve la capacité du modèle à valider l'absence de certaines caractéristiques, a eu un impact significatif sur les performances des modèles. La précision de certains modèles a chuté de manière drastique, avec une baisse moyenne de 42,7 % sur l'ensemble des modèles testés lorsque les paires adversaires ont été ajoutées au jeu de données VQA-RAD, et une baisse moyenne de 44,7 % dans ProbMed.

L'étude a également révélé que même les modèles les plus robustes ont connu une baisse minimale de 10,52 % de leur précision lors des tests avec les questions difficiles de ProbMed. Cela souligne le rôle essentiel de l'évaluation par sondage dans l'évaluation complète des performances de la VQA médicale.

Impact sur la confiance du public et le financement

Les résultats de l'étude ont non seulement des implications techniques, mais aussi des conséquences sociétales et économiques plus larges. Voici quelques considérations supplémentaires sur l'impact :

  1. Confiance du public dans l'IA médicale : La révélation que les LMM de pointe ont de moins bonnes performances que des réponses aléatoires sur certaines questions médicales pourrait saper la confiance du public dans l'efficacité et la sécurité des outils médicaux pilotés par l'IA. La confiance est un élément essentiel dans les soins de santé, et les patients sont plus susceptibles d'adopter et de bénéficier des technologies d'IA s'ils estiment que ces systèmes sont fiables et précis.

  2. Impact sur le financement et les investissements : L'industrie de l'IA médicale dépend largement des investissements pour alimenter la recherche et le développement. Des résultats négatifs comme ceux-ci pourraient entraîner une baisse de la confiance des investisseurs, ce qui se traduirait par moins de financement pour les startups et les entreprises établies. Cela pourrait ralentir le rythme de l'innovation et le développement de technologies potentiellement vitales.

  3. Implications réglementaires : Alors que les inquiétudes concernant la fiabilité des LMM dans le diagnostic médical s'intensifient, il pourrait y avoir une pression accrue sur les organismes de réglementation pour imposer des directives et une surveillance plus strictes. Cela pourrait entraîner une approche plus prudente dans l'approbation de nouvelles technologies d'IA dans les soins de santé, retardant potentiellement leur disponibilité pour les patients.

  4. Considérations éthiques : L'utilisation éthique de l'IA dans les soins de santé est primordiale. Si les LMM s'avèrent peu fiables, cela soulève des questions sur la responsabilité éthique des développeurs et des prestataires de soins de santé pour s'assurer que les systèmes d'IA soient correctement testés et validés avant d'être utilisés dans des contextes cliniques.

  5. Sécurité des patients et résultats : En fin de compte, l'impact le plus important est sur la sécurité des patients et les résultats en matière de santé. Si les systèmes d'IA médicale ne sont pas fiables, il existe un risque qu'ils fournissent des informations ou des diagnostics erronés, ce qui pourrait entraîner des traitements inappropriés ou des retards dans les soins, avec des conséquences graves pour les patients.

  6. Dynamique du marché : Les conclusions de l'étude pourraient également affecter le paysage concurrentiel du marché de l'IA médicale. Les entreprises disposant de produits robustes et bien validés pourraient gagner un avantage concurrentiel, tandis que celles ayant des offres moins fiables pourraient avoir du mal à maintenir leur position sur le marché.

  7. Priorités de la recherche : Les résultats pourraient entraîner un changement dans les priorités de la recherche, avec un accent mis sur le développement et la validation de méthodologies d'évaluation robustes, ainsi que sur l'intégration des connaissances spécifiques au domaine dans les modèles d'IA pour améliorer leur fiabilité et leurs performances dans les applications médicales.

Face à ces impacts potentiels, il est crucial que la communauté de l'IA médicale aborde ces préoccupations de manière transparente et proactive. Une communication ouverte sur les limites actuelles des technologies d'IA, associée à un engagement pour une amélioration et une validation continues, sera essentielle pour maintenir la confiance du public et assurer l'avenir de l'IA dans les soins de santé.

Le saviez-vous ?

  • Transférabilité de l'expertise : L'étude a constaté que les connaissances spécialisées acquises sur les radiographies thoraciques peuvent être transférées à d'autres modalités d'imagerie du même organe de manière zéro-shot, indiquant le potentiel de transfert d'expertise inter-modalités dans les diagnostics d'imagerie médicale de la vie réelle.
  • Importance d'une évaluation solide : La recherche souligne le besoin urgent de procédures d'évaluation plus robustes pour garantir la fiabilité des LMM dans des domaines critiques comme le diagnostic médical.
  • Impact potentiel sur les soins de santé : Les conclusions de cette étude ont des implications plus larges pour améliorer la précision du diagnostic et les soins aux patients, mais soulignent également les risques liés au déploiement de modèles peu fiables dans les soins de santé.

En conclusion, l'étude met l'accent sur la nécessité de tests rigoureux, d'un suivi continu des performances et de l'intégration d'expertises spécifiques au domaine pour améliorer le développement de systèmes d'IA dignes de confiance dans les soins de santé et, en fin de compte, améliorer les résultats pour les patients.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres