Dr. KI sous la loupe
De nouvelles études montrent les forces et les faiblesses des outils basés sur l'IA pour les conseils de santé numériques, comme le ChatGPT ou les applications Symptom-Checker
Les patients* ont de plus en plus souvent recours à des outils numériques pour détecter des maladies et recevoir des recommandations d'action. Deux études récentes de l'Université technique de Berlin ont examiné la qualité et l'efficacité de ces recommandations de santé numériques. Les résultats révèlent à la fois des potentiels et des risques. Les études ont été publiées dans les revues spécialisées Journal Scientific Reports et npj Health Systems Journal.
Dans la première étude, une équipe dirigée par le Dr Marvin Kopka du département des sciences du travail de l'Université technique de Berlin a développé une nouvelle méthode de test pour évaluer l'exactitude des recommandations en matière de santé par ChatGPT et d'autres modèles d'IA comme LLaMa de Meta, ainsi que des applications Symptom-Checker spécialement conçues pour interroger les symptômes et donner des recommandations d'action sur la base de ces derniers. Alors que les tests précédents se basaient sur des cas idéalisés de manuels scolaires, qui ne se produisent guère dans la réalité, la nouvelle méthode se base sur de vrais cas de patients, avec lesquels les scientifiques* de l'Université technique de Berlin ont testé différents outils numériques. Cela permet d'évaluer de manière plus réaliste la précision et l'utilité des outils numériques dans la pratique. "On peut considérer notre méthode standardisée comme une sorte de 'Stiftung Warentest', car elle nous permet de comparer la précision de différentes applis, mais aussi de trouver leurs points forts et leurs points faibles", explique Marvin Kopka, responsable de l'étude.
Les apps Symptom-Checker sont nettement plus utiles
Les résultats de la méthode d'évaluation nouvellement développée montrent que les apps Symptom-Checker sont nettement plus utiles aux profanes que ChatGPT, notamment lorsqu'il s'agit de distinguer les symptômes bénins des symptômes graves. Alors que ChatGPT qualifie presque tous les cas d'urgence ou de grande urgence, les applications spécialisées peuvent donner des recommandations plus fondées et plus appropriées dans la plupart des cas. Ce que d'autres études ont déjà démontré : ChatGPT peut bien diagnostiquer les maladies lorsque des résultats de laboratoire ou d'examens sont disponibles. Mais comme ceux-ci font généralement défaut à la maison, le diagnostic reste souvent imprécis et la liste de plusieurs maladies possibles proposée par le modèle n'aide guère les profanes. Les recommandations d'action telles que "Va chez le médecin" ou "Appelle le 112" sont plus décisives - mais ChatGPT obtient ici un mauvais résultat, car il considère presque tous les cas comme nécessitant un traitement, même en cas de symptômes anodins.
Les profanes reconnaissent généralement les urgences médicales de manière fiable
Ce que les chercheurs* ont également découvert : Les profanes reconnaissent généralement les urgences médicales de manière fiable et appellent les services de secours dans les cas graves, comme une blessure grave à la tête accompagnée de vomissements et de vertiges. Ils ont toutefois plus de mal à évaluer correctement les symptômes bénins. Ainsi, beaucoup ont tendance à demander trop vite une aide médicale en cas de troubles légers comme une diarrhée de courte durée ou une petite modification de la peau, alors que cela ne serait souvent pas nécessaire. "Le fait que de plus en plus de personnes utilisent ChatGPT pour obtenir des conseils médicaux est dommageable pour le système de santé. L'IA motive souvent les utilisateurs* à consulter immédiatement un médecin ou les urgences au moindre symptôme. Cela peut conduire à une surcharge massive", avertit le Dr Marvin Kopka, responsable de l'étude.
Les utilisateurs* n'adoptent pas les recommandations numériques sans esprit critique
La deuxième étude n'a pas seulement comparé les personnes et la technique, mais a également examiné avec quelle précision les personnes intègrent les recommandations de ChatGPT et des applications Symptom-Checker dans leurs propres décisions. Il s'est avéré que les utilisateurs* n'adoptent pas les recommandations sans esprit critique, mais les comparent à d'autres sources comme les recherches sur Google, les conseils d'amis ou d'autres applications. "D'un autre côté, il y a aussi des cas où les patients* reçoivent trop d'informations, parfois incompréhensibles, de la part des outils numériques, qu'ils ne peuvent pas classer. Cela génère de l'anxiété et ils cherchent alors l'avis d'un expert aux urgences ou chez leur médecin de famille - même pour des troubles bénins, comme ChatGPT le leur recommande", explique Kopka.
Avant une étude quantitative avec 600 participants*, la deuxième étude a d'abord observé 24 personnes en train de l'utiliser, puis a établi un modèle de la manière dont elles prennent des décisions à l'aide de ChatGPT et des apps. L'évaluation a de nouveau montré que ChatGPT rendait l'autogestion plus difficile et augmentait le nombre de consultations médicales inutiles. En revanche, les apps Symptom-Checker qui fonctionnent bien ont pu contribuer à ce que les utilisateurs* optent pour l'autosoins dans les cas appropriés et contribuent ainsi à soulager le système de santé. "ChatGPT a de nombreuses applications utiles, mais il ne convient pas pour décider si je dois aller chez le médecin - il est beaucoup trop imprécis pour cela", résume Kopka. "Nous devrions plutôt nous demander si une application nous aide à prendre de bonnes décisions, plutôt que d'attendre d'elle la perfection. Car les gens prennent déjà des décisions sûres et raisonnables dans la plupart des cas. Cependant, dans certaines situations, les applis peuvent être bénéfiques".
Les études illustrent le fait que les outils numériques peuvent être utilisés à bon escient pour aider les patients* dans leur prise de décision. Les apps de contrôle des symptômes spécialement développées à cet effet s'avèrent actuellement plus utiles que les modèles d'IA génératifs tels que ChatGPT. Cependant, selon les scientifiques, une utilisation critique des recommandations numériques reste décisive afin d'éviter des erreurs de jugement et une charge inutile pour le système de santé.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.
Publication originale
Marvin Kopka, Hendrik Napierala, Martin Privoznik, Desislava Sapunova, Sizhuo Zhang, Markus A. Feufel; "The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications"; Scientific Reports, Volume 14, 2024-12-23
Marvin Kopka, Sonja Mei Wang, Samira Kunz, Christine Schmid, Markus A. Feufel; "Technology-supported self-triage decision making"; npj Health Systems, Volume 2, 2025-1-25