Dr KI bajo la lupa

Nuevos estudios muestran los puntos fuertes y débiles de las herramientas de asesoramiento sanitario digital basadas en IA, como ChatGPT o las apps de comprobación de síntomas

30.04.2025

Los investigadores descubrieron que a los profanos les resulta difícil evaluar correctamente los síntomas inofensivos de una enfermedad (imagen simbólica).

Computer-generated image

Los pacientes recurren cada vez más a herramientas digitales para reconocer enfermedades y recibir recomendaciones de actuación. Dos estudios recientes de la Universidad Técnica de Berlín han analizado la calidad y la eficacia de estas recomendaciones sanitarias digitales. Los resultados muestran tanto el potencial como los riesgos. Los estudios se han publicado en las revistas Scientific Reports y npj Health Systems Journal.

En el primer estudio, un equipo dirigido por el Dr. Marvin Kopka, del Departamento de Ergonomía de la Universidad Técnica de Berlín, desarrolló un nuevo método de prueba para evaluar la precisión de las recomendaciones sanitarias de ChatGPT y otros modelos de IA, como LLaMa de Meta, así como aplicaciones de comprobación de síntomas especialmente desarrolladas que consultan síntomas y ofrecen recomendaciones de actuación basadas en ellos. Mientras que las pruebas anteriores se basaban en casos idealizados de libro de texto que rara vez se dan en la realidad, el nuevo método se basa en casos reales de pacientes con los que los científicos de la Universidad Técnica de Berlín probaron diversas herramientas digitales. Esto permite una evaluación más realista de la precisión y utilidad de las herramientas digitales en la práctica. "Nuestro método estandarizado puede considerarse una especie de 'Stiftung Warentest', ya que nos permite comparar la precisión de diferentes aplicaciones, pero también identificar sus puntos fuertes y débiles", afirma Marvin Kopka, director del estudio.

Las aplicaciones de comprobación de síntomas son mucho más útiles

Los resultados del nuevo método de evaluación muestran que las aplicaciones de comprobación de síntomas son mucho más útiles para los profanos que ChatGPT, especialmente cuando se trata de diferenciar entre síntomas inofensivos y graves. Mientras que ChatGPT clasifica casi todos los casos como urgencias o muy urgentes, las aplicaciones especializadas pueden hacer recomendaciones más informadas y adecuadas en la mayoría de los casos. Como ya han demostrado otros estudios: ChatGPT puede diagnosticar bien las enfermedades si se dispone de valores de laboratorio o resultados de exámenes. Sin embargo, como estos suelen faltar en casa, el diagnóstico suele seguir siendo impreciso y la lista de varias enfermedades posibles que sugiere el modelo es de poca ayuda para los profanos. Las recomendaciones de actuación como "Vaya al médico" o "Llame al 112" son más decisivas; sin embargo, ChatGPT funciona mal aquí, ya que clasifica casi todos los casos como que requieren tratamiento, incluso con síntomas inofensivos.

Los legos suelen reconocer las urgencias médicas con fiabilidad

Los investigadores también descubrieron que Los legos suelen reconocer las urgencias médicas con fiabilidad y llaman a los servicios de emergencia en casos graves, como un traumatismo craneoencefálico grave con vómitos y mareos. Sin embargo, les resulta más difícil reconocer correctamente los síntomas inofensivos. Por ejemplo, muchas personas tienden a buscar ayuda médica con demasiada rapidez ante dolencias menores, como una diarrea de corta duración o un cambio leve en la piel, aunque a menudo no sea necesario. "El hecho de que cada vez más personas recurran a ChatGPT para pedir consejo médico va en detrimento del sistema sanitario. La IA suele motivar a los usuarios a acudir inmediatamente al médico o a urgencias al menor síntoma. Esto puede provocar una sobrecarga masiva", advierte el Dr. Marvin Kopka, director del estudio.

Los usuarios no aceptan acríticamente las recomendaciones digitales

El segundo estudio no sólo comparó a las personas y la tecnología, sino que también investigó con qué precisión las personas incorporan las recomendaciones de las aplicaciones ChatGPT y de comprobación de síntomas a sus propias decisiones. Esto demostró que los usuarios no aceptan las recomendaciones acríticamente, sino que las comparan con otras fuentes como búsquedas en Google, consejos de amigos u otras apps. "Por otro lado, también hay casos en los que los pacientes reciben demasiada información, a veces incomprensible, de herramientas digitales que no son capaces de categorizar. Esto les crea ansiedad y entonces buscan el consejo de un experto en urgencias o de su médico de cabecera, incluso para dolencias inofensivas, como recomienda ChatGPT", dice Kopka.

Antes de un estudio cuantitativo con 600 sujetos de prueba, el segundo estudio observó primero a 24 personas que utilizaban ChatGPT y luego modeló cómo toman decisiones con la ayuda de ChatGPT y las aplicaciones. La evaluación demostró de nuevo que ChatGPT dificulta el autocuidado y aumenta el número de visitas innecesarias al médico. En cambio, el buen funcionamiento de las aplicaciones de comprobación de síntomas ayudó a los usuarios a decidirse por el autocuidado en los casos adecuados y contribuyó así a aliviar la carga del sistema sanitario. "ChatGPT tiene muchas aplicaciones útiles, pero no es adecuada para decidir si debo ir al médico; es demasiado imprecisa para eso", resume Kopka. "Debemos preguntarnos si una aplicación nos ayuda a tomar buenas decisiones en lugar de esperar que sea perfecta. Al fin y al cabo, la gente ya toma decisiones seguras y sensatas en la mayoría de los casos. En algunas situaciones, sin embargo, puede beneficiarse de las apps".

Los estudios demuestran que las herramientas digitales pueden servir de apoyo a los pacientes en su toma de decisiones. Las apps de comprobación de síntomas especialmente desarrolladas están demostrando ser más útiles que los modelos generativos de IA, como ChatGPT. No obstante, según los investigadores, sigue siendo crucial un enfoque crítico de las recomendaciones digitales para evitar juicios erróneos y una carga innecesaria para el sistema sanitario.

Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Alemán se puede encontrar aquí.

Publicación original

Marvin Kopka, Hendrik Napierala, Martin Privoznik, Desislava Sapunova, Sizhuo Zhang, Markus A. Feufel; "The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications"; Scientific Reports, Volume 14, 2024-12-23

Marvin Kopka, Sonja Mei Wang, Samira Kunz, Christine Schmid, Markus A. Feufel; "Technology-supported self-triage decision making"; npj Health Systems, Volume 2, 2025-1-25

https://www.bionity.com/es/noticias/1186146/dr-ki-bajo-la-lupa.html

Publicación original

Marvin Kopka, Sonja Mei Wang, Samira Kunz, Christine Schmid, Markus A. Feufel; "Technology-supported self-triage decision making"; npj Health Systems, Volume 2, 2025-1-25

Temas

inteligencia artificial software de ai aplicaciones enfermedades

Ver todos

Organizaciones

TU Berlin