Dr. KI à lupa

Novos estudos mostram os pontos fortes e fracos das ferramentas apoiadas por IA para aconselhamento digital em matéria de saúde, como o ChatGPT ou as aplicações de controlo de sintomas

30.04.2025

Os investigadores descobriram que os leigos têm dificuldade em avaliar corretamente sintomas inofensivos de doença (imagem simbólica).

Computer-generated image

Os doentes estão a recorrer cada vez mais a ferramentas digitais para reconhecer doenças e receber recomendações de ação. Dois estudos recentes da TU Berlin analisaram agora a qualidade e a eficácia dessas recomendações de saúde digitais. Os resultados mostram tanto o potencial como os riscos. Os estudos foram publicados nas revistas Scientific Reports e npj Health Systems Journal.

No primeiro estudo, uma equipa liderada pelo Dr. Marvin Kopka, do Departamento de Ergonomia da TU Berlin, desenvolveu um novo método de teste para avaliar a exatidão das recomendações de saúde do ChatGPT e de outros modelos de IA, como o LLaMa da Meta, bem como de aplicações de verificação de sintomas especialmente desenvolvidas que consultam os sintomas e fornecem recomendações de ação com base nos mesmos. Enquanto os testes anteriores se baseavam em casos idealizados que raramente ocorrem na realidade, o novo método baseia-se em casos reais de doentes com os quais os cientistas da TU Berlin testaram várias ferramentas digitais. Isto permite uma avaliação mais realista do grau de precisão e utilidade das ferramentas digitais na prática. "O nosso método normalizado pode ser visto como uma espécie de 'Stiftung Warentest', uma vez que nos permite comparar a precisão de diferentes aplicações, mas também identificar os seus pontos fortes e fracos", afirma o líder do estudo, Marvin Kopka.

As aplicações de verificação de sintomas são significativamente mais úteis

Os resultados do método de avaliação recentemente desenvolvido mostram que as aplicações de verificação de sintomas são significativamente mais úteis para os leigos do que o ChatGPT, especialmente quando se trata de distinguir entre sintomas inofensivos e graves. Enquanto o ChatGPT classifica quase todos os casos como emergência ou altamente urgentes, as aplicações especializadas podem fazer recomendações mais informadas e adequadas na maioria dos casos. Tal como outros estudos já demonstraram: o ChatGPT consegue diagnosticar bem as doenças se estiverem disponíveis valores laboratoriais ou resultados de exames. No entanto, como estes estão normalmente em falta em casa, o diagnóstico permanece muitas vezes impreciso e a lista de várias doenças possíveis sugerida pelo modelo é de pouca ajuda para os leigos. Recomendações de ação como "Vá ao médico" ou "Ligue para o 112" são mais decisivas - no entanto, o ChatGPT tem um desempenho fraco neste caso, uma vez que classifica quase todos os casos como necessitando de tratamento, mesmo com sintomas inofensivos.

Os leigos reconhecem geralmente as emergências médicas de forma fiável

Os investigadores também concluíram que Os leigos reconhecem geralmente as emergências médicas de forma fiável e chamam os serviços de emergência em casos graves, como um traumatismo craniano grave com vómitos e tonturas. No entanto, têm mais dificuldade em reconhecer corretamente os sintomas inofensivos. Por exemplo, muitas pessoas tendem a procurar ajuda médica demasiado depressa para queixas menores, como uma diarreia de curta duração ou uma pequena alteração da pele, apesar de muitas vezes isso não ser necessário. "O facto de cada vez mais pessoas recorrerem ao ChatGPT para obter aconselhamento médico é prejudicial para o sistema de saúde. A IA motiva frequentemente os utilizadores a irem imediatamente ao médico ou às urgências ao menor sintoma. Isto pode levar a uma sobrecarga maciça", adverte o líder do estudo, Dr. Marvin Kopka.

Os utilizadores não aceitam as recomendações digitais de forma acrítica

O segundo estudo não só comparou pessoas e tecnologia, como também investigou a exatidão com que as pessoas incorporam as recomendações do ChatGPT e das aplicações de verificação de sintomas nas suas próprias decisões. Este estudo mostrou que os utilizadores não aceitam as recomendações de forma acrítica, mas comparam-nas com outras fontes, como pesquisas no Google, conselhos de amigos ou outras aplicações. "Por outro lado, há também casos em que os doentes recebem demasiada informação, por vezes incompreensível, de ferramentas digitais que não conseguem categorizar. Isto cria ansiedade e, por isso, procuram aconselhamento especializado nas urgências ou junto do seu médico de família - mesmo para queixas inofensivas, como recomenda o ChatGPT", diz Kopka.

Antes de um estudo quantitativo com 600 indivíduos, o segundo estudo começou por observar 24 pessoas que utilizavam o ChatGPT e depois modelou a forma como tomavam decisões com a ajuda do ChatGPT e das aplicações. A avaliação mostrou novamente que o ChatGPT dificulta o autocuidado e aumenta o número de visitas desnecessárias ao médico. Em contrapartida, as aplicações de verificação de sintomas que funcionam bem ajudaram os utilizadores a tomar decisões a favor dos autocuidados nos casos adequados, contribuindo assim para reduzir os encargos para o sistema de saúde. "O ChatGPT tem muitas aplicações úteis, mas não é adequado para decidir se devo ir ao médico - é demasiado impreciso para isso", resume Kopka. "Devemos perguntar a nós próprios se uma aplicação nos ajuda a tomar boas decisões, em vez de esperarmos dela a perfeição. Afinal de contas, as pessoas já tomam decisões seguras e sensatas na maioria dos casos. No entanto, em algumas situações, podemos beneficiar das aplicações".

Os estudos mostram que as ferramentas digitais podem ser utilizadas para apoiar os doentes nas suas decisões. As aplicações de verificação de sintomas especialmente desenvolvidas estão atualmente a revelar-se mais úteis do que os modelos de IA generativa, como o ChatGPT. No entanto, de acordo com os investigadores, continua a ser crucial uma abordagem crítica das recomendações digitais, a fim de evitar erros de avaliação e uma sobrecarga desnecessária para o sistema de saúde.

Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Alemão pode ser encontrado aqui.

Publicação original

Marvin Kopka, Hendrik Napierala, Martin Privoznik, Desislava Sapunova, Sizhuo Zhang, Markus A. Feufel; "The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications"; Scientific Reports, Volume 14, 2024-12-23

Marvin Kopka, Sonja Mei Wang, Samira Kunz, Christine Schmid, Markus A. Feufel; "Technology-supported self-triage decision making"; npj Health Systems, Volume 2, 2025-1-25

https://www.bionity.com/pt/noticias/1186146/dr-ki-a-lupa.html

Publicação original

Marvin Kopka, Sonja Mei Wang, Samira Kunz, Christine Schmid, Markus A. Feufel; "Technology-supported self-triage decision making"; npj Health Systems, Volume 2, 2025-1-25

Temas

software de IA aplicativos

Mostrar tudo

Organizações

TU Berlin