Tecnologia Científica

Um novo estudo alerta para os riscos do uso de chatbots de IA para aconselhamento médico
O maior estudo de usuários sobre grandes modelos de linguagem (LLMs, na sigla em inglês) para auxiliar o público em geral em decisões médicas constatou que eles representam riscos para pessoas que buscam aconselhamento médico devido à sua...
Por Oxford - 13/02/2026


O novo estudo descobriu que os profissionais de saúde mental tendem a fornecer informações imprecisas e inconsistentes para pessoas que buscam aconselhamento médico. Crédito da imagem: everythingpossible, Getty Images.


O maior estudo de usuários sobre grandes modelos de linguagem (LLMs, na sigla em inglês) para auxiliar o público em geral em decisões médicas constatou que eles representam riscos para pessoas que buscam aconselhamento médico devido à sua tendência de fornecer informações imprecisas e inconsistentes. Os resultados foram publicados na revista Nature Medicine .

O novo estudo, liderado pelo Instituto de Internet de Oxford e pelo Departamento Nuffield de Ciências da Saúde da Atenção Primária da Universidade de Oxford, realizado em parceria com a MLCommons e outras instituições, revela uma grande lacuna entre a promessa dos grandes modelos de linguagem (LLMs) e sua utilidade para pessoas que buscam aconselhamento médico. Embora esses modelos se destaquem em testes padronizados de conhecimento médico, eles representam riscos para usuários reais que buscam ajuda para seus próprios sintomas.

"Apesar de toda a propaganda, a IA ainda não está pronta para assumir o papel do médico. Os pacientes precisam estar cientes de que perguntar a um modelo de linguagem complexo sobre seus sintomas pode ser perigoso, resultando em diagnósticos errados e na incapacidade de reconhecer quando é necessário atendimento urgente."

Dra. Rebecca Payne , Departamento Nuffield de Ciências da Saúde da Atenção Primária

No estudo, os participantes utilizaram modelos de aprendizagem baseados em aprendizagem (LLMs) para identificar problemas de saúde e decidir sobre um curso de ação apropriado, como consultar um clínico geral ou ir ao hospital, com base em informações fornecidas em uma série de cenários médicos específicos desenvolvidos por médicos.

Uma descoberta fundamental foi que os modelos de aprendizagem colaborativa (LLMs) não se mostraram superiores aos métodos tradicionais . Os participantes que utilizaram os LLMs não tomaram decisões melhores do que aqueles que se basearam em métodos tradicionais, como pesquisas online ou seu próprio julgamento.

O estudo também revelou uma falha na comunicação bilateral . Os participantes frequentemente não sabiam quais informações os consultores jurídicos precisavam para oferecer aconselhamento preciso, e as respostas que recebiam muitas vezes combinavam recomendações boas e ruins, dificultando a identificação do melhor curso de ação.

Além disso, os testes existentes são insuficientes : os métodos de avaliação atuais para LLMs não refletem a complexidade da interação com usuários humanos. Assim como os ensaios clínicos para novos medicamentos, os sistemas LLM devem ser testados no mundo real antes de serem implementados.

"Essas descobertas destacam a dificuldade de construir sistemas de IA que possam realmente apoiar as pessoas em áreas sensíveis e de alto risco, como a saúde", disse a Dra. Rebecca Payne , médica de família e principal profissional médica do estudo (Departamento Nuffield de Ciências da Saúde da Atenção Primária, Universidade de Oxford e Universidade de Bangor).  

Apesar de toda a propaganda, a IA ainda não está pronta para assumir o papel do médico. Os pacientes precisam estar cientes de que perguntar a um modelo de linguagem complexo sobre seus sintomas pode ser perigoso, levando a diagnósticos errados e à incapacidade de reconhecer quando é necessária ajuda urgente.

No estudo, pesquisadores realizaram um ensaio randomizado envolvendo quase 1.300 participantes online, aos quais foi solicitado que identificassem possíveis problemas de saúde e as condutas recomendadas, com base em cenários médicos pessoais. Os cenários detalhados, elaborados por médicos, variavam desde um jovem que desenvolveu uma forte dor de cabeça após uma noite com amigos até uma mãe recente que se sentia constantemente sem fôlego e exausta.

"Não podemos confiar apenas em testes padronizados para determinar se esses sistemas são seguros para uso público. Assim como exigimos ensaios clínicos para novos medicamentos, os sistemas de IA precisam de testes rigorosos com usuários reais e diversos para que possamos compreender suas verdadeiras capacidades em contextos de alto risco, como o da saúde."

Professor Associado Adam Mahdi , Instituto de Internet de Oxford

Um grupo utilizou um modelo de aprendizagem baseado em linguagem (LLM) para auxiliar na tomada de decisões, enquanto um grupo de controle utilizou outras fontes tradicionais de informação. Os pesquisadores avaliaram então a precisão com que os participantes identificaram os prováveis problemas médicos e a próxima etapa mais apropriada, como consultar um clínico geral ou ir ao pronto-socorro. Eles também compararam esses resultados com os de estratégias padrão de teste de LLM, que não envolvem usuários humanos reais. O contraste foi impressionante: modelos que apresentaram bom desempenho em testes de referência falharam ao interagir com pessoas.

Eles encontraram evidências de três tipos de desafio:

Muitas vezes, os usuários não sabiam quais informações deveriam fornecer ao LLM.
Os mestres em Direito (LLMs) forneceram respostas muito diferentes com base em ligeiras variações nas perguntas feitas.

Os LLMs frequentemente forneciam uma mistura de informações boas e ruins, que os usuários tinham dificuldade em distinguir.

O autor principal , Andrew Bean , estudante de doutorado no Instituto de Internet de Oxford, afirmou: "Desenvolver testes robustos para grandes modelos de linguagem é fundamental para entendermos como podemos utilizar essa nova tecnologia. Neste estudo, mostramos que a interação com humanos representa um desafio até mesmo para os melhores modelos de linguagem. Esperamos que este trabalho contribua para o desenvolvimento de sistemas de IA mais seguros e úteis."

O autor sênior, Professor Associado Adam Mahdi (Instituto de Internet de Oxford), afirmou: "A discrepância entre as pontuações de benchmarks e o desempenho no mundo real deve servir de alerta para desenvolvedores e reguladores de IA. Nosso trabalho recente sobre validade de construto em benchmarks mostra que muitas avaliações falham em medir o que afirmam medir, e este estudo demonstra exatamente por que isso importa. Não podemos confiar apenas em testes padronizados para determinar se esses sistemas são seguros para uso público. Assim como exigimos ensaios clínicos para novos medicamentos, os sistemas de IA precisam de testes rigorosos com usuários reais e diversos para entendermos suas verdadeiras capacidades em contextos de alto risco, como o da saúde."

O estudo intitulado "O conhecimento clínico em modelos de aprendizagem de línguas não se traduz em interações humanas" foi publicado na revista Nature Medicine .

Para obter mais informações sobre esta notícia ou para republicar este conteúdo, entre em contato com  news.office@admin.ox.ac.uk

 

.
.

Leia mais a seguir