Tecnologia Científica

Ensinar a IA a admitir a incerteza
Pesquisadores da Johns Hopkins mostram como diferentes 'probabilidades' podem ensinar modelos de IA a admitir quando não estão confiantes o suficiente em uma resposta
Por Jamie Patterson - 29/06/2025


Cundra / Getty Images


Em situações de alto risco, como a saúde — ou o Jeopardy! — pode ser mais seguro dizer "não sei" do que responder incorretamente. Médicos, participantes de programas de TV e candidatos a testes padronizados entendem isso, mas a maioria das aplicações de inteligência artificial ainda prefere dar uma resposta potencialmente errada a admitir incerteza.

Cientistas da computação da Johns Hopkins acreditam ter uma solução: um novo método que permite que modelos de IA gastem mais tempo pensando em problemas e usa uma pontuação de confiança para determinar quando a IA deve dizer "não sei" em vez de arriscar uma resposta errada — crucial para áreas de alto risco como medicina, direito ou engenharia.

A equipe de pesquisa apresentará suas descobertas na 63ª Reunião Anual da Associação de Linguística Computacional , que será realizada de 27 de julho a 1º de agosto em Viena, Áustria.

"Quando você exige alta confiança, deixar o sistema pensar por mais tempo significa que ele fornecerá mais respostas corretas e mais respostas incorretas."

William Jurayj
Aluno de doutorado, Escola de Engenharia Whiting

"Tudo começou quando vimos que modelos de linguagem de ponta dedicam mais tempo pensando para resolver problemas mais complexos. Então, nos perguntamos: será que esse tempo adicional de reflexão também pode ajudar esses modelos a determinar se um problema foi resolvido corretamente, para que possam reportar isso ao usuário?", afirma o primeiro autor, William Jurayj , doutorando em ciência da computação e afiliado ao Centro de Processamento de Linguagem e Fala da Escola de Engenharia Whiting .

Para investigar, a equipe fez com que grandes modelos de linguagem gerassem cadeias de raciocínio de diferentes comprimentos enquanto respondiam a problemas matemáticos complexos e, em seguida, mediram como o comprimento da cadeia afetava tanto a resposta final do modelo quanto sua confiança nela. Os pesquisadores fizeram com que os modelos respondessem apenas quando sua confiança ultrapassasse um determinado limite — o que significa que "não sei" era uma resposta aceitável.

Eles descobriram que pensar mais, de modo geral, melhora a precisão e a confiança dos modelos. Mas mesmo com bastante tempo para refletir, os modelos ainda podem fazer suposições imprecisas ou dar respostas erradas, especialmente sem penalidades para respostas incorretas. De fato, os pesquisadores descobriram que, quando estabeleceram um padrão alto de confiança e deixaram os modelos pensar por mais tempo, a precisão dos modelos diminuiu.

"Isso acontece porque a precisão das respostas é apenas parte do desempenho de um sistema", explica Jurayj. "Quando você exige alta confiança, deixar o sistema pensar por mais tempo significa que ele fornecerá mais respostas corretas e mais respostas incorretas. Em alguns cenários, o excesso de respostas corretas vale o risco. Mas em outros ambientes de alto risco, isso pode não ser o caso."

Motivada por essa descoberta, a equipe sugeriu três configurações diferentes de "probabilidades" para penalizar respostas erradas: probabilidades de exame, onde não há penalidade para uma resposta incorreta; probabilidades do Jeopardy!, onde as respostas corretas são recompensadas na mesma proporção que as incorretas são penalizadas; e probabilidades de alto risco, onde uma resposta incorreta é penalizada muito mais do que uma resposta correta é recompensada.

Eles descobriram que, sob probabilidades mais rigorosas, um modelo deve se recusar a responder a uma pergunta se não estiver confiante o suficiente em sua resposta após esgotar seu orçamento computacional. E em limites de confiança mais altos, isso significa que mais perguntas ficarão sem resposta — mas isso não é necessariamente algo ruim.

"Um aluno pode ficar um pouco incomodado em esperar 10 minutos só para descobrir que precisa resolver um problema de matemática sozinho porque o modelo de IA é incerto", diz Jurayj. "Mas em ambientes de alto risco, isso é infinitamente preferível a esperar cinco minutos por uma resposta que parece correta, mas não está."

Agora, a equipe está incentivando a comunidade de pesquisa de IA a relatar o desempenho de seus modelos em respostas a perguntas em provas e probabilidades no Jeopardy! para que todos possam se beneficiar da IA com confiança mais calibrada.

"Esperamos que a comunidade de pesquisa aceite nosso convite para relatar o desempenho em cenários com custos diferentes de zero para respostas incorretas, pois isso naturalmente motivará o desenvolvimento de melhores métodos para quantificação de incertezas", diz Jurayj.

Outros autores deste trabalho incluem o estudante de graduação Jeffrey Cheng e Benjamin Van Durme , professor associado de ciência da computação afiliado ao CLSP e ao Centro de Excelência em Tecnologia da Linguagem Humana .

 

.
.

Leia mais a seguir