Tecnologia Científica

Pesquisadores trabalham para eliminar 'bugs fantásticos' ocultos em benchmarks de IA
Após analisar milhares de benchmarks usados no desenvolvimento de IA, uma equipe de Stanford descobriu que 5% deles poderiam apresentar falhas graves com ramificações de longo alcance.
Por André Myers - 16/12/2025


Cortesia da HAI


Cada vez que um pesquisador de IA treina um novo modelo para entender a linguagem, reconhecer imagens ou resolver um enigma médico, uma grande questão permanece: este modelo é melhor do que os anteriores? Para responder a essa pergunta, os pesquisadores de IA utilizam baterias de benchmarks, ou testes, para medir e avaliar as capacidades de um novo modelo. Os resultados dos benchmarks podem determinar o sucesso ou o fracasso de um modelo.

Mas existem dezenas de milhares de benchmarks espalhados por diversos conjuntos de dados. Qual deles os desenvolvedores devem usar, e todos têm o mesmo valor?

Em um novo artigo apresentado na Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS) em dezembro, os pesquisadores Sanmi Koyejo , professor assistente de ciência da computação na Universidade Stanford, e Sang Truong , aluno de doutorado no laboratório Stanford Trustworthy AI Research (STAIR) de Koyejo , analisaram matematicamente milhares de benchmarks para revelar que até um em cada vinte é inválido.

“Os benchmarks servem a um verdadeiro bem público”, diz Koyejo. “Mas é necessário um escrutínio e um detalhamento maiores sobre como os construímos, e isso precisa corresponder à sua crescente importância na comunidade de IA.”

Verdade e consequências

Os pesquisadores se referem a essas falhas de forma bem-humorada como "bugs fantásticos" – uma alusão aos " animais fantásticos " do cinema – mas as consequências estão gerando uma espécie de crise de confiabilidade na IA. "Erros em benchmarks têm uma enorme influência no setor", afirma Koyejo.

Benchmarks falhos podem prejudicar seriamente a pontuação de um modelo, promovendo indevidamente modelos com desempenho inferior e penalizando injustamente os de melhor desempenho. Eles também podem ter efeitos mais insidiosos, porém de longo alcance, já que os desenvolvedores frequentemente se baseiam em pontuações de benchmarks para tomar decisões críticas sobre financiamento, pesquisa e alocação de recursos, o que pode levá-los a concentrar recursos indevidamente em modelos menos capazes ou a reter o lançamento de modelos com base em pontuações não confiáveis.

"Os benchmarks servem a um verdadeiro bem público. Mas é necessário um escrutínio e um detalhamento maiores sobre como os construímos, e isso precisa estar à altura de sua crescente importância na comunidade de IA."

Sanmi Koyejo
Professor Assistente de Ciência da Computação

Koyejo e Truong agora esperam trabalhar com organizações de avaliação comparativa para corrigir ou remover indicadores de desempenho falhos, a fim de restaurar a confiabilidade e a imparcialidade na pontuação dos indicadores e, assim, melhorar o desenvolvimento de modelos e as classificações em geral.

Os erros fantásticos podem assumir muitas formas: erros crassos, rotulagem incorreta, perguntas ambíguas ou com viés cultural, inconsistências lógicas e até mesmo erros de formatação que levam a respostas corretas serem consideradas incorretas. Por exemplo, em um teste de benchmark onde a resposta correta era “$5”, o sistema classificou incorretamente respostas como “5 dólares” e “$5,00” como erradas. Essas pontuações falhas têm sérias consequências para os modelos e os desenvolvedores, afirmam os pesquisadores. Em um exemplo fornecido no artigo, o modelo DeepSeek-R1 ficou em terceiro lugar entre os modelos concorrentes usando benchmarks não revisados e subiu para o segundo lugar após a atualização do benchmark.

Entomologia de IA

Para desenterrar esses erros fantásticos, Koyejo e Truong usaram métodos estatísticos consagrados, baseados na teoria da mensuração, para destacar questões atípicas em que um número incomumente grande de modelos apresentava falhas. Em seguida, utilizaram um modelo de linguagem abrangente (LLM) para avaliar e justificar o encaminhamento de certos parâmetros de referência para revisão humana adicional.

“Nossa estrutura que combina estatística e IA reduz efetivamente o tempo da revisão humana, identificando a maioria das perguntas realmente problemáticas”, afirma Truong. Para isso, a abordagem alcançou 84% de precisão na detecção de perguntas com falhas em nove benchmarks populares de IA. “Ou seja, mais de oito em cada dez perguntas sinalizadas para revisão apresentavam falhas demonstráveis”, observa Truong.

Os pesquisadores agora estão trabalhando com desenvolvedores de benchmarks para corrigir as falhas, defendendo uma mudança da abordagem atual de "publicar e esquecer" para uma era de gestão contínua. A reação ao trabalho deles tem sido "mista", diz Koyejo. A maioria reconhece a necessidade de medições mais confiáveis, mas muitas vezes reluta em se comprometer com a melhoria contínua.

Ao incentivar organizações de benchmarking a adotarem sua estrutura e abordarem essas preocupações, Koyejo e Truong esperam ver uma melhoria significativa no padrão dos benchmarks usados globalmente como um caminho para aprimorar a IA como um todo. Espera-se que essa melhoria leve a avaliações de modelos mais precisas, melhor alocação de recursos e um aumento geral na confiança e credibilidade dos sistemas de IA.

“À medida que a IA continua a se integrar cada vez mais em vários setores”, diz Koyejo, “o impacto dessas mudanças pode ser profundo, impulsionando inovações e garantindo uma IA mais segura, confiável e poderosa.”


Para obter mais informações
Este trabalho foi parcialmente financiado pelo Instituto de IA Centrada no Ser Humano de Stanford . Os autores colaboradores incluem Yuheng Tu , Michael Hardy , Anka Reuel , Zeyu Tang , Jirayu Burapacheep , Jonathan Perera , Chibuike Uwakwe e os membros do corpo docente da Escola de Pós-Graduação em Educação de Stanford, Benjamin W. Domingue e Nick Haber .

 

.
.

Leia mais a seguir