Tecnologia Científica

Por que é fundamental ir além das métricas de aprendizado de máquina excessivamente agregadas?
Uma nova pesquisa detecta evidências ocultas de correlações equivocadas e fornece um método para melhorar a precisão.
Por Michaela Jarvis - 24/01/2026


“Demonstramos que, mesmo quando se treinam modelos com grandes quantidades de dados e se escolhe o melhor modelo médio, em um novo cenário esse 'melhor modelo' pode ser o pior modelo para 6 a 75% dos novos dados”, afirma a professora associada Marzyeh Ghassemi. Créditos: Imagem: iStock


Pesquisadores do MIT identificaram exemplos significativos de falhas em modelos de aprendizado de máquina quando esses modelos são aplicados a dados diferentes daqueles com os quais foram treinados, levantando questões sobre a necessidade de testes sempre que um modelo é implementado em um novo contexto.

“Demonstramos que, mesmo quando se treinam modelos com grandes quantidades de dados e se escolhe o melhor modelo médio, em um novo cenário esse 'melhor modelo' pode ser o pior modelo para 6 a 75% dos novos dados”, afirma Marzyeh Ghassemi, professora associada do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do Instituto de Engenharia Médica e Ciência e pesquisadora principal do Laboratório de Sistemas de Informação e Decisão.

Em um artigo apresentado na conferência Neural Information Processing Systems (NeurIPS 2025) em dezembro, os pesquisadores apontam que modelos treinados para diagnosticar doenças com eficácia em radiografias de tórax em um hospital, por exemplo, podem ser considerados eficazes em um hospital diferente, em média. A avaliação de desempenho dos pesquisadores, no entanto, revelou que alguns dos modelos com melhor desempenho no primeiro hospital apresentaram o pior desempenho em até 75% dos pacientes no segundo hospital, mesmo que, quando todos os pacientes são agrupados no segundo hospital, o alto desempenho médio mascare essa falha.

Suas descobertas demonstram que, embora se acredite que correlações espúrias — um exemplo simples das quais é quando um sistema de aprendizado de máquina, por não ter "visto" muitas vacas fotografadas na praia, classifica a foto de uma vaca na praia como uma orca simplesmente por causa do fundo — sejam mitigadas apenas melhorando o desempenho do modelo em dados observados, elas ainda ocorrem e continuam a representar um risco para a confiabilidade de um modelo em novos contextos. Em muitos casos — incluindo áreas examinadas pelos pesquisadores, como radiografias de tórax, imagens histopatológicas de câncer e detecção de discurso de ódio — essas correlações espúrias são muito mais difíceis de detectar.

No caso de um modelo de diagnóstico médico treinado com radiografias de tórax, por exemplo, o modelo pode ter aprendido a correlacionar uma marcação específica e irrelevante nas radiografias de um hospital com uma determinada patologia. Em outro hospital onde a marcação não é utilizada, essa patologia poderia passar despercebida.

Pesquisas anteriores do grupo de Ghassemi mostraram que modelos podem correlacionar erroneamente fatores como idade, sexo e raça com achados médicos. Se, por exemplo, um modelo foi treinado com base em radiografias de tórax de pessoas idosas com pneumonia e não "viu" tantas radiografias de pessoas mais jovens, ele pode prever que apenas pacientes idosos têm pneumonia.

“Queremos que os modelos aprendam a analisar as características anatômicas do paciente e, em seguida, a tomar uma decisão com base nisso”, diz Olawale Salaudeen, pós-doutorando do MIT e principal autor do artigo, “mas, na verdade, qualquer dado correlacionado com uma decisão pode ser usado pelo modelo. E essas correlações podem não ser robustas diante de mudanças no ambiente, tornando as previsões do modelo fontes pouco confiáveis para a tomada de decisões.”


Correlações espúrias contribuem para os riscos de tomada de decisão tendenciosa. No artigo apresentado na conferência NeurIPS, os pesquisadores mostraram que, por exemplo, modelos de radiografia de tórax que melhoraram o desempenho geral do diagnóstico, na verdade, apresentaram pior desempenho em pacientes com doenças pleurais ou cardiomediastino dilatado, ou seja, aumento do coração ou da cavidade torácica central.

Outros autores do artigo incluem os estudantes de doutorado Haoran Zhang e Kumail Alhamoud, a professora assistente de EECS Sara Beery e Ghassemi.

Embora trabalhos anteriores geralmente aceitem que modelos ordenados do melhor para o pior em termos de desempenho manterão essa ordem quando aplicados em novos contextos, chamados de precisão em tempo real, os pesquisadores conseguiram demonstrar exemplos de situações em que os modelos com melhor desempenho em um contexto apresentaram o pior desempenho em outro.

Salaudeen desenvolveu um algoritmo chamado OODSelect para encontrar exemplos onde a precisão na linha de corte era comprometida. Basicamente, ele treinou milhares de modelos usando dados da distribuição, ou seja, dados do primeiro cenário, e calculou sua precisão. Em seguida, aplicou os modelos aos dados do segundo cenário. Quando aqueles com a maior precisão nos dados do primeiro cenário apresentaram resultados incorretos ao serem aplicados a uma grande porcentagem de exemplos no segundo cenário, isso identificou os subconjuntos problemáticos, ou subpopulações. Salaudeen também enfatiza os perigos das estatísticas agregadas para avaliação, que podem obscurecer informações mais granulares e consequentes sobre o desempenho do modelo.

No decorrer do seu trabalho, os pesquisadores separaram os "exemplos com maior número de erros de cálculo" para não confundir correlações espúrias dentro de um conjunto de dados com situações que são simplesmente difíceis de classificar.

O artigo da NeurIPS disponibiliza o código dos pesquisadores e alguns subconjuntos identificados para trabalhos futuros.

Uma vez que um hospital, ou qualquer organização que utilize aprendizado de máquina, identifique subconjuntos nos quais um modelo apresenta baixo desempenho, essa informação pode ser usada para aprimorar o modelo para sua tarefa e contexto específicos. Os pesquisadores recomendam que trabalhos futuros adotem o OODSelect para destacar alvos de avaliação e desenvolver abordagens que visem aprimorar o desempenho de forma mais consistente.

“Esperamos que o código divulgado e os subconjuntos do OODSelect se tornem um ponto de partida”, escrevem os pesquisadores, “rumo a benchmarks e modelos que combatam os efeitos adversos das correlações espúrias”.

 

.
.

Leia mais a seguir