Estudo mostra que modelos de visão e linguagem não conseguem lidar com consultas com palavras de negação
Palavras como 'não' e 'não'podem fazer com que essa classe popular de modelos de IA falhe inesperadamente em cenários de alto risco, como diagnósticos médicos.

Pesquisadores do MIT descobriram que modelos de visão-linguagem, amplamente usados ??para analisar imagens médicas para agilizar o diagnóstico, não entendem palavras de negação como "não" e "não". Créditos: Imagem: iStock; MIT News
Imagine uma radiologista examinando uma radiografia de tórax de um novo paciente. Ela percebe que o paciente apresenta inchaço no tecido, mas não apresenta coração dilatado. Buscando acelerar o diagnóstico, ela pode usar um modelo de aprendizado de máquina com visão e linguagem para buscar relatos de pacientes semelhantes.
Mas se o modelo identificar erroneamente os relatórios com ambas as condições, o diagnóstico mais provável pode ser bem diferente: se um paciente tiver inchaço nos tecidos e coração dilatado, é muito provável que a condição esteja relacionada ao coração, mas sem coração dilatado pode haver várias causas subjacentes.
Em um novo estudo, pesquisadores do MIT descobriram que modelos de visão-linguagem são extremamente propensos a cometer esse tipo de erro em situações do mundo real porque não entendem negação — palavras como "não" e "não" que especificam o que é falso ou ausente.
“Essas palavras de negação podem ter um impacto muito significativo e, se usarmos esses modelos cegamente, podemos ter consequências catastróficas”, diz Kumail Alhamoud, estudante de pós-graduação do MIT e principal autor deste estudo .
Os pesquisadores testaram a capacidade dos modelos de visão e linguagem de identificar negação em legendas de imagens. Os modelos frequentemente apresentaram desempenho tão bom quanto um palpite aleatório. Com base nessas descobertas, a equipe criou um conjunto de dados de imagens com legendas correspondentes que incluem palavras de negação que descrevem objetos ausentes.
Eles mostram que o retreinamento de um modelo de visão-linguagem com este conjunto de dados resulta em melhorias de desempenho quando um modelo é solicitado a recuperar imagens que não contêm determinados objetos. Também aumenta a precisão em respostas a perguntas de múltipla escolha com legendas negadas.
Mas os pesquisadores alertam que mais trabalho é necessário para abordar as causas básicas desse problema. Eles esperam que sua pesquisa alerte potenciais usuários sobre uma deficiência até então despercebida que pode ter sérias implicações em cenários de alto risco onde esses modelos estão sendo usados atualmente, desde a determinação de quais pacientes receberão determinados tratamentos até a identificação de defeitos em produtos em fábricas.
“Este é um artigo técnico, mas há questões mais importantes a serem consideradas. Se algo tão fundamental como a negação for quebrado, não deveríamos estar usando modelos de visão/linguagem de grande porte em muitas das formas como os usamos agora — sem uma avaliação intensiva”, afirma a autora sênior Marzyeh Ghassemi, professora associada do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e membro do Instituto de Ciências da Engenharia Médica e do Laboratório de Sistemas de Informação e Decisão.
Ghassemi e Alhamoud são acompanhados no artigo por Shaden Alshammari, estudante de pós-graduação do MIT; Yonglong Tian, da OpenAI; Guohao Li, ex-pós-doutorado na Universidade de Oxford; Philip HS Torr, professor em Oxford; e Yoon Kim, professor assistente da EECS e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT. A pesquisa será apresentada na Conferência sobre Visão Computacional e Reconhecimento de Padrões.
Negligenciando a negação
Modelos de linguagem visual (VLM) são treinados usando enormes coleções de imagens e legendas correspondentes, que aprendem a codificar como conjuntos de números, chamados representações vetoriais. Os modelos usam esses vetores para distinguir entre diferentes imagens.
Um VLM utiliza dois codificadores separados, um para texto e outro para imagens, e os codificadores aprendem a gerar vetores semelhantes para uma imagem e sua legenda de texto correspondente.
“As legendas expressam o que está nas imagens — são um rótulo positivo. E esse é, na verdade, todo o problema. Ninguém olha para uma imagem de um cachorro pulando uma cerca e coloca na legenda 'um cachorro pulando uma cerca, sem helicópteros'”, diz Ghassemi.
Como os conjuntos de dados de legenda de imagem não contêm exemplos de negação, os VLMs nunca aprendem a identificá-la.
Para se aprofundar nesse problema, os pesquisadores criaram duas tarefas de referência que testam a capacidade dos VLMs de entender a negação.
Na primeira, eles usaram um modelo de linguagem de grande porte (LLM) para recapitular imagens em um conjunto de dados existente, solicitando ao LLM que pensasse em objetos relacionados que não estavam presentes na imagem e os escrevesse na legenda. Em seguida, testaram os modelos, solicitando-lhes palavras de negação para recuperar imagens que continham determinados objetos, mas não outros.
Para a segunda tarefa, eles elaboraram questões de múltipla escolha que solicitam a um VLM que selecione a legenda mais apropriada de uma lista de opções intimamente relacionadas. Essas legendas diferem apenas por adicionar uma referência a um objeto que não aparece na imagem ou por negar um objeto que aparece na imagem.
Os modelos frequentemente falhavam em ambas as tarefas, com o desempenho de recuperação de imagens caindo quase 25% com legendas anuladas. Ao responder a perguntas de múltipla escolha, os melhores modelos alcançaram apenas cerca de 39% de precisão, com vários modelos apresentando desempenho dentro ou até abaixo da probabilidade aleatória.
Um motivo para essa falha é um atalho que os pesquisadores chamam de viés de afirmação — os VLMs ignoram palavras de negação e se concentram em objetos nas imagens.
"Isso não acontece apenas com palavras como 'não' e 'não'. Independentemente de como você expresse negação ou exclusão, os modelos simplesmente ignorarão", diz Alhamoud.
Isso foi consistente em todos os VLM testados.
“Um problema solucionável”
Como os VLMs normalmente não são treinados em legendas de imagens com negação, os pesquisadores desenvolveram conjuntos de dados com palavras de negação como um primeiro passo para resolver o problema.
Usando um conjunto de dados com 10 milhões de pares de legendas de imagem e texto, eles levaram um LLM a propor legendas relacionadas que especificam o que é excluído das imagens, gerando novas legendas com palavras de negação.
Eles tiveram que ter um cuidado especial para que essas legendas sintéticas ainda pudessem ser lidas naturalmente, ou isso poderia fazer com que um VLM falhasse no mundo real ao se deparar com legendas mais complexas escritas por humanos.
Eles descobriram que o ajuste fino dos VLMs com seu conjunto de dados resultou em ganhos de desempenho em todos os níveis. Aprimorou a capacidade de recuperação de imagens dos modelos em cerca de 10%, além de aumentar o desempenho na tarefa de resposta a perguntas de múltipla escolha em cerca de 30%.
“Mas nossa solução não é perfeita. Estamos apenas recapitulando conjuntos de dados, uma forma de aumento de dados. Ainda não abordamos como esses modelos funcionam, mas esperamos que isso seja um sinal de que este é um problema solucionável e que outros possam adotar nossa solução e aprimorá-la”, diz Alhamoud.
Ao mesmo tempo, ele espera que seu trabalho incentive mais usuários a pensar sobre o problema que desejam resolver com um VLM e a projetar alguns exemplos para testá-lo antes da implantação.
No futuro, os pesquisadores poderão expandir esse trabalho ensinando VLMs a processar texto e imagens separadamente, o que pode melhorar sua capacidade de compreender a negação. Além disso, eles poderão desenvolver conjuntos de dados adicionais que incluam pares de imagens e legendas para aplicações específicas, como na área da saúde.