Tecnologia Científica

Uma nova maneira de testar o quão bem os sistemas de IA classificam o texto
À medida que grandes modelos de linguagem dominam cada vez mais nossa vida cotidiana, novos sistemas para verificar sua confiabilidade são mais importantes do que nunca.
Por David Chandler - 15/08/2025


Uma nova abordagem mede o quão bem os classificadores de texto estão fazendo seu trabalho e mostra como torná-los mais precisos. Créditos: Imagem: iStock


Esta crítica de filme é um elogio ou uma crítica negativa? Esta notícia é sobre negócios ou tecnologia? Esta conversa com um chatbot online está se desviando para conselhos financeiros? Este site de informações médicas online está divulgando informações falsas?

Esses tipos de conversas automatizadas, sejam elas para buscar avaliações de filmes ou restaurantes ou obter informações sobre sua conta bancária ou histórico de saúde, estão se tornando cada vez mais comuns. Mais do que nunca, essas avaliações estão sendo feitas por algoritmos altamente sofisticados, conhecidos como classificadores de texto, em vez de seres humanos. Mas como podemos determinar a precisão real dessas classificações?

Agora, uma equipe do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT criou uma abordagem inovadora não apenas para medir o quão bem esses classificadores estão fazendo seu trabalho, mas também para dar um passo adiante e mostrar como torná-los mais precisos.

O novo software de avaliação e remediação foi desenvolvido por Kalyan Veeramachaneni, pesquisador principal do LIDS, seus alunos Lei Xu e Sarah Alnegheimish, e outros dois. O pacote de software está sendo disponibilizado gratuitamente para download por qualquer pessoa que queira utilizá-lo.

Um método padrão para testar esses sistemas de classificação é criar o que chamamos de exemplos sintéticos — frases que se assemelham bastante àquelas que já foram classificadas. Por exemplo, pesquisadores podem pegar uma frase que já foi marcada por um programa classificador como tendo uma avaliação positiva e verificar se a alteração de uma ou algumas palavras, mantendo o mesmo significado, poderia enganar o classificador, fazendo-o considerá-la uma panificação. Ou uma frase que foi determinada como desinformação pode ser classificada erroneamente como precisa. Essa capacidade de enganar os classificadores resulta nesses exemplos controversos.

As pessoas tentaram várias maneiras de encontrar vulnerabilidades nesses classificadores, diz Veeramachaneni. Mas os métodos existentes para encontrar essas vulnerabilidades têm dificuldade nessa tarefa e deixam passar muitos exemplos que deveriam ser capturados, diz ele.

Cada vez mais, as empresas estão tentando usar essas ferramentas de avaliação em tempo real, monitorando a saída de chatbots usados para diversos fins para tentar garantir que não estejam emitindo respostas impróprias. Por exemplo, um banco pode usar um chatbot para responder a consultas rotineiras de clientes, como verificar saldos de conta ou solicitar um cartão de crédito, mas quer garantir que suas respostas nunca possam ser interpretadas como aconselhamento financeiro, o que poderia expor a empresa a responsabilidades. "Antes de mostrar a resposta do chatbot ao usuário final, eles querem usar o classificador de texto para detectar se ele está dando aconselhamento financeiro ou não", diz Veeramachaneni. Mas então é importante testar esse classificador para ver a confiabilidade de suas avaliações.

"Esses chatbots, ou mecanismos de sumarização ou algo do tipo estão sendo implementados em todos os níveis", diz ele, para lidar com clientes externos e também dentro de uma organização, por exemplo, fornecendo informações sobre questões de RH. É importante colocar esses classificadores de texto em operação para detectar coisas que eles não deveriam dizer e filtrá-las antes que o resultado seja transmitido ao usuário.

É aí que entra o uso de exemplos adversariais — aquelas frases que já foram classificadas, mas que produzem uma resposta diferente quando são ligeiramente modificadas, mantendo o mesmo significado. Como as pessoas podem confirmar que o significado é o mesmo? Usando outro modelo de linguagem amplo (MLL) que interpreta e compara significados. Portanto, se o LLM diz que as duas frases significam a mesma coisa, mas o classificador as rotula de forma diferente, "essa é uma frase adversarial — ela pode enganar o classificador", diz Veeramachaneni. E quando os pesquisadores examinaram essas frases adversariais, "descobrimos que, na maioria das vezes, isso era apenas uma mudança de uma palavra", embora as pessoas que usavam LLMs para gerar essas frases alternativas muitas vezes não percebessem isso.

Investigações posteriores, utilizando LLMs para analisar milhares de exemplos, mostraram que certas palavras específicas tinham uma influência descomunal na alteração das classificações e, portanto, o teste da precisão de um classificador poderia se concentrar nesse pequeno subconjunto de palavras que parecem fazer a maior diferença. Eles descobriram que um décimo de 1% de todas as 30.000 palavras no vocabulário do sistema poderia ser responsável por quase metade de todas essas inversões de classificação, em algumas aplicações específicas.

Lei Xu, PhD '23, recém-formado pelo LIDS e que realizou grande parte da análise como parte de sua tese, "utilizou diversas técnicas de estimativa interessantes para descobrir quais são as palavras mais poderosas, capazes de alterar a classificação geral e enganar o classificador", afirma Veeramachaneni. O objetivo é possibilitar buscas muito mais segmentadas, em vez de vasculhar todas as possíveis substituições de palavras, tornando assim a tarefa computacional de gerar exemplos adversários muito mais gerenciável. "Ele está usando grandes modelos de linguagem, curiosamente, como forma de compreender o poder de uma única palavra."

Em seguida, também utilizando LLMs, ele busca outras palavras intimamente relacionadas a essas palavras poderosas, e assim por diante, permitindo uma classificação geral das palavras de acordo com sua influência nos resultados. Uma vez encontradas essas frases adversas, elas podem ser usadas para retreinar o classificador para levá-las em consideração, aumentando sua robustez contra esses erros.

Tornar os classificadores mais precisos pode não parecer grande coisa se for apenas uma questão de classificar notícias em categorias ou decidir se as avaliações de qualquer coisa, de filmes a restaurantes, são positivas ou negativas. Mas, cada vez mais, os classificadores estão sendo usados em contextos onde os resultados realmente importam, seja para impedir a divulgação inadvertida de informações médicas, financeiras ou de segurança sensíveis, seja para ajudar a orientar pesquisas importantes, como sobre propriedades de compostos químicos ou o enovelamento de proteínas para aplicações biomédicas, ou para identificar e bloquear discurso de ódio ou desinformação conhecida.

Como resultado dessa pesquisa, a equipe introduziu uma nova métrica, chamada p, que fornece uma medida da robustez de um determinado classificador contra ataques de palavras isoladas. Devido à importância dessas classificações incorretas, a equipe de pesquisa disponibilizou seus produtos em acesso aberto para uso de qualquer pessoa. O pacote consiste em dois componentes: SP-Attack, que gera sentenças adversariais para testar classificadores em qualquer aplicação específica, e SP-Defense, que visa melhorar a robustez do classificador gerando e usando sentenças adversariais para retreinar o modelo.

Em alguns testes, nos quais métodos concorrentes de teste de saídas do classificador permitiram uma taxa de sucesso de 66% em ataques adversários, o sistema desta equipe reduziu essa taxa de sucesso quase pela metade, para 33,7%. Em outras aplicações, a melhoria foi de apenas 2%, mas mesmo isso pode ser bastante significativo, afirma Veeramachaneni, visto que esses sistemas estão sendo usados para tantos bilhões de interações que mesmo uma pequena porcentagem pode afetar milhões de transações.

Os resultados da equipe foram publicados em 7 de julho no periódico Expert Systems em um artigo de Xu, Veeramachaneni e Alnegheimish, do LIDS, juntamente com Laure Berti-Equille, do IRD em Marselha, França, e Alfredo Cuesta-Infante, da Universidad Rey Juan Carlos, na Espanha. 

 

.
.

Leia mais a seguir