Modelos de IA falham em reproduzir julgamentos humanos sobre violações de regras
Em um esforço para melhorar a justiça ou reduzir os atrasos, os modelos de aprendizado de máquina às vezes são projetados para imitar a tomada de decisão humana, como decidir se as postagens de mídia social violam as políticas de conteúdo tóxico.

Pixabay
Em um esforço para melhorar a justiça ou reduzir os atrasos, os modelos de aprendizado de máquina às vezes são projetados para imitar a tomada de decisão humana, como decidir se as postagens de mídia social violam as políticas de conteúdo tóxico.
Mas pesquisadores do MIT e de outros lugares descobriram que esses modelos muitas vezes não replicam decisões humanas sobre violações de regras. Se os modelos não forem treinados com os dados corretos, eles provavelmente farão julgamentos diferentes, muitas vezes mais severos do que os humanos.
Nesse caso, os dados "certos" são aqueles rotulados por humanos aos quais foi perguntado explicitamente se os itens desafiam uma determinada regra. O treinamento envolve mostrar a um modelo de aprendizado de máquina milhões de exemplos desses "dados normativos" para que ele possa aprender uma tarefa.
Mas os dados usados ??para treinar modelos de aprendizado de máquina são normalmente rotulados de forma descritiva – o que significa que os humanos são solicitados a identificar características factuais, como, digamos, a presença de frituras em uma foto. Se "dados descritivos" forem usados ??para treinar modelos que julgam violações de regras, como se uma refeição viola uma política escolar que proíbe frituras, os modelos tendem a superestimar as violações de regras.
Essa queda na precisão pode ter sérias implicações no mundo real. Por exemplo, se um modelo descritivo for usado para tomar decisões sobre a probabilidade de reincidência de um indivíduo, as descobertas dos pesquisadores sugerem que ele pode lançar julgamentos mais rígidos do que um humano faria, o que poderia levar a valores de fiança mais altos ou sentenças criminais mais longas.
"Acho que a maioria dos pesquisadores de inteligência artificial /aprendizado de máquina assume que os julgamentos humanos em dados e rótulos são tendenciosos, mas esse resultado está dizendo algo pior. Esses modelos nem estão reproduzindo julgamentos humanos já tendenciosos porque os dados que estão sendo treinados on tem uma falha: os humanos rotulariam os recursos de imagens e texto de maneira diferente se soubessem que esses recursos seriam usados ??para um julgamento. Isso tem enormes ramificações para sistemas de aprendizado de máquina em processos humanos", diz Marzyeh Ghassemi, professor assistente e chefe do Grupo ML Saudável do Laboratório de Informática e Inteligência Artificial (CSAIL).
Ghassemi é a autora sênior de um novo artigo detalhando essas descobertas, publicado na Science Advances em 10 de maio. Juntando-se a ela no artigo estão a autora principal Aparna Balagopalan, uma estudante de pós-graduação em engenharia elétrica e ciência da computação; David Madras, aluno de pós-graduação da Universidade de Toronto; David H. Yang, um ex-aluno de pós-graduação que agora é cofundador da ML Estimation; Dylan Hadfield-Menell, professor assistente do MIT; e Gillian K. Hadfield, Schwartz Reisman Chair em Tecnologia e Sociedade e professor de direito na Universidade de Toronto.
Discrepância de rotulagem
Este estudo surgiu de um projeto diferente que explorou como um modelo de aprendizado de máquina pode justificar suas previsões. Ao coletar dados para esse estudo, os pesquisadores notaram que os humanos às vezes dão respostas diferentes se forem solicitados a fornecer rótulos descritivos ou normativos sobre os mesmos dados.
Para reunir rótulos descritivos, os pesquisadores pedem aos rotuladores que identifiquem características fatuais – este texto contém linguagem obscena? Para reunir rótulos normativos, os pesquisadores dão aos rotuladores uma regra e perguntam se os dados violam essa regra – este texto viola a política de linguagem explícita da plataforma?
Surpresos com essa descoberta, os pesquisadores lançaram um estudo com usuários para se aprofundar. Eles reuniram quatro conjuntos de dados para imitar políticas diferentes, como um conjunto de dados de imagens de cachorros que podem violar a regra de um apartamento contra raças agressivas. Em seguida, eles pediram a grupos de participantes que fornecessem rótulos descritivos ou normativos.
Em cada caso, os rotuladores descritivos foram solicitados a indicar se três características fatuais estavam presentes na imagem ou no texto, como se o cachorro parecia agressivo. Suas respostas foram então usadas para criar julgamentos. (Se um usuário disser que uma foto continha um cachorro agressivo, a política foi violada.) Os rotuladores não conheciam a política de animais de estimação. Por outro lado, os rotulados normativos receberam a política que proíbe cães agressivos e, em seguida, perguntaram se ela havia sido violada por cada imagem e por quê.
Os pesquisadores descobriram que os humanos eram significativamente mais propensos a rotular um objeto como uma violação no cenário descritivo. A disparidade, que eles calcularam usando a diferença absoluta nos rótulos em média, variou de 8% em um conjunto de dados de imagens usado para julgar violações do código de vestimenta a 20% para as imagens de cães.
"Embora não tenhamos testado explicitamente por que isso acontece, uma hipótese é que talvez a maneira como as pessoas pensam sobre violações de regras seja diferente de como elas pensam sobre dados descritivos. Geralmente, as decisões normativas são mais brandas", diz Balagopalan.
No entanto, os dados geralmente são coletados com rótulos descritivos para treinar um modelo para uma determinada tarefa de aprendizado de máquina. Esses dados geralmente são reaproveitados posteriormente para treinar diferentes modelos que executam julgamentos normativos, como violações de regras.
Problemas de treinamento
Para estudar os impactos potenciais do redirecionamento de dados descritivos, os pesquisadores treinaram dois modelos para julgar violações de regras usando uma de suas quatro configurações de dados. Eles treinaram um modelo usando dados descritivos e o outro usando dados normativos e depois compararam seu desempenho.
Eles descobriram que, se dados descritivos forem usados ??para treinar um modelo, ele terá desempenho inferior a um modelo treinado para realizar os mesmos julgamentos usando dados normativos. Especificamente, é mais provável que o modelo descritivo classifique erroneamente as entradas ao prever falsamente uma violação de regra. E a precisão do modelo descritivo foi ainda menor ao classificar objetos sobre os quais os rotuladores humanos discordavam.
"Isso mostra que os dados realmente importam. É importante combinar o contexto de treinamento com o contexto de implantação se você estiver treinando modelos para detectar se uma regra foi violada", diz Balagopalan.
Pode ser muito difícil para os usuários determinar como os dados foram coletados; esta informação pode ser enterrada no apêndice de um trabalho de pesquisa ou não revelada por uma empresa privada, diz Ghassemi.
Melhorar a transparência do conjunto de dados é uma maneira de mitigar esse problema. Se os pesquisadores souberem como os dados foram coletados, eles saberão como esses dados devem ser usados. Outra estratégia possível é ajustar um modelo treinado descritivamente em uma pequena quantidade de dados normativos. Essa ideia, conhecida como aprendizado de transferência, é algo que os pesquisadores desejam explorar em trabalhos futuros.
Eles também querem realizar um estudo semelhante com rotuladoras especializadas, como médicos ou advogados, para ver se isso leva à mesma disparidade de rótulos.
"A maneira de corrigir isso é reconhecer de forma transparente que, se quisermos reproduzir o julgamento humano, devemos usar apenas os dados coletados naquele ambiente. Caso contrário, vamos acabar com sistemas que terão moderações extremamente duras, muito mais severo do que o que os humanos fariam. Os humanos veriam nuances ou fariam outra distinção, enquanto esses modelos não", diz Ghassemi.
Mais informações: Aparna Balagopalan, Judging Facts, Judging Norms: Training Machine Learning Models to Judge Humans Requires a Modified Approach to Labeling Data, Science Advances (2023). DOI: 10.1126/sciadv.abq0701 . www.science.org/doi/10.1126/sciadv.abq0701
Informações da revista: Science Advances