Um novo estudo da Johns Hopkins conclui que a IA multilíngue privilegia as línguas dominantes, aprofundando as divisões em vez de democratizar o acesso à informação.

Denkcreative / Getty Images
Cientistas da computação da Johns Hopkins descobriram que ferramentas de inteligência artificial como o ChatGPT estão criando uma divisão linguística digital, ampliando o domínio do inglês e de outras línguas comumente faladas, ao mesmo tempo em que marginalizam as línguas minoritárias.
Em vez de nivelar o campo de atuação, as ferramentas populares de modelos de linguagem de grande porte estão, na verdade, construindo "casulos de informação", dizem os pesquisadores em descobertas apresentadas na Conferência Anual de 2025 do Capítulo das Nações das Américas da Associação de Linguística Computacional no início deste ano.
"Queríamos perguntar: os LLMs multilíngues são realmente multilíngues? Eles estão quebrando as barreiras linguísticas e democratizando o acesso à informação?", afirma o primeiro autor, Nikhil Sharma , doutorando no Departamento de Ciência da Computação da Escola de Engenharia Whiting .
Para descobrir, Sharma e sua equipe — incluindo Kenton Murray , um cientista pesquisador do Centro de Excelência em Tecnologia da Linguagem Humana , e Ziang Xiao , um professor assistente de ciência da computação — primeiro analisaram a cobertura das guerras entre Israel e Gaza e Rússia e Ucrânia e identificaram vários tipos de informação nos artigos de notícias: conhecimento comum, afirmações contraditórias, fatos exclusivos de certos documentos e informações semelhantes, mas apresentadas com perspectivas muito diferentes.
Com base nesses princípios de design, a equipe criou dois conjuntos de artigos falsos — um com informações "verdadeiras" e outro com informações "alternativas" e conflitantes. Os documentos apresentavam a cobertura de um festival — com datas, nomes e estatísticas diferentes — e de uma guerra, que foi noticiada com perspectivas tendenciosas. Os textos foram escritos em idiomas com muitos recursos, como inglês, chinês e alemão, bem como em idiomas com poucos recursos, como hindi e árabe.
A equipe então pediu que LLMs de grandes desenvolvedores como OpenAI, Cohere, Voyage AI e Anthropic respondessem a vários tipos de perguntas, como escolher um entre dois fatos contraditórios apresentados em idiomas diferentes, perguntas mais gerais sobre o tópico em questão, perguntas sobre fatos presentes em apenas um artigo e perguntas atuais formuladas com claro preconceito.
"Se quisermos transferir o poder para as pessoas e permitir que elas tomem decisões informadas, precisamos de sistemas de IA capazes de mostrar a elas toda a verdade com diferentes perspectivas."
Nikhil Sharma
Aluno de doutorado, Escola de Engenharia Whiting
Os pesquisadores descobriram que, tanto na recuperação de informações dos documentos quanto na geração de uma resposta à consulta de um usuário, os LLMs preferiam informações na linguagem da própria pergunta.
"Isso significa que se eu tiver um artigo em inglês que diz que alguma figura política indiana — vamos chamá-la de Pessoa X — é ruim, mas eu tiver um artigo em hindi que diz que a Pessoa X é boa, então o modelo me dirá que ela é ruim se eu perguntar em inglês, mas que ela é boa se eu perguntar em hindi", explica Sharma.
Os pesquisadores então se perguntaram o que aconteceria se não houvesse um artigo no idioma da consulta, o que é comum para falantes de línguas com poucos recursos. Os resultados da equipe mostram que os LLMs geram respostas com base em informações encontradas apenas em línguas com mais recursos, ignorando outras perspectivas.
"Por exemplo, se você estiver perguntando sobre a Pessoa X em sânscrito — uma língua menos falada na Índia — o modelo usará como padrão informações extraídas de artigos em inglês, mesmo que a Pessoa X seja uma figura da Índia", diz Sharma.
Além disso, os cientistas da computação encontraram uma tendência preocupante: o inglês domina. Eles apontam isso como evidência de imperialismo linguístico — quando informações de línguas com mais recursos são amplificadas com mais frequência, potencialmente ofuscando ou distorcendo narrativas de línguas com menos recursos.
Para resumir os resultados do estudo, Sharma propõe um cenário hipotético: três usuários do ChatGPT perguntam sobre a antiga disputa de fronteira entre a Índia e a China. Um usuário de língua hindi veria respostas moldadas por fontes indianas, enquanto um usuário de língua chinesa receberia respostas que refletiam apenas as perspectivas chinesas.
"Mas digamos que haja um usuário que fala árabe e não haja documentos em árabe sobre este conflito", diz Sharma. "Esse usuário receberá respostas da perspectiva do inglês americano, porque esse é o idioma com mais recursos disponíveis. Portanto, os três usuários terão entendimentos completamente diferentes do conflito."
Como resultado, os pesquisadores rotulam os atuais LLMs multilíngues como "falsos poliglotas" que não conseguem quebrar as barreiras linguísticas, mantendo os usuários presos em bolhas de filtros baseadas na linguagem.
"As informações às quais você é exposto determinam como você vota e as decisões políticas que toma", diz Sharma. "Se quisermos transferir o poder para as pessoas e permitir que tomem decisões informadas, precisamos de sistemas de IA capazes de mostrar a elas toda a verdade sob diferentes perspectivas. Isso se torna especialmente importante ao cobrir informações sobre conflitos entre regiões que falam línguas diferentes, como as guerras entre Israel e Gaza e entre a Rússia e a Ucrânia — ou mesmo as tarifas entre a China e os EUA."
Para mitigar essa disparidade de informações nos LLMs, a equipe de Hopkins planeja construir um benchmark dinâmico e conjuntos de dados para ajudar a orientar o desenvolvimento futuro de modelos. Ao mesmo tempo, incentiva a comunidade de pesquisa em geral a analisar os efeitos de diferentes estratégias de treinamento de modelos, combinações de dados e arquiteturas de geração de recuperação aumentada. Os pesquisadores também recomendam coletar perspectivas diversas de vários idiomas, emitir alertas aos usuários que possam estar adotando o comportamento de consulta-resposta confirmatória e desenvolver programas para aumentar a alfabetização informacional em torno da busca conversacional, a fim de reduzir a confiança excessiva e a dependência excessiva nos LLMs.
"O poder concentrado sobre as tecnologias de IA apresenta riscos substanciais, pois permite que alguns indivíduos ou empresas manipulem o fluxo de informações, facilitando a persuasão em massa, diminuindo a credibilidade desses sistemas e exacerbando a disseminação de desinformação", afirma Sharma. "Como sociedade, precisamos que os usuários obtenham as mesmas informações, independentemente de seu idioma e origem."