MaisConhecer - O cérebro realmente prevê a próxima palavra? Novo estudo questiona uma das hipóteses centrais da neurociência da linguagem

O cérebro realmente prevê a próxima palavra? Novo estudo questiona uma das hipóteses centrais da neurociência da linguagem

Pesquisa publicada na revista eLife mostra que sinais neurais interpretados como “previsão de palavras” podem ser explicados por dependências estatísticas naturais da linguagem, e não por processos preditivos do cérebro.

Reprodução: Unsplash

Durante décadas, uma ideia dominou a neurociência da linguagem: o cérebro humano estaria constantemente antecipando as próximas palavras durante uma conversa ou leitura. Esse princípio — conhecido como processamento preditivo — ganhou força com o avanço dos modelos de linguagem artificial e com novos métodos de análise de atividade cerebral. Mas um estudo recente sugere que parte dessa evidência pode ter sido interpretada de forma equivocada.

Publicado nesta quarta-feira (11), na revista científica eLife, o trabalho liderado pela pesquisadora Inés Schönmann, do Donders Institute for Brain, Cognition and Behaviour, na Holanda, questiona diretamente uma abordagem popular usada para detectar sinais de previsão linguística no cérebro. Segundo os autores, o que parecia ser prova de que o cérebro prevê palavras futuras pode, na verdade, refletir apenas as estruturas estatísticas presentes na própria linguagem.

“Os resultados mostram que os chamados sinais neurais de previsão podem surgir mesmo em sistemas que, por definição, não são capazes de prever nada”, explica Schönmann no artigo.

A hipótese do cérebro preditivo

A teoria predominante na linguística cognitiva sustenta que compreender uma frase envolve prever continuamente o que virá a seguir. Quando alguém ouve “Sherlock Holmes”, por exemplo, o cérebro poderia antecipar palavras associadas ao universo do personagem, como “detetive” ou “mistério”.

Nos últimos anos, pesquisadores passaram a testar essa hipótese comparando a atividade cerebral humana com representações linguísticas produzidas por modelos computacionais — os chamados embeddings de palavras, utilizados por sistemas de inteligência artificial como GPT.

Esses vetores matemáticos capturam relações semânticas e sintáticas entre palavras. Ao correlacionar essas representações com dados de neuroimagem, cientistas buscam identificar se o cérebro ativa antecipadamente a representação neural de uma palavra antes mesmo de ouvi-la.

Estudos anteriores sugeriram duas evidências principais desse fenômeno:

1. Codificação neural antes do início da palavra, ou seja, atividade cerebral correlacionada com a palavra futura até dois segundos antes de ela ser pronunciada.

2. Maior atividade para palavras previsíveis, indicando que palavras mais prováveis seriam antecipadas com mais força pelo cérebro.

Esses dois padrões ficaram conhecidos como os “marcos da previsão neural”.

Testando a hipótese com dados cerebrais

Para investigar se esses sinais realmente indicam previsão, Schönmann e seus colegas analisaram dois grandes conjuntos de dados de magnetoencefalografia (MEG) — técnica que mede campos magnéticos produzidos pela atividade neural.

No primeiro conjunto, três participantes ouviram durante dez sessões o audiolivro completo das histórias de Sherlock Holmes, gerando 85.719 eventos linguísticos analisáveis. No segundo, 27 voluntários escutaram narrativas diferentes em experimentos controlados.

Utilizando modelos de regressão estatística, os pesquisadores testaram se representações de palavras — extraídas de modelos como GPT-2 e GloVe — poderiam prever a atividade cerebral registrada entre ?2 e +2 segundos em relação ao início de cada palavra.

Como esperado, os dois “marcos da previsão” apareceram novamente nos dados. A atividade cerebral antes da palavra podia ser prevista a partir de sua representação semântica, e palavras mais previsíveis exibiam sinais mais fortes.

Mas os pesquisadores decidiram dar um passo adicional.

Um teste crucial: sistemas que não podem prever

Para verificar se esses padrões realmente indicavam previsão neural, a equipe introduziu o que chamou de “sistemas de controle passivos” — representações que codificam o estímulo, mas que não possuem qualquer mecanismo de previsão.

O primeiro controle consistiu nas próprias representações vetoriais das palavras. Os cientistas aplicaram a mesma análise usada para o cérebro, mas substituindo os dados neurais pelos vetores linguísticos.

O resultado foi surpreendente: os mesmos “marcos de previsão” apareceram novamente.

Isso significa que a estrutura estatística da linguagem — por exemplo, a proximidade semântica entre palavras vizinhas — já é suficiente para produzir o padrão observado.

Em seguida, os pesquisadores testaram um segundo sistema de controle ainda mais simples: as características acústicas da fala, como espectrogramas e envelopes sonoros.

Novamente, os dois sinais de “previsão” surgiram.

Como os sinais acústicos obviamente não podem prever palavras futuras, o resultado indica que o padrão pode ser gerado apenas pela correlação temporal entre palavras e sons presentes no discurso.

O problema das dependências linguísticas

Segundo os autores, a linguagem natural contém inúmeras dependências estatísticas. Palavras frequentemente aparecem juntas — como “green leaves” ou “Sherlock Holmes” — e compartilham propriedades sintáticas e semânticas.

Essas relações fazem com que a representação de uma palavra esteja estatisticamente ligada à de palavras próximas.

Em modelos de regressão, isso significa que uma palavra futura pode ser usada para estimar características de palavras anteriores — criando a ilusão de que o cérebro estava antecipando aquela informação.

“Os resultados mostram que os marcos propostos podem ser explicados inteiramente pela estrutura correlacional da linguagem”, escrevem os autores.

Getty images

Um desafio metodológico para a neurociência

O estudo não afirma que o cérebro não prevê palavras durante a compreensão linguística. Há uma vasta literatura mostrando que leitores e ouvintes respondem a probabilidades linguísticas.

O ponto central é outro: os métodos atuais podem não ser capazes de distinguir claramente entre previsão neural real e correlações presentes no estímulo linguístico.

Isso representa um desafio importante para pesquisas que tentam aproximar modelos de inteligência artificial e funcionamento do cérebro.

“Os mesmos padrões que atribuímos à previsão cerebral podem ser gerados pelos próprios modelos estatísticos usados na análise”, observam os autores.

Caminhos para pesquisas futuras

Apesar das limitações identificadas, o trabalho sugere estratégias para estudos futuros. Uma possibilidade é comparar diretamente a previsibilidade do estímulo com a atividade neural: se o cérebro superar o nível de previsibilidade da própria linguagem, isso poderia indicar um processo preditivo genuíno.

Outra abordagem seria selecionar experimentalmente frases em que as dependências estatísticas da linguagem não favoreçam previsões.

Combinadas a métodos de registro neural de alta precisão — como eletrocorticografia (ECoG) — essas estratégias podem ajudar a resolver uma das questões mais intrigantes da neurociência cognitiva: até que ponto o cérebro realmente prevê o futuro da linguagem.

Por enquanto, o novo estudo sugere cautela.

Na interseção entre linguística, neurociência e inteligência artificial, entender quem está realmente “prevendo” — o cérebro ou o modelo estatístico — continua sendo um dos maiores desafios científicos da área.

Referência

Inés Schönmann, Jakub Szewczyk, Floris P de Lange, Micha Heilbron, 2025. Dependências de estímulos — em vez da previsão da próxima palavra — podem explicar a codificação cerebral pré-estímulo em experimentos de escuta naturalista eLife 14 : RP106543. https://doi.org/ 10.7554/eLife.106543.2