Os principais modelos de IA têm dificuldades para resolver problemas matemáticos originais
Assim como muitas outras áreas científicas, a matemática utiliza cada vez mais a inteligência artificial. É claro que a matemática é a base da IA, mas os matemáticos também estão recorrendo a essas ferramentas para tarefas...

Domínio público
Assim como muitas outras áreas científicas, a matemática utiliza cada vez mais a inteligência artificial. É claro que a matemática é a base da IA, mas os matemáticos também estão recorrendo a essas ferramentas para tarefas como buscas bibliográficas e verificação de erros em manuscritos. Mas qual o desempenho da IA na resolução de problemas de pesquisa reais e complexos?
Até o momento, ainda não existe uma metodologia realista amplamente aceita para avaliar a capacidade da IA de resolver problemas matemáticos nesse nível. Por isso, um grupo de matemáticos decidiu colocar as máquinas à prova, como detalham em um estudo disponível no servidor de pré-publicações arXiv .
Tentativas anteriores de testar IA utilizaram problemas de concursos de matemática e questões já encontradas em livros didáticos. O que diferencia este estudo é que as questões enfrentadas pelos programas foram extraídas de pesquisas dos próprios matemáticos. Elas nunca haviam sido publicadas ou divulgadas online, o que significa que a IA não poderia memorizar as respostas a partir de seus dados de treinamento.
Testando as máquinas
Cada matemático participante do estudo contribuiu com um problema único e o resolveu individualmente para provar que as questões não eram impossíveis. Eles também criptografaram as respostas para que não aparecessem em fontes públicas acessíveis aos modelos.
Havia dez problemas no total, abrangendo diversas áreas da matemática, incluindo análise estocástica, teoria espectral de grafos, geometria simplética e topologia algébrica. Os pesquisadores testaram as questões em vários sistemas de ponta, incluindo o GPT-5.1 Pro e o Gemini 3 Pro, e os modelos tiveram apenas uma tentativa por questão. Não houve instruções ou conversas adicionais, nem dicas que pudessem ajudá-los a chegar a uma solução.
O experimento, chamado Primeira Prova, foi projetado para testar uma parte específica do processo matemático. Como os pesquisadores comentaram em seu artigo: "Nosso experimento 'primeira prova' está focado no estágio final e mais bem definido da pesquisa matemática, no qual a questão e as estruturas já são compreendidas."
A IA enfrenta dificuldades
Os resultados podem tranquilizar aqueles que temem que a IA esteja prestes a substituir os matemáticos. Embora os programas de IA sejam excelentes em resumir o conhecimento existente ou encontrar padrões em dados, os modelos tiveram dificuldades em resolver os problemas em uma única tentativa.
A conclusão geral dos pesquisadores é que, no momento, a IA é boa em tarefas semelhantes a competições, mas carece da profundidade criativa e da intuição necessárias para navegar e resolver o desconhecido.
O próximo passo da equipe é lançar as soluções criptografadas em 13 de fevereiro e, em seguida, começar a trabalhar em um segundo conjunto de problemas. Eles querem transformar o First Proof em um benchmark permanente que continue a desafiar a IA, observando: "Esperamos usar esse conhecimento para projetar um benchmark mais formal."
Escrito para você pelo nosso autor Paul Arnold , editado por Gaby Clark e verificado e revisado por Robert Egan , este artigo é fruto de um trabalho humano minucioso. Contamos com leitores como você para manter o jornalismo científico independente vivo. Se esta reportagem é importante para você, considere fazer uma doação (especialmente mensal). Como agradecimento, você receberá uma conta sem anúncios .
Detalhes da publicação
Mohammed Abouzaid et al, Primeira Prova, arXiv (2026). DOI: 10.48550/arxiv.2602.05192
Informações sobre o periódico: arXiv