Mundo

IA mapeia a função de quase todos os genes humanos e inaugura nova era da biologia
Plataforma criada por pesquisadores do MIT e do Whitehead Institute analisa 19 mil genes, supera bases de dados tradicionais e revela que quase 10% do genoma humano ainda permanece um mistério científico
Por Laercio Damasceno - 04/07/2026


Imagem: Reprodução


A biologia moderna conviveu, por séculos, com um paradoxo. O sequenciamento do genoma humano, concluído em 2003, revelou a existência de cerca de 20 mil genes capazes de produzir proteínas, mas o papel de milhares deles permaneceu pouco compreendido. A ciência sabia onde estavam esses genes, mas ainda ignorava, em muitos casos, o que eles faziam.

Agora, um estudo liderado pelos pesquisadores Matteo Di Bernardo e Iain M. Cheeseman, do Whitehead Institute for Biomedical Research e do Massachusetts Institute of Technology (MIT), promete mudar esse cenário. Publicado na conferência internacional de aprendizado de máquina ICML 2026, em Seul, o trabalho apresenta o Affinage, uma plataforma baseada em inteligência artificial capaz de reconstruir, a partir da literatura científica, a função mecanística de praticamente todos os genes humanos.

Os números impressionam. O sistema analisou 19.293 dos 19.296 genes codificadores de proteínas do genoma humano, alcançando uma cobertura de 99,98%. Ao todo, foram identificadas 270.143 evidências mecanísticas, uma média de 11 descobertas por gene, além de mais de 71 mil interações entre proteínas.

"O conhecimento sobre muitos genes está espalhado em milhares de artigos científicos e frequentemente leva anos para chegar às bases de dados utilizadas pelos pesquisadores", escrevem os autores no estudo. O Affinage, afirmam, busca justamente encurtar essa distância.


A iniciativa representa um dos maiores esforços já realizados para transformar a literatura biomédica em um banco de conhecimento estruturado e permanentemente atualizado.

Além dos bancos de dados tradicionais

Atualmente, grande parte da comunidade científica depende de repositórios como o UniProt, uma das mais importantes enciclopédias de proteínas do mundo. O problema é que essas bases dependem de curadoria humana, um processo lento diante da avalanche de novas publicações científicas.

Segundo o estudo, em comparações diretas, o Affinage apresentou desempenho superior ao UniProt em 99,1% dos casos avaliados.

Os pesquisadores testaram o sistema em 14.590 genes para os quais já existiam descrições funcionais substanciais. O resultado foi contundente: a inteligência artificial produziu descrições consideradas melhores em 13.229 genes, empatou em 1.243 e perdeu em apenas 118.

Para Cheeseman, professor de biologia do MIT, o avanço vai além da automação.

"O objetivo não é substituir os especialistas, mas transformar décadas de conhecimento disperso em um recurso reutilizável e continuamente atualizado", afirmam os autores.

O genoma ainda guarda segredos

Talvez o dado mais surpreendente do estudo seja justamente aquilo que a inteligência artificial não conseguiu encontrar.

Mesmo após examinar centenas de milhares de trabalhos científicos, o sistema concluiu que 1.896 genes humanos — cerca de 9,8% do total — ainda não possuem uma função mecanística conhecida.

Em outras palavras, quase um décimo do genoma humano continua sendo um território inexplorado.

Para os autores, esse "mapa do desconhecido" é, por si só, uma das principais contribuições do projeto.

"Esse resíduo constitui um censo continuamente atualizado dos genes que permanecem mecanisticamente não caracterizados", escrevem.

A constatação revela o tamanho do desafio científico que ainda resta pela frente. Embora a genética tenha avançado de maneira extraordinária nas últimas duas décadas, parte significativa da maquinaria molecular humana continua sem explicação.

Descobertas recentes entram em cena

Outra vantagem da plataforma é a capacidade de incorporar rapidamente descobertas recentes.

O estudo mostra que 33% das evidências analisadas foram publicadas a partir de 2020, demonstrando que a produção científica mais nova ainda não foi totalmente absorvida pelos sistemas tradicionais de curadoria.

Em alguns casos, a diferença é dramática.

O gene LENG8, por exemplo, não possui qualquer descrição funcional no UniProt. O Affinage, porém, identificou cinco trabalhos publicados entre 2025 e 2026 que permitiram classificá-lo como um importante regulador da qualidade do RNA no núcleo celular.

Situação semelhante ocorre com genes como KHNYN, relacionado à defesa antiviral contra HIV e SARS-CoV-2, e CDK19, associado a distúrbios do neurodesenvolvimento e epilepsia.

Segundo Di Bernardo, essas descobertas demonstram que há uma quantidade significativa de conhecimento científico produzido recentemente que ainda permanece "invisível" para muitas ferramentas utilizadas pela comunidade biomédica.

Uma nova geração de ciência assistida por IA

O trabalho também reforça uma tendência crescente: o uso de grandes modelos de linguagem para tarefas de alta complexidade científica.

Os autores adotaram um processo em duas etapas. Primeiro, a inteligência artificial identifica apenas resultados sustentados por experimentos diretos. Em seguida, sintetiza essas evidências em uma narrativa coerente sobre o funcionamento de cada gene.


O sistema foi submetido a rigorosos testes de validação. A taxa de contradições identificadas foi de apenas 0,029%, enquanto os erros confirmados representaram 0,26% das afirmações analisadas.

Todo o projeto custou aproximadamente US$ 2.505 em processamento computacional, um valor surpreendentemente baixo para uma iniciativa de escala genômica.

O futuro da biologia

Desde a publicação do primeiro rascunho do genoma humano, há mais de vinte anos, a biologia vive a promessa de compreender integralmente o funcionamento das células humanas. O estudo do MIT e do Whitehead Institute sugere que essa meta pode estar mais próxima.

Mas a pesquisa também deixa uma mensagem de humildade científica.

Mesmo na era da inteligência artificial, o genoma humano continua guardando segredos.

Quase dois mil genes permanecem sem função conhecida, lembrando que, apesar dos avanços tecnológicos, a biologia ainda possui vastos territórios inexplorados.

Para os autores, o Affinage representa um novo modelo de produção científica: especialistas transformando sua experiência em sistemas de inteligência artificial capazes de produzir conhecimento aberto, verificável e reutilizável.

Em um momento em que a ciência gera milhões de páginas de informação todos os anos, a maior descoberta talvez seja esta: entender a vida depende cada vez mais da capacidade de organizar o conhecimento que já produzimos.


Referência
Affinage: anotação mecanística de genes em escala genômica a partir da literatura publicada. Matteo Di Bernardo , Iain M. Cheeseman.  (arXiv:2607.02217 [q-bio.GN]).  https://doi.org/10.48550/arXiv.2607.02217

 

.
.

Leia mais a seguir