Inteligência artificial decifra o genoma agrícola e inaugura nova era no melhoramento de culturas
A proposta responde a um dos desafios mais persistentes da genética moderna: entender como milhares de pequenas variações no DNA — os chamados SNPs — interagem para determinar características como produtividade...

Imagem: Reprodução
No cruzamento entre biologia molecular e inteligência artificial, um novo estudo publicado nesta quinta-feira (26), na revista Nature Communications, propõe uma mudança de paradigma na forma como cientistas compreendem e preveem características complexas em plantas. Liderado por Jing Li e colaboradores da Chinese Academy of Agricultural Sciences, o trabalho apresenta o modelo GP-WAITER — uma arquitetura híbrida baseada em redes neurais e Transformers capaz de prever fenótipos agrícolas com precisão sem precedentes.
A proposta responde a um dos desafios mais persistentes da genética moderna: entender como milhares de pequenas variações no DNA — os chamados SNPs — interagem para determinar características como produtividade, teor nutricional ou resistência ao estresse ambiental. “A arquitetura genética de traços complexos sempre foi difícil de capturar por modelos tradicionais”, afirmam os autores .
O salto tecnológico: Transformers aplicados ao DNA
Inspirado na revolução provocada pelos Transformers no processamento de linguagem natural, o GP-WAITER adapta essa tecnologia para interpretar sequências genômicas. O modelo combina redes convolucionais (CNNs) com mecanismos de atenção múltipla, permitindo identificar relações de longa distância entre regiões do genoma — algo que métodos anteriores não conseguiam capturar adequadamente .
Segundo Junming Sun, um dos autores correspondentes, “o diferencial está na capacidade de integrar conhecimento biológico prévio com aprendizado profundo, sem perder interpretabilidade”. Isso é feito por meio de um sistema de “pesos” derivados de estudos de associação genômica ampla (GWAS), que orientam o modelo sobre quais regiões do DNA têm maior relevância funcional.
Na prática, o algoritmo “aprende” a importância de cada variante genética enquanto analisa milhões de dados simultaneamente — um feito computacional que exige arquiteturas altamente otimizadas.
Resultados: até 77,5% mais precisão
Os testes realizados em seis grandes conjuntos de dados — incluindo soja, milho, arroz e trigo — revelaram ganhos expressivos. O GP-WAITER superou sete modelos de referência, com aumento de até 77,5% na precisão preditiva e redução de até 95,9% no erro quadrático médio (MSE) .
Em termos computacionais, o modelo também se destacou: foi até 2,4 vezes mais rápido que alternativas comparáveis e utilizou menos da metade da memória de GPU em grandes bases de dados .
Esses resultados são particularmente relevantes em um cenário de “big data genômico”, no qual bancos de dados podem conter centenas de milhões de pontos de informação. “A escalabilidade do modelo o torna aplicável a programas reais de melhoramento genético”, destacam os autores .
Da caixa-preta à explicabilidade biológica
Um dos avanços mais significativos do estudo está na interpretabilidade do modelo — um problema clássico em inteligência artificial. Utilizando a técnica SHAP (Shapley Additive Explanations), os pesquisadores conseguiram identificar variantes genéticas específicas responsáveis por determinados fenótipos.
Por exemplo, uma mutação no gene MFT foi associada simultaneamente a características como teor de óleo e isoflavonas na soja, evidenciando efeitos pleiotrópicos — quando um único gene influencia múltiplos traços .
Além disso, a análise revelou enriquecimento funcional em processos biológicos específicos, como metabolismo de vitamina E e desenvolvimento floral, com significância estatística elevada (p < 10`_ 6 em alguns casos) .
“Isso transforma o modelo de uma ferramenta preditiva em um instrumento de descoberta científica”, observam os autores.
Impacto: aceleração do melhoramento genético global
O impacto potencial da tecnologia é amplo. Em vez de ciclos tradicionais de cruzamento e seleção — que podem levar anos ou décadas — o GP-WAITER permite prever o desempenho de plantas diretamente a partir do DNA, reduzindo drasticamente o tempo e os custos do melhoramento.
Segundo o estudo, isso pode identificar rapidamente linhagens superiores, otimizar cruzamentos genéticos, aumentar a eficiência de seleção em ambientes diversos e acelerar o desenvolvimento de cultivares mais produtivas e resilientes
Em um contexto de mudanças climáticas e crescente demanda alimentar, tais avanços são estratégicos. A integração de dados genômicos com inteligência artificial é vista como um dos pilares da chamada “agricultura de precisão”.
Apesar dos resultados promissores, os autores reconhecem desafios. Modelos baseados em Transformers ainda enfrentam risco de sobreajuste (overfitting) em dados altamente dimensionais, e a integração com variáveis ambientais mostrou ganhos limitados em alguns cenários .
Para o futuro, o grupo propõe três direções principais:
1. Desenvolvimento de modelos adaptativos em tempo real
2. Integração sistemática de dados funcionais e biológicos
3. Validação experimental das previsões computacionais
“Precisamos fechar o ciclo entre predição e validação biológica”, destacam.
Uma nova fronteira para a biotecnologia
A pesquisa liderada por Jing Li representa um avanço significativo na convergência entre inteligência artificial e biologia. Ao combinar poder computacional, interpretabilidade e relevância prática, o GP-WAITER inaugura uma nova geração de ferramentas para decifrar a complexidade genética dos organismos.
Mais do que prever características agrícolas, o modelo aponta para um futuro em que o genoma pode ser “lido” com a mesma fluidez com que algoritmos interpretam linguagem humana — abrindo caminho para uma revolução silenciosa na produção de alimentos e na sustentabilidade global.
Referência
Li, J., Yu, L., Li, M. et al. Aproveitando o embedding ponderado e a arquitetura Transformer para melhorar a predição do fenótipo de características complexas em culturas agrícolas. Nat Commun (2026). https://doi.org/10.1038/s41467-026-71035-5