Uma nova abordagem, que leva minutos em vez de dias, prevê como uma sequência específica de DNA se organizará no núcleo da célula.

Esta imagem mostra as estruturas genômicas tridimensionais de vários cromossomos relatados em um estudo Dip-C, que foram usados para treinar o novo modelo ChromoGen. Crédito: Cortesia dos pesquisadores; editado pelo MIT News
Cada célula do seu corpo contém a mesma sequência genética, mas cada célula expressa apenas um subconjunto desses genes. Esses padrões de expressão genética específicos da célula, que garantem que uma célula cerebral seja diferente de uma célula da pele, são parcialmente determinados pela estrutura tridimensional do material genético, que controla a acessibilidade de cada gene.
Químicos do MIT agora criaram uma nova maneira de determinar essas estruturas genômicas 3D, usando inteligência artificial generativa. A técnica deles pode prever milhares de estruturas em apenas alguns minutos, tornando-a muito mais rápida do que os métodos experimentais existentes para analisar as estruturas.
Usando essa técnica, os pesquisadores puderam estudar mais facilmente como a organização 3D do genoma afeta os padrões de expressão genética e as funções das células individuais.
“Nosso objetivo era tentar prever a estrutura tridimensional do genoma a partir da sequência de DNA subjacente”, diz Bin Zhang, professor associado de química e autor sênior do estudo. “Agora que podemos fazer isso, o que coloca essa técnica no mesmo nível das técnicas experimentais de ponta, ela pode realmente abrir muitas oportunidades interessantes.”
Os estudantes de pós-graduação do MIT Greg Schuette e Zhuohan Lao são os principais autores do artigo, que aparece hoje na Science Advances .
Da sequência à estrutura
Dentro do núcleo da célula, o DNA e as proteínas formam um complexo chamado cromatina, que tem vários níveis de organização, permitindo que as células amontoem 2 metros de DNA em um núcleo que tem apenas um centésimo de milímetro de diâmetro. Longos fios de DNA se enrolam em proteínas chamadas histonas, dando origem a uma estrutura parecida com contas em um colar.
Marcadores químicos conhecidos como modificações epigenéticas podem ser anexados ao DNA em locais específicos, e esses marcadores, que variam de acordo com o tipo de célula, afetam o dobramento da cromatina e a acessibilidade de genes próximos. Essas diferenças na conformação da cromatina ajudam a determinar quais genes são expressos em diferentes tipos de células, ou em momentos diferentes dentro de uma determinada célula.
Nos últimos 20 anos, cientistas desenvolveram técnicas experimentais para determinar estruturas de cromatina. Uma técnica amplamente usada, conhecida como Hi-C, funciona ligando fitas de DNA vizinhas no núcleo da célula. Os pesquisadores podem então determinar quais segmentos estão localizados próximos uns dos outros, fragmentando o DNA em muitos pedaços minúsculos e sequenciando-o.
Este método pode ser usado em grandes populações de células para calcular uma estrutura média para uma seção de cromatina, ou em células únicas para determinar estruturas dentro daquela célula específica. No entanto, Hi-C e técnicas semelhantes são trabalhosas, e pode levar cerca de uma semana para gerar dados de uma célula.
Para superar essas limitações, Zhang e seus alunos desenvolveram um modelo que aproveita os avanços recentes em IA generativa para criar uma maneira rápida e precisa de prever estruturas de cromatina em células únicas. O modelo de IA que eles projetaram pode analisar rapidamente sequências de DNA e prever as estruturas de cromatina que essas sequências podem produzir em uma célula.
“O aprendizado profundo é realmente bom em reconhecimento de padrões”, diz Zhang. “Ele nos permite analisar segmentos de DNA muito longos, milhares de pares de bases, e descobrir qual é a informação importante codificada nesses pares de bases de DNA.”
ChromoGen, o modelo que os pesquisadores criaram, tem dois componentes. O primeiro componente, um modelo de aprendizado profundo ensinado a “ler” o genoma, analisa as informações codificadas na sequência de DNA subjacente e os dados de acessibilidade da cromatina, sendo que o último está amplamente disponível e é específico do tipo de célula.
O segundo componente é um modelo de IA generativo que prevê conformações de cromatina fisicamente precisas, tendo sido treinado em mais de 11 milhões de conformações de cromatina. Esses dados foram gerados a partir de experimentos usando Dip-C (uma variante de Hi-C) em 16 células de uma linha de linfócitos B humanos.
Quando integrado, o primeiro componente informa ao modelo generativo como o ambiente específico do tipo de célula influencia a formação de diferentes estruturas de cromatina, e esse esquema captura efetivamente as relações sequência-estrutura. Para cada sequência, os pesquisadores usam seu modelo para gerar muitas estruturas possíveis. Isso porque o DNA é uma molécula muito desordenada, então uma única sequência de DNA pode dar origem a muitas conformações possíveis diferentes.
“Um grande fator complicador na previsão da estrutura do genoma é que não há uma única solução que estejamos buscando. Há uma distribuição de estruturas, não importa qual parte do genoma você esteja observando. Prever essa distribuição estatística muito complicada e de alta dimensão é algo incrivelmente desafiador de se fazer”, diz Schuette.
Análise rápida
Uma vez treinado, o modelo pode gerar previsões em uma escala de tempo muito mais rápida do que o Hi-C ou outras técnicas experimentais.
“Enquanto você pode passar seis meses executando experimentos para obter algumas dezenas de estruturas em um determinado tipo de célula, você pode gerar mil estruturas em uma região específica com nosso modelo em 20 minutos em apenas uma GPU”, diz Schuette.
Após treinar seu modelo, os pesquisadores o usaram para gerar previsões de estrutura para mais de 2.000 sequências de DNA, então as compararam com as estruturas determinadas experimentalmente para essas sequências. Eles descobriram que as estruturas geradas pelo modelo eram as mesmas ou muito semelhantes às vistas nos dados experimentais.
“Normalmente, olhamos para centenas ou milhares de conformações para cada sequência, e isso lhe dá uma representação razoável da diversidade das estruturas que uma região específica pode ter”, diz Zhang. “Se você repetir seu experimento várias vezes, em células diferentes, muito provavelmente acabará com uma conformação muito diferente. É isso que nosso modelo está tentando prever.”
Os pesquisadores também descobriram que o modelo poderia fazer previsões precisas para dados de tipos de células diferentes daquele em que foi treinado. Isso sugere que o modelo poderia ser útil para analisar como as estruturas da cromatina diferem entre os tipos de células e como essas diferenças afetam sua função. O modelo também poderia ser usado para explorar diferentes estados de cromatina que podem existir dentro de uma única célula e como essas mudanças afetam a expressão genética.
Outra possível aplicação seria explorar como mutações em uma sequência específica de DNA alteram a conformação da cromatina, o que poderia lançar luz sobre como tais mutações podem causar doenças.
“Há muitas questões interessantes que acho que podemos abordar com esse tipo de modelo”, diz Zhang.
Os pesquisadores disponibilizaram todos os seus dados e o modelo para outros que desejam usá-los.
A pesquisa foi financiada pelos Institutos Nacionais de Saúde.