Tecnologia Científica

Uma nova maneira de encontrar variações genanãticas remove o preconceito da genotipagem humana
Os cientistas hámuito reconheceram que um aºnico genoma de referaªncia não pode representar a diversidade humana e que usa¡-lo introduz um vianãs generalizado nesses estudos. Agora, eles finalmente tem uma alternativa pra¡tica.
Por Universidade da Califórnia - Santa Cruz - 16/12/2021


Usar uma abordagem pangena´mica em vez de um aºnico genoma de referaªncia permite uma caracterização mais abrangente das variações genanãticas e pode melhorar as análises gena´micas usadas por uma ampla gama de pesquisadores e médicos. Crédito: Elena Zhukova

Desde o primeiro sequenciamento do genoma humano, hámais de 20 anos, o estudo dos genomas humanos tem se baseado quase exclusivamente em um aºnico genoma de referaªncia, ao qual outros são comparados para identificar variações genanãticas. Os cientistas hámuito reconheceram que um aºnico genoma de referaªncia não pode representar a diversidade humana e que usa¡-lo introduz um vianãs generalizado nesses estudos. Agora, eles finalmente tem uma alternativa prática .

Em um artigo publicado em 16 de dezembro na Science , pesquisadores do UC Santa Cruz Genomics Institute introduziram uma nova ferramenta, chamada Giraffe, que pode mapear com eficiência novas sequaªncias do genoma para um "pangenome" que representa muitas sequaªncias do genoma humano. Eles mostram que esta abordagem permite uma caracterização mais abrangente das variações genanãticas e pode melhorar as análises gena´micas usadas por uma ampla gama de pesquisadores e médicos.

"Trabalhamos nisso hános e agora, pela primeira vez, temos algo prático que funciona rápido e melhor do que o genoma de referaªncia única", disse o autor correspondente Benedict Paten, professor associado de engenharia biomolecular na UC Santa Cruz e diretor associado do Instituto de Gena´mica. “a‰ importante para o futuro da biomedicina que a gena´mica ajude a todos igualmente, então precisamos de ferramentas que levem em consideração a diversidade das populações humanas e não sejam tendenciosas”.

Todos os humanos tem os mesmos genes, mas existem muitas variações nas sequaªncias exatas dos genes, ou seja, a sequaªncia de subunidades de DNA (abreviadas A, C, T, G) que explicam o ca³digo genanãtico, bem como nas vastas extensaµes do genoma fora dos genes codificadores de protea­nas. Uma diferença em uma única letra de ca³digo échamada de variante de nucleota­deo aºnico (SNV), e as inserções ou deleções de sequaªncias curtas são conhecidas coletivamente como "indels".

As variantes mais complexas são variações estruturais que envolvem rearranjos de grandes segmentos de ca³digo (50 ou mais letras). Eles são especialmente difa­ceis de encontrar usando um aºnico genoma de referaªncia, mas podem ter efeitos significativos e são conhecidos por desempenhar um papel importante em algumas doena§as. A pessoa média tem milhões de SNVs e indels e dezenas de milhares de variantes estruturais maiores e, coletivamente, as variantes estruturais envolvem mais letras de ca³digo do que os outros tipos de variantes.

"Os burros de carga da gena´mica foram SNVs e indels curtos, porque as variantes estruturais foram escondidas da vista", disse Paten. “A pangena´mica estãotornando as variantes estruturais visa­veis para que possamos estuda¡-las da mesma forma que fazemos com SNVs e indels curtos. Existem muitas variantes estruturais e podem ter um grande impacto, então isso écrítico para o futuro dos estudos genanãticos de doena§as. "
 
Uma referaªncia de pangenoma pode ser criada a partir de várias sequaªncias de genoma usando uma estrutura de gra¡fico matemática para representar as relações entre as diferentes sequaªncias. No novo artigo, os pesquisadores construa­ram dois gra¡ficos de referaªncia do genoma humano usando dados disponí­veis publicamente. Eles foram usados ​​para avaliar a nova ferramenta, Giraffe, que éum conjunto de algoritmos para mapear novos dados de sequaªncia para uma referaªncia de pangenome.

O primeiro autor Jouni Siranãn, um cientista pesquisador do Genomics Institute, foi o pioneiro em muitas das principais inovações algora­tmicas do Giraffe. O Giraffe pode mapear com precisão novos dados de sequaªncia para milhares de genomas incorporados em uma referaªncia de pangenome tão rapidamente quanto as ferramentas existentes são mapeadas para um aºnico genoma de referaªncia. O estudo também mostrou que o uso do Giraffe reduz o vianãs de mapeamento, a tendaªncia de mapear incorretamente sequaªncias que diferem do genoma de referaªncia.

Visão geral dos experimentos: Chamadas de variantes de estudos de sequenciamento em larga escala e baseados em leitura longa foram usadas para construir gra¡ficos de referaªncia de pangenome (topo). O Giraffe (e mapeadores concorrentes) mapeou as leituras para o gra¡fico ou para referaªncias lineares, e a precisão do mapeamento, equila­brio de cobertura de alelo e velocidade foram avaliados (meio). Em seguida, leituras mapeadas foram usadas para chamadas de variantes e a precisão da chamada de variantes foi avaliada (parte inferior). As chamadas de variantes estruturais foram analisadas juntamente com os dados de expressão para identificar eQTLs e estimativas de frequência da população. Crédito: Siranãn et al., Science 2021

"Nãoapenas a análise émelhor, mas também tão rápida quanto os manãtodos atuais que usam um genoma de referaªncia linear", disse o coprimeiro autor Jean Monlong, pesquisador de pa³s-doutorado no Instituto de Gena´mica.

O sequenciamento de leitura curta e barato éum dos pilares da gena´mica moderna, produzindo fragmentos de sequaªncia que devem ser mapeados para um genoma de referaªncia para dar sentido a eles. O mapeamento mostra onde cada fragmento pertence a um dos 23 cromossomos humanos e identifica as variantes presentes em cada local no genoma de um indiva­duo, um processo conhecido como genotipagem.

Os pesquisadores descobriram que o caller da variante de aprendizagem profunda do Google Health, DeepVariant, poderia identificar com mais precisão SNVs e indels usando os alinhamentos do Giraffe contra um pangenoma do que usando alinhamentos contra um aºnico genoma de referaªncia.

Monlong disse que estava mais animado com o uso da pangena´mica para estudar variantes estruturais.

"Muitas variantes estruturais foram descobertas recentemente usando sequenciamento de leitura longa", disse ele. "Com os pangenomas, podemos procurar essas variantes estruturais em grandes conjuntos de dados de sequenciamento de leitura curta. a‰ empolgante porque isso nos permitira¡ estudar essas novas variantes estruturais em muitas pessoas e fazer perguntas sobre seu impacto funcional, associação com doença ou função em evolução. "

Os pesquisadores usaram o Giraffe para mapear leituras de sequaªncia de um grupo diverso de 5.202 pessoas e determinar seus gena³tipos para 167.000 variações estruturais recentemente descobertas. Isso lhes permitiu estimar a frequência de diferentes versaµes dessas variantes estruturais na população humana como um todo e dentro de subpopulações individuais. Eles mostraram que a frequência de algumas variantes difere consideravelmente entre as subpopulações e poderia ser mal interpretada se analisada apenas em, por exemplo, populações de ancestralidade europeia onde a frequência de uma determinada variante ébaixa.

Um aºnico genoma de referaªncia deve escolher uma versão de qualquer variação para representar, deixando as outras versaµes não representadas. Ao tornar prática s referaªncias de pangenome mais amplamente representativas, o Giraffe pode tornar a gena´mica mais inclusiva.

Paten e outros do Instituto de Gena´mica da UC Santa Cruz estãoenvolvidos em um grande esfora§o financiado pelo Instituto Nacional de Pesquisa do Genoma Humano para construir uma referaªncia abrangente de pangenoma humano, que eles esperam lana§ar no pra³ximo ano como um recurso para a comunidade cienta­fica.

Além de Siranãn e Monlong, o novo artigo tem três outros coprimeiros autores que contribua­ram igualmente: Xian Chang, Adam Novak e Jordan Eizenga, todos do Instituto de Gena´mica da UC Santa Cruz. Além de outros coautores do Genomics Institute, incluindo o diretor David Haussler, os coautores também incluem pesquisadores do Google Health, Broad Institute of MIT e Harvard, University of Michigan, University of Virginia, Harbor-UCLA Medical Center e University of Tennessee Health Centro de Ciência.

 

.
.

Leia mais a seguir