The Vertebrate Genomes Project introduz uma nova era de sequenciamento de genomas
O Vertebrate Genomes Project (VGP) anuncia hoje seu estudo principal e publicaçaµes associadas com foco na qualidade de montagem do genoma e padronizaa§a£o para o campo da gena´mica.

Domanio paºblco
O Vertebrate Genomes Project (VGP) anuncia hoje seu estudo principal e publicações associadas com foco na qualidade de montagem do genoma e padronização para o campo da gena´mica. Este estudo inclui 16 conjuntos dipla³ides de alta qualidade, quase livres de erros e quase completos genomas de referaªncia de vertebrados para espanãcies em todos os ta¡xons com backbones (isto anã, mamaferos, anfabios, pa¡ssaros, ranãpteis e peixes) de cinco anos de pilotagem da primeira fase do projeto VGP.
Em uma edição especial da Nature , com artigos complementares publicados simultaneamente em outras revistas cientaficas, o VGP detalha inaºmeras melhorias tecnologiicas com base nesses 16 conjuntos de genoma. No estudo principal, o VGP demonstra a viabilidade de definir e alcana§ar manãtricas de qualidade do genoma de referaªncia de alta qualidade usando sua abordagem automatizada de última geração de combinação de abordagens de andaimes cromossa´micos de longa e longa distância com novos algoritmos que colocam o pea§as do quebra-cabea§a de montagem do genoma.
Saindo da missão de uma década da Comunidade de Cientistas do Genoma 10K (G10K) de sequenciar os genomas de 10.000 espanãcies de vertebrados e outros esforços gena´micos comparativos, o VGP estãoaproveitando as melhorias drama¡ticas nas tecnologias de sequenciamento nos últimos anos para comea§ar a produção de conjuntos de genoma de referaªncia de alta qualidade para todos os ~ 70.000 vertebrados vivos. Atéo momento, os pipelines VGP atuais levaram ao envio de 129 assembleias dipla³ides que representam as versaµes mais completas e precisas dessas espanãcies e estãono caminho de gerar milhares de assemblies de genoma, demonstrando viabilidade não apenas na padronização de qualidade, mas também em escala .
"Quando me pediram para assumir a liderana§a do G10K em 2015, enfatizei a necessidade de trabalhar com parceiros de tecnologia e especialistas em montagem de genoma em abordagens que produzam dados da mais alta qualidade possível, já que estava levando meses por gene para meus alunos e pa³s-doutorandos para corrigir a estrutura do gene e as sequaªncias de seus experimentos, o que estava causando erros em nossos estudos biola³gicos ", disse Erich Jarvis, lider do hub de sequenciamento VGP na Universidade Rockefeller, presidente do G10K e investigador do Howard Hughes Medical Institute. "Para mim, esta não era apenas uma missão prática , mas um imperativo moral."
Arang Rhie, primeiro autor do artigo principal do National Human Genome Research Institute, National Institutes of Health, Bethesda, Maryland, EUA, acrescenta: "Foi realmente um desafio projetar um pipeline aplica¡vel a genomas altamente divergentes. Nosso maior genoma, 5 Gb de tamanho, quebrou quase todas as ferramentas comumente usadas em processos de montagem. Onívelextremo de heterozigosidade ou conteaºdo repetido representou um grande desafio. Este éapenas o começo; estamos continuamente melhorando nosso pipeline em resposta a s novas melhorias de tecnologia. "
Â
A abordagem do VGP combina pipelines de montagem com curadoria manual para corrigir montagens incorretas, lacunas importantes e outros erros, o que informa o desenvolvimento iterativo de melhores algoritmos. Por exemplo, o VGP ajudou a revelar altos naveis de duplicações, perdas ou ganhos de genes falsos , principalmente devido a algoritmos que não separam adequadamente os cromossomos maternos e paternos. Uma solução inclui uma abordagem trio binning de usar o DNA dos pais para separar as sequaªncias paternas e maternas na prole. Para os casos em que os dados dos pais não estãodisponaveis, outra solução desenvolvida pelo VGP e colaboradores éum algoritmo denominado FALCON-Phase que reduz a complexidade computacional do faseamento das sequaªncias de DNA materno e paterno na escala do cromossomo.
Kerstin Howe, lider da equipe de curadoria do Instituto Wellcome Sanger no Reino Unido, afirma: "Nossa nova abordagem para produzir conjuntos de genoma emnívelde cromossomo validados estruturalmente em escala seráa base para descobertas inovadoras em gena´mica comparativa e evolutiva. "
Adam Phillippy, presidente do grupo de trabalho de informa¡tica e montagem do genoma VGP com mais de 100 membros e chefe da Seção de Informa¡tica do Genoma do Instituto Nacional de Pesquisa do Genoma Humano, Institutos Nacionais de Saúde, Bethesda, Maryland, EUA, acrescenta: "Completando o primeiro vertebrado O genoma de referaªncia, humano, levou mais de 10 anos e US $ 3 bilhaµes de da³lares. Graças a pesquisa e ao investimento contanuos em tecnologia de sequenciamento de DNA nos últimos 20 anos, agora podemos repetir esse feito incravel várias vezes por dia por apenas alguns milhares de da³lares por genoma. "
A excelente qualidade desses conjuntos de genoma permite novas descobertas sem precedentes que tem implicações para a caracterização da biodiversidade para todas as formas de vida, conservação e saúde e doenças humanas. Os primeiros genomas de referaªncia de alta qualidade de seis espanãcies de morcegos , gerados com o consãorcio Bat 1K , revelaram seleção e perda de genes relacionados a imunidade que podem estar subjacentes a tolera¢ncia única dos morcegos a infecção viral. Essa descoberta fornece novos caminhos de pesquisa para aumentar a capacidade de sobrevivaªncia, particularmente relevante para doenças infecciosas emergentes, como a atual pandemia de COVID-19.
Especafico para a conservação e em colaboração com os MÄori na Nova Zela¢ndia e oficiais no Manãxico, análises gena´micas do kÄkÄp ?, um papagaio que não voa, e da vaquita , um pequeno boto e o mamafero marinho mais ameaa§ado, respectivamente, sugerem histórias evolutivas e demogra¡ficas de purgando mutações prejudiciais na natureza. A implicação desses pequenos tamanhos populacionais de longo prazo no equilabrio genanãtico da¡ esperana§a para a sobrevivaªncia dessas espanãcies.
Richard Durbin, professor da Universidade de Cambridge e lider do hub de sequenciamento VGP no Wellcome Sanger Institute no Reino Unido, afirma: "Esses estudos marcam o inicio de uma nova era de sequenciamento de genoma que se acelerara¡ na próxima década para permitir aplicações gena´micas em toda a a¡rvore da vida, mudando nossas interações cientaficas com o mundo vivo. "
Gene Myers, lider do hub de sequenciamento VGP no Instituto Max Planck em Dresden, Alemanha, explica: "O projeto VGP estãona vanguarda da criação de um cata¡logo gena´mico em analogia com a classificação de vida de Linnaeus. Eu e meus colegas em Dresden estãoanimado por contribuir com reconstruções de genoma excelentes com o financiamento da Sociedade Max-Planck da Alemanha. "
O VGP envolve centenas de cientistas internacionais trabalhando juntos em mais de 50 instituições em 12países diferentes desde o inicio do VGP em 2016 e éexemplar em sua cooperação cientafica, ampla infraestrutura e liderana§a colaborativa. Além disso, como o primeiro projeto de genomas eucaria³ticos em grande escala para produzir conjuntos de genomas de referaªncia atendendo a um padrãode qualidade manimo especafico, o VGP tornou-se um modelo de trabalho para outros grandes consãorcios, incluindo o Bat 1K , Pan Human Genome Project , Earth BioGenome Project , Darwin Tree of Life e European Reference Genome Atlas , entre outros.
Como uma próxima etapa, o VGP continuara¡ a trabalhar colaborativamente em todo o mundo e com outros consãorcios para completar a Fase 1 do projeto, aproximadamente uma espanãcie representativa por 260 ordens de vertebrados separados por um manimo de 50 milhões de anos de um ancestral comum com outras espanãcies na Fase 1. O VGP pretende criar recursos gena´micos comparativos com essas 260 espanãcies, incluindo alinhamentos do genoma inteiro sem referaªncia , que fornecera£o um meio de entender a história evolutiva detalhada dessas espanãcies e criar anotações genanãticas consistentes. Os dados do genoma são gerados principalmente em três centros de sequenciamento que investiram na missão do VGP, incluindo o Vertebrate Genome Lab da The Rockefeller University , em Nova York, EUA;Wellcome Sanger Institute , Reino Unido; e o Instituto Max Planck , Alemanha.
A Fase 2 se concentrara¡ em espanãcies representativas de cada familia de vertebrados e estãoatualmente em andamento na identificação de amostras e arrecadação de fundos. O VGP tem uma polatica de portas abertas e convida outros a se unirem a seus esforços, que va£o desde a arrecadação de fundos e coleta de amostras atéa geração de assemblies de genoma ou incluindo seus pra³prios assemblies de genoma que atendem a s manãtricas do VGP como parte de nossa missão geral.
O VGP colaborou e testou muitos protocolos de empresas de sequenciamento de genoma, alguns dos quais cientistas também são coautores do estudo principal, incluindo da Pacific Biosciences, Oxford Nanopore Technologies, Illumina, Arima Genomics, Phase Genomics e Dovetail Genomics. O VGP também colaborou com a DNAnexus e a Amazon para gerar um pipeline de montagem de VGP disponavel publicamente e hospedar os dados gena´micos no banco de dados Genome Ark . Os genomas, anotações e alinhamentos também estãodisponíveis em bancos de dados paºblicos internacionais de navegação e análise de genomas, incluindo o National Center for Biotechnology Information Genome Data Viewer, Ensembl genome browser e UC Santa Cruz Genomics InstituteNavegador Genome. Todos os dados são de ca³digo aberto e estãopublicamente disponíveis de acordo com as políticas de uso de dados G10K .
Outras novas descobertas biológicas dos 16 genomas do artigo principal e 25 genomas no total de mais de 20 artigos nesta primeira onda de publicações incluem:
Correções de falsos genes ou perdas de cromossomos , onde assembleias anteriores perderam entre 30% a 50% das regiaµes regulata³rias do gene codificador de proteanas ricas em GC, que foram consideradas pertencentes a 'matéria escura' do genoma ;
Cromossomos recentemente identificados no tentilha£o zebra e no ornitorrinco;
Genomas mitocondriais completos e sem erros para a maioria das espanãcies, alguns gerados em sequaªncias de moléculas únicas sem a necessidade de montagem;
Evolução do cromossomo sexual selvagem em mamaferos monotremados e pa¡ssaros;
Variações genanãticas entre humanos e saguis que tem implicações para saguis como um sistema de modelo emergente de primatas não humanos para pesquisa biomédica;
Mudanças especaficas da linhagem que moldam a evolução dos genomas de pa¡ssaros e mamaferos: pato , emu e ornitorrinco e equidna ; e
Proposta para uma nomenclatura revisada baseada na evolução universal para as famalias de ligantes e receptores de oxitocina e vasotocina .