Tecnologia Científica

Acelerando descobertas orientadas por dados
As empresas de ciências da vida usam o sistema exclusivo de gerenciamento de banco de dados do Paradigm4 para descobrir novos insights sobre a saúde humana.
Por Zach Winn - 05/04/2020


O Paradigm4 permite que os usuários integrem dados de fontes como
sequenciamento gena´mico, medições biomanãtricas, fatores ambientais e muito
mais em suas pesquisas para permitir novas descobertas em
vários campos das ciências da vida.'

Amedida que tecnologias como sequenciamento gena´mico unicelular, imagem biomédica aprimorada e dispositivos médicos da "Internet das Coisas" proliferam, descobertas importantes sobre a saúde humana são cada vez mais encontradas dentro de vastos tesouros de ciências da vida e dados de saúde complexos.

Mas tirar conclusaµes significativas desses dados éum problema difa­cil que pode envolver reunir diferentes tipos de dados e manipular grandes conjuntos de dados em resposta a diversas pesquisas cienta­ficas. O problema étanto da ciência da computação quanto de outras áreas da ciência a‰ aa­ que entra o Paradigm4.

A empresa, fundada por Marilyn Matz SM '80 e vencedor do Turing Award e pelo professor do MIT Michael Stonebraker, ajuda empresas farmacaªuticas, institutos de pesquisa e empresas de biotecnologia a transformar dados em insights.

Isso éconseguido com um sistema de gerenciamento de banco de dados computacional desenvolvido desde o ini­cio para hospedar dados diversificados e multifacetados nas fronteiras da pesquisa em ciências da vida. Isso inclui dados de fontes como biobancos nacionais, ensaios clínicos, a Internet médica das coisas, atlas de células humanas, imagens médicas, fatores ambientais e multi-a´micas, um campo que inclui o estudo de genomas, microbiomas, metabolomos e muito mais.

Além da arquitetura exclusiva do sistema, a empresa também construiu ferramentas de preparação de dados, gerenciamento de metadados e análise para ajudar os usuários a encontrar os padraµes e correlações importantes ocultos em todos esses números.

Em muitos casos, os clientes estãoexplorando conjuntos de dados que os fundadores consideram muito grandes e complexos para serem representados de maneira eficaz pelos sistemas tradicionais de gerenciamento de banco de dados.

"Estamos ansiosos para permitir que cientistas e cientistas de dados fazm coisas que não podiam fazer antes, facilitando o processamento de computação em larga escala e o aprendizado de ma¡quina em diversos dados", diz Matz. "Estamos ajudando cientistas e bioinformaticistas com pesquisa reproduza­vel e colaborativa a fazer e responder perguntas difa­ceis mais rapidamente".

Um novo paradigma

O Stonebraker épioneiro no campo de sistemas de gerenciamento de banco de dados hádécadas. Ele fundou nove empresas e suas inovações estabeleceram padraµes para a maneira como os sistemas modernos permitem que as pessoas organizem e acessem grandes conjuntos de dados.

Grande parte da carreira de Stonebraker se concentrou em bancos de dados relacionais, que organizam dados em colunas e linhas. Mas, em meados dos anos 2000, o Stonebraker percebeu que muitos dados gerados seriam armazenados melhor não em linhas ou colunas, mas em matrizes multidimensionais.

Por exemplo, os satanãlites dividem asuperfÍcie da Terra em grandes quadrados e os sistemas de GPS rastreiam o movimento de uma pessoa atravanãs desses quadrados ao longo do tempo. Essa operação envolve medições verticais, horizontais e de tempo que não são facilmente agrupadas ou manipuladas para análise em sistemas de bancos de dados relacionais.

Stonebraker lembra seus colegas cienta­ficos reclamando que os sistemas de gerenciamento de banco de dados disponí­veis eram muito lentos para trabalhar com conjuntos de dados cienta­ficos complexos em campos como gena´mica, onde os pesquisadores estudam as relações entre dados multi-a´micos em escala populacional, dados fenota­picos e registros médicos.

“[Os sistemas de bancos de dados relacionais] fazem a varredura horizontal ou vertical, mas não as duas”, explica Stonebraker. “Portanto, vocêprecisa de um sistema que faz as duas coisas e que exija um gerenciador de armazenamento na parte inferior do sistema, capaz de se mover horizontal e verticalmente em uma matriz muito grande. a‰ isso que o Paradigm4 faz. ”

Em 2008, Stonebraker começou a desenvolver um sistema de gerenciamento de banco de dados no MIT que armazenava dados em matrizes multidimensionais. Ele confirmou que a abordagem oferecia grandes vantagens em eficiência, permitindo que ferramentas anala­ticas baseadas em a¡lgebra linear, incluindo muitas formas de aprendizado de ma¡quina e processamento estata­stico de dados, fossem aplicadas a enormes conjuntos de dados de novas maneiras.

Stonebraker decidiu transformar o projeto em uma empresa em 2010, quando fez uma parceria com Matz, um empresa¡rio de sucesso que co-fundou a Cognex Corporation, uma grande empresa de visão de ma¡quina industrial que foi aberta em 1989. Os fundadores e sua equipe começam a trabalhar na construção apresenta os principais recursos do sistema, incluindo sua arquitetura distribua­da que permite a execução em servidores de baixo custo e sua capacidade de limpar e organizar automaticamente os dados de maneiras aºteis para os usuários.

Os fundadores descrevem seu sistema de gerenciamento de banco de dados como um mecanismo computacional para dados cienta­ficos e o chamam de SciDB. Além do SciDB, eles desenvolveram uma plataforma de análise, chamada de mecanismo de descoberta REVEAL, com base nas atividades e aspirações dia¡rias de pesquisa dos usuários.

“Se vocêéum cientista ou cientista de dados, os produtos REVEAL e SciDB da Paradigm cuidam de toda a confusão de dados e 'encanamento e fiação' computacional, para que vocênão precise se preocupar em acessar dados, mover dados ou configurar paralelos computação distribua­da ”, diz Matz. “Seus dados estãoprontos para a ciência Basta fazer sua pergunta cienta­fica e a plataforma orquestra todo o gerenciamento e computação de dados para vocaª. ”

O SciDB foi projetado para ser usado por cientistas e desenvolvedores, para que os usuários possam interagir com o sistema por meio de interfaces gra¡ficas de usua¡rio ou utilizando linguagens estata­sticas e de programação como R e Python.

"Tem sido muito importante vender soluções, não blocos de construção", diz Matz. “Grande parte do nosso sucesso nas ciências da vida com os principais institutos farmacaªuticos e de biotecnologia e pesquisa estãotrazendo a eles nosso conjunto REVEAL de soluções especa­ficas para aplicativos para problemas. Nãoestamos entregando a eles uma plataforma anala­tica que éum conjunto de blocos LEGO; estamos dando a eles soluções que lidam com os dados com os quais lidam diariamente e soluções que usam seu vocabula¡rio e respondem a s perguntas em que desejam trabalhar. ”

Acelerando a descoberta

Hoje, os clientes da Paradigm4 incluem algumas das maiores empresas farmacaªuticas e de biotecnologia do mundo, além de laboratórios de pesquisa nos Institutos Nacionais de Saúde, Stanford University e em outros lugares.

Os clientes podem integrar dados de sequenciamento gena´mico, medições biomanãtricas, dados sobre fatores ambientais e muito mais em suas pesquisas para permitir novas descobertas em vários campos das ciências da vida.

Matz diz que o SciDB fez 1 bilha£o de regressaµes lineares em menos de uma hora em um benchmark recente, e que pode escalar muito além disso, o que poderia acelerar descobertas e reduzir custos para pesquisadores que tradicionalmente tiveram que extrair seus dados de arquivos e depois confiar em manãtodos menos eficientes baseados em computação em nuvem para aplicar algoritmos em escala.

"Se os pesquisadores podem executar análises complexas em minutos e isso costumava levar dias, isso muda drasticamente o número de perguntas difa­ceis que vocêpode fazer e responder", diz Matz. "Esse éum multiplicador de forças que transformara¡ a pesquisa diariamente."

Além das ciências da vida, o sistema da Paradigm4 épromissor para qualquer indústria que lide com dados multifacetados, incluindo ciências da terra, onde Matz diz que um climatologista da NASA já estãousando o sistema e a Internet das coisas industrial, onde os cientistas de dados consideram grandes quantidades de dados diversos para entender sistemas de fabricação complexos . Matz diz que a empresa se concentrara¡ mais nessas indaºstrias no pra³ximo ano.

Nas ciências da vida, no entanto, os fundadores acreditam que já possuem um produto revoluciona¡rio que permite um novo mundo de descobertas. Mais adiante, eles vaªem o SciDB e o REVEAL contribuindo para a pesquisa em saúde nacional e mundial que permitira¡ que os médicos fornea§am o atendimento mais informado e personalizado que se possa imaginar.

“A consulta que todo médico deseja realizar anã: quando vocêentra em seu consulta³rio e apresenta um conjunto de sintomas, o médico pergunta: 'Quem neste banco de dados nacional tem genanãtica que se parece com a minha, sintomas que se parecem com o meu, estilo de vida?' exposições que se parecem com as minhas? E qual foi o diagnóstico deles? Qual foi o tratamento deles? E qual era a morbidade deles? Stonebraker explica. "Isso estãocorrelacionando vocêcom todo mundo para fazer remanãdios muito personalizados, e acho que isso estãoao nosso alcance." 

 

.
.

Leia mais a seguir