As empresas de ciências da vida usam o sistema exclusivo de gerenciamento de banco de dados do Paradigm4 para descobrir novos insights sobre a saúde humana.
O Paradigm4 permite que os usuários integrem dados de fontes como
sequenciamento gena´mico, medições biomanãtricas, fatores ambientais e muito
mais em suas pesquisas para permitir novas descobertas em
vários campos das ciências da vida.'
Amedida que tecnologias como sequenciamento gena´mico unicelular, imagem biomédica aprimorada e dispositivos médicos da "Internet das Coisas" proliferam, descobertas importantes sobre a saúde humana são cada vez mais encontradas dentro de vastos tesouros de ciências da vida e dados de saúde complexos.
Mas tirar conclusaµes significativas desses dados éum problema difacil que pode envolver reunir diferentes tipos de dados e manipular grandes conjuntos de dados em resposta a diversas pesquisas cientaficas. O problema étanto da ciência da computação quanto de outras áreas da ciência a‰ aa que entra o Paradigm4.
A empresa, fundada por Marilyn Matz SM '80 e vencedor do Turing Award e pelo professor do MIT Michael Stonebraker, ajuda empresas farmacaªuticas, institutos de pesquisa e empresas de biotecnologia a transformar dados em insights.
Isso éconseguido com um sistema de gerenciamento de banco de dados computacional desenvolvido desde o inicio para hospedar dados diversificados e multifacetados nas fronteiras da pesquisa em ciências da vida. Isso inclui dados de fontes como biobancos nacionais, ensaios clínicos, a Internet médica das coisas, atlas de células humanas, imagens médicas, fatores ambientais e multi-a´micas, um campo que inclui o estudo de genomas, microbiomas, metabolomos e muito mais.
Além da arquitetura exclusiva do sistema, a empresa também construiu ferramentas de preparação de dados, gerenciamento de metadados e análise para ajudar os usuários a encontrar os padraµes e correlações importantes ocultos em todos esses números.
Em muitos casos, os clientes estãoexplorando conjuntos de dados que os fundadores consideram muito grandes e complexos para serem representados de maneira eficaz pelos sistemas tradicionais de gerenciamento de banco de dados.
"Estamos ansiosos para permitir que cientistas e cientistas de dados fazm coisas que não podiam fazer antes, facilitando o processamento de computação em larga escala e o aprendizado de ma¡quina em diversos dados", diz Matz. "Estamos ajudando cientistas e bioinformaticistas com pesquisa reproduzavel e colaborativa a fazer e responder perguntas difaceis mais rapidamente".
Um novo paradigma
O Stonebraker épioneiro no campo de sistemas de gerenciamento de banco de dados hádécadas. Ele fundou nove empresas e suas inovações estabeleceram padraµes para a maneira como os sistemas modernos permitem que as pessoas organizem e acessem grandes conjuntos de dados.
Grande parte da carreira de Stonebraker se concentrou em bancos de dados relacionais, que organizam dados em colunas e linhas. Mas, em meados dos anos 2000, o Stonebraker percebeu que muitos dados gerados seriam armazenados melhor não em linhas ou colunas, mas em matrizes multidimensionais.
Por exemplo, os satanãlites dividem asuperfÍcie da Terra em grandes quadrados e os sistemas de GPS rastreiam o movimento de uma pessoa atravanãs desses quadrados ao longo do tempo. Essa operação envolve medições verticais, horizontais e de tempo que não são facilmente agrupadas ou manipuladas para análise em sistemas de bancos de dados relacionais.
Stonebraker lembra seus colegas cientaficos reclamando que os sistemas de gerenciamento de banco de dados disponíveis eram muito lentos para trabalhar com conjuntos de dados cientaficos complexos em campos como gena´mica, onde os pesquisadores estudam as relações entre dados multi-a´micos em escala populacional, dados fenotapicos e registros médicos.
“[Os sistemas de bancos de dados relacionais] fazem a varredura horizontal ou vertical, mas não as duasâ€, explica Stonebraker. “Portanto, vocêprecisa de um sistema que faz as duas coisas e que exija um gerenciador de armazenamento na parte inferior do sistema, capaz de se mover horizontal e verticalmente em uma matriz muito grande. a‰ isso que o Paradigm4 faz. â€
Em 2008, Stonebraker começou a desenvolver um sistema de gerenciamento de banco de dados no MIT que armazenava dados em matrizes multidimensionais. Ele confirmou que a abordagem oferecia grandes vantagens em eficiência, permitindo que ferramentas analaticas baseadas em a¡lgebra linear, incluindo muitas formas de aprendizado de ma¡quina e processamento estatastico de dados, fossem aplicadas a enormes conjuntos de dados de novas maneiras.
Stonebraker decidiu transformar o projeto em uma empresa em 2010, quando fez uma parceria com Matz, um empresa¡rio de sucesso que co-fundou a Cognex Corporation, uma grande empresa de visão de ma¡quina industrial que foi aberta em 1989. Os fundadores e sua equipe começam a trabalhar na construção apresenta os principais recursos do sistema, incluindo sua arquitetura distribuada que permite a execução em servidores de baixo custo e sua capacidade de limpar e organizar automaticamente os dados de maneiras aºteis para os usuários.
Os fundadores descrevem seu sistema de gerenciamento de banco de dados como um mecanismo computacional para dados cientaficos e o chamam de SciDB. Além do SciDB, eles desenvolveram uma plataforma de análise, chamada de mecanismo de descoberta REVEAL, com base nas atividades e aspirações dia¡rias de pesquisa dos usuários.
“Se vocêéum cientista ou cientista de dados, os produtos REVEAL e SciDB da Paradigm cuidam de toda a confusão de dados e 'encanamento e fiação' computacional, para que vocênão precise se preocupar em acessar dados, mover dados ou configurar paralelos computação distribuada â€, diz Matz. “Seus dados estãoprontos para a ciência Basta fazer sua pergunta cientafica e a plataforma orquestra todo o gerenciamento e computação de dados para vocaª. â€
O SciDB foi projetado para ser usado por cientistas e desenvolvedores, para que os usuários possam interagir com o sistema por meio de interfaces gra¡ficas de usua¡rio ou utilizando linguagens estatasticas e de programação como R e Python.
"Tem sido muito importante vender soluções, não blocos de construção", diz Matz. “Grande parte do nosso sucesso nas ciências da vida com os principais institutos farmacaªuticos e de biotecnologia e pesquisa estãotrazendo a eles nosso conjunto REVEAL de soluções especaficas para aplicativos para problemas. Nãoestamos entregando a eles uma plataforma analatica que éum conjunto de blocos LEGO; estamos dando a eles soluções que lidam com os dados com os quais lidam diariamente e soluções que usam seu vocabula¡rio e respondem a s perguntas em que desejam trabalhar. â€
Acelerando a descoberta
Hoje, os clientes da Paradigm4 incluem algumas das maiores empresas farmacaªuticas e de biotecnologia do mundo, além de laboratórios de pesquisa nos Institutos Nacionais de Saúde, Stanford University e em outros lugares.
Os clientes podem integrar dados de sequenciamento gena´mico, medições biomanãtricas, dados sobre fatores ambientais e muito mais em suas pesquisas para permitir novas descobertas em vários campos das ciências da vida.
Matz diz que o SciDB fez 1 bilha£o de regressaµes lineares em menos de uma hora em um benchmark recente, e que pode escalar muito além disso, o que poderia acelerar descobertas e reduzir custos para pesquisadores que tradicionalmente tiveram que extrair seus dados de arquivos e depois confiar em manãtodos menos eficientes baseados em computação em nuvem para aplicar algoritmos em escala.
"Se os pesquisadores podem executar análises complexas em minutos e isso costumava levar dias, isso muda drasticamente o número de perguntas difaceis que vocêpode fazer e responder", diz Matz. "Esse éum multiplicador de forças que transformara¡ a pesquisa diariamente."
Além das ciências da vida, o sistema da Paradigm4 épromissor para qualquer indústria que lide com dados multifacetados, incluindo ciências da terra, onde Matz diz que um climatologista da NASA já estãousando o sistema e a Internet das coisas industrial, onde os cientistas de dados consideram grandes quantidades de dados diversos para entender sistemas de fabricação complexos . Matz diz que a empresa se concentrara¡ mais nessas indaºstrias no pra³ximo ano.
Nas ciências da vida, no entanto, os fundadores acreditam que já possuem um produto revoluciona¡rio que permite um novo mundo de descobertas. Mais adiante, eles vaªem o SciDB e o REVEAL contribuindo para a pesquisa em saúde nacional e mundial que permitira¡ que os médicos fornea§am o atendimento mais informado e personalizado que se possa imaginar.
“A consulta que todo médico deseja realizar anã: quando vocêentra em seu consulta³rio e apresenta um conjunto de sintomas, o médico pergunta: 'Quem neste banco de dados nacional tem genanãtica que se parece com a minha, sintomas que se parecem com o meu, estilo de vida?' exposições que se parecem com as minhas? E qual foi o diagnóstico deles? Qual foi o tratamento deles? E qual era a morbidade deles? Stonebraker explica. "Isso estãocorrelacionando vocêcom todo mundo para fazer remanãdios muito personalizados, e acho que isso estãoao nosso alcance."Â