Humanidades

Conjuntos de dados plurianuais sugerem que projetar resultados da vida das pessoas com IA não étão simples
As técnicas de aprendizado de ma¡quina que os cientistas usam para prever resultados de grandes conjuntos de dados podem ficar aquanãm quando se trata de projetar os resultados da vida das pessoas, de acordo com estudo
Por Rose Huber - 31/03/2020


lustração porEgan Jimenez, Escola de Relações Paºblicas e Internacionais Woodrow Wilson

Publicado por 112 co-autores no Proceedings da National Academy of Science s , os resultados sugerem que socia³logos e cientistas de dados devem ter cautela na modelagem preditiva, especialmente no sistema de justia§a criminal e nos programas sociais.

Cento e sessenta equipes de pesquisa de cientistas sociais e de dados construa­ram modelos estata­sticos e de aprendizado de ma¡quina para prever a mensuração de seis resultados de vida de criana§as, pais e fama­lias. Mesmo depois de usar uma modelagem de ponta e um conjunto de dados de alta qualidade contendo 13.000 pontos de dados sobre mais de 4.000 fama­lias, os melhores modelos preditivos de IA não eram muito precisos.

"Aqui estãoum cena¡rio em que temos centenas de participantes e um rico conjunto de dados, e mesmo os melhores resultados de IA ainda não são precisos", disse Matt Salganik , co-autor do estudo , professor de sociologia em Princeton e diretor interino do Center for Information Technology. Policy , com base na Escola Woodrow Wilson de Princeton de Assuntos Paºblicos e Internacionais .

“Esses resultados nos mostram que o aprendizado de ma¡quina não éma¡gico; existem claramente outros fatores em jogo quando se trata de prever o curso da vida ”, afirmou ele. "O estudo também nos mostra que temos muito a aprender, e colaborações em massa como essa são extremamente importantes para a comunidade de pesquisa".

No entanto, o estudo revelou os benefa­cios de reunir especialistas de várias disciplinas em um ambiente de colaboração em massa, disse Salganik. Em muitos casos, os modelos mais simples superaram as técnicas mais complicadas, e as equipes com modelos de pontuação mais precisos vieram de disciplinas incomuns - como a pola­tica, onde a pesquisa em comunidades desfavorecidas élimitada.

Salganik disse que o projeto foi inspirado na Wikipedia, uma das primeiras colaborações em massa do mundo, criada em 2001 como uma enciclopanãdia compartilhada. Ele ponderou que outros problemas cienta­ficos poderiam ser resolvidos por meio de uma nova forma de colaboração, e foi quando ele juntou forças com Sara McLanahan , o professor de Sociologia e Relações Paºblicas de William S. Tod em Princeton, bem como os estudantes de graduação de Princeton Ian Lundberg e Alex. Kindel , ambos no Departamento de Sociologia.

McLanahan éinvestigadora principal do Estudo de Fama­lias Fra¡geis e Bem-Estar da Criana§a, baseado em Princeton e na Universidade de Columbia, que estuda uma coorte de cerca de 5.000 criana§as nascidas em grandes cidades americanas entre 1998 e 2000, com uma amostragem excessiva de criana§as nascidas de pais solteiros. O estudo longitudinal foi planejado para entender a vida de criana§as nascidas em fama­lias solteiras.

Por meio de pesquisas coletadas em seis ondas (quando a criana§a nasceu e depois quando ela atingiu as idades de 1, 3, 5, 9 e 15), o estudo capturou milhões de pontos de dados sobre criana§as e suas fama­lias. Outra onda serácapturada aos 22 anos.

Na anãpoca em que os pesquisadores projetaram o desafio, os dados a partir dos 15 anos (que os pesquisadores chamam no artigo de “dados de espera”) ainda não haviam sido disponibilizados ao paºblico. Isso criou uma oportunidade de pedir a outros cientistas para prever os resultados de vida das pessoas no estudo por meio de uma colaboração em massa.

"Quando comea§amos, eu realmente não sabia o que era uma colaboração em massa, mas sabia que seria uma boa ideia apresentar nossos dados a um novo grupo de pesquisadores: cientistas de dados", disse McLanahan.

"Os resultados foram reveladores", disse ela. “Ou a sorte desempenha um papel importante na vida das pessoas, ou nossas teorias como cientistas sociais estãoperdendo algumas varia¡veis ​​importantes. Ainda émuito cedo para ter certeza.

Os co-organizadores receberam 457 inscrições de 68 instituições de todo o mundo, incluindo várias equipes de Princeton.

Usando os dados das Fama­lias Fra¡geis, os participantes foram solicitados a prever um ou mais dos seis resultados de vida aos 15 anos. Estes inclua­ram a média de notas escolares (GPA); gra£o de criana§a; despejo domanãstico; dificuldades materiais domésticas; dispensa do cuidador prima¡rio; e participação do cuidador prima¡rio no treinamento para o trabalho.

O desafio foi baseado no manãtodo de tarefa comum, um projeto de pesquisa usado com freqa¼aªncia na ciência da computação, mas não nas ciências sociais. Esse manãtodo libera alguns, mas não todos, os dados, permitindo que as pessoas usem qualquer técnica que desejem determinar os resultados. O objetivo éprever com precisão os dados de espera, independentemente da técnica necessa¡ria para chegar la¡.

Claudia Roberts , uma estudante de Princeton que estuda ciência da computação , testou as previsaµes do GPA em um curso de aprendizado de ma¡quina ministrado por Barbara Engelhardt , professora associada de ciência da computação. Na primeira fase, Roberts treinou 200 modelos usando diferentes algoritmos. O esfora§o de codificação foi significativo e ela se concentrou apenas na criação dos melhores modelos possa­veis. "Como cientistas da computação, muitas vezes nos preocupamos apenas em otimizar a precisão das previsaµes", disse Roberts.

Roberts cortou o conjunto de recursos de 13.000 a 1.000 para o modelo dela. Ela fez isso depois que Salganik e Lundberg a desafiaram a olhar para os dados como cientista social - passando por todas as perguntas da pesquisa manualmente. “Os cientistas sociais não tem medo de fazer trabalho manual e de dedicar algum tempo para realmente entender seus dados. Executei muitos modelos e, no final, usei uma abordagem inspirada pela ciência social para reduzir meu conjunto de recursos aos mais relevantes para a tarefa. ”

Roberts disse que o exerca­cio éum bom lembrete de quanto humanos são complexos, o que pode ser difa­cil para o aprendizado de ma¡quina modelar. “Queremos que esses modelos de aprendizado de ma¡quina descubram padraµes em conjuntos de dados massivos que nós, como seres humanos, não temos largura de banda ou capacidade de detectar. Mas vocênão pode simplesmente aplicar cegamente algum algoritmo na esperana§a de responder a algumas das perguntas mais prementes da sociedade. Nãoétão preto e branco.

Erik H. Wang , Ph.D. estudante de pola­tica  em Princeton, teve uma experiência semelhante com o desafio. Sua equipe fez a melhor previsão estata­stica de dificuldades materiais entre todas as inscrições participantes.

Inicialmente, Wang e sua equipe encontraram muitas perguntas sem resposta pelos respondentes da pesquisa, dificultando a localização de varia¡veis ​​significativas para previsão. Eles combinaram técnicas convencionais de imputação com um manãtodo chamado LASSO para chegar a 339 varia¡veis ​​importantes para as dificuldades do material. A partir daa­, eles executaram o LASSO novamente, o que lhes deu uma previsão mais precisa das dificuldades materiais da criana§a aos 15 anos.

Wang e sua equipe fizeram duas observações a partir dos resultados: as respostas das ma£es foram mais aºteis na previsão de dificuldades materiais, e os resultados anteriores são bons em prever as futuras. Mas isso não édefinitivo ou causal, disse Wang; eles são basicamente apenas correlações.

“A reprodutibilidade éextremamente importante. E a reprodutibilidade das soluções de aprendizado de ma¡quina requer que vocêsiga protocolos específicos. Outra lição aprendida com este exerca­cio: para os resultados do curso da vida humana, o aprendizado de ma¡quina pode levar vocêatéagora ”, disse Wang.

Greg Gundersen , um estudante de pós-graduação em ciência da computação, enfrentou outra questão: localizar os pontos de dados com maior previsão de resultados. Na anãpoca, os usuários precisavam percorrer dezenas de PDFs para localizar as perguntas e respostas importantes. Por exemplo, o modelo de Gundersen disse a ele que a varia¡vel mais preditiva para despejo era "m4a3". Para descobrir o significado dessa varia¡vel, foi necessa¡rio pesquisar os PDFs dos questiona¡rios originais para saber o que realmente significava: "Ha¡ quantos meses ele parou de morar com você(na maioria das vezes)?"

Então, Gundersen, que trabalhou como desenvolvedor da Web antes de vir para Princeton, escreveu um pequeno script para raspar os PDFs, extraindo os metadados sobre os nomes das varia¡veis. Ele então pegou esses metadados e os hospedou em um pequeno aplicativo da Web pesquisa¡vel por palavra-chave. O trabalho de Gundersen inspirou a equipe de fama­lias fra¡geis, e uma versão mais desenvolvida de seu site estãoagora dispona­vel para futuros pesquisadores.

"Os resultados que esse desafio produziu são incra­veis", disse Salganik. "Agora podemos criar essas colaborações em massa simuladas reutilizando o ca³digo das pessoas e extraindo suas técnicas para analisar diferentes resultados, o que nos ajudara¡ a chegar mais perto da compreensão da variabilidade entre as fama­lias".

Atualmente, a equipe estãosolicitando subsa­dios para continuar a pesquisa nessa área e também publicou 12 resultados da equipe em uma edição especial de uma revista chamada Socius , uma nova revista de acesso aberto da American Sociological Association . Para apoiar pesquisas adicionais nessa área, todas as submissaµes ao Desafio - ca³digo, previsaµes e explicações narrativas - estãodisponí­veis ao paºblico.

 
O estudo foi financiado pela Fundação Russell Sage , pela National Science Foundation (doação 1761810) e pelo Instituto Nacional de Saúde Infantil Eunice Kennedy Shriver (NICHD) e pelo Desenvolvimento Humano (doação P2-CHD047879).

O financiamento para o Estudo de Fama­lias Fra¡geis e Bem-Estar da Criana§a foi fornecido pelo NICHD (doações R01-HD36916, R01-HD39135) e por um consãorcio de fundações privadas, incluindo a Robert Wood Johnson Foundation .

O artigo, “ Medindo a previsibilidade dos resultados da vida com uma colaboração cienta­fica em massa ”, foi publicado em 30 de mara§o pelo PNAS.

 

.
.

Leia mais a seguir