Tecnologia Científica

Estata­sticos de Stanford e cientistas de dados do Washington Post constroem modelos de previsão mais honestos
Um novo modelo estata­stico construa­do com base na pesquisa de Stanford gera previsaµes com mais nuances para eventos complicados. O Washington Post executou esse modelo durante a eleia§a£o presidencial de 2020 e planeja usa¡-lo em futuros pleitos
Por Taylor Kubota - 21/03/2021

Em 3 de novembro de 2020 - e por muitos dias depois - milhões de pessoas ficaram de olho nos modelos de previsão das eleições presidenciais veiculados por vários meios de comunicação. Com apostas tão altas em jogo, cada tique de uma contagem e contração de um gra¡fico poderia enviar ondas de choque de superinterpretação.

Silhuetas sobrepostas de vermelho e azul de pessoas votando nas eleições dos EUA
Um modelo de previsão desenvolvido pelo The Washington Post para as eleições
presidenciais em 2020 aplicou a pesquisa estata­stica de Stanford. O modelo destacou
as incertezas que existem nas previsaµes dos resultados das
votações. (Crédito da imagem: Getty Images)

Um problema com as contagens brutas da eleição presidencial éque elas criam uma narrativa falsa de que os resultados finais ainda estãose desenvolvendo de forma dra¡stica. Na verdade, na noite da eleição não há“recuperação por trás” ou “perda da liderana§a” porque os votos já foram lana§ados; o vencedor já ganhou - são não sabemos ainda. Mais do que meramente imprecisas, essas descrições fascinantes do processo de votação podem fazer os resultados parecerem excessivamente suspeitos ou surpreendentes.

“Modelos preditivos são usados ​​para tomar decisaµes que podem ter consequaªncias enormes para a vida das pessoas”, disse Emmanuel Canda¨s , o Presidente Barnum-Simons de Matema¡tica e Estata­stica da Escola de Humanidades e Ciências da Universidade de Stanford. “a‰ extremamente importante entender a incerteza sobre essas previsaµes, para que as pessoas não tomem decisaµes com base em crena§as falsas.”

Essa incerteza era exatamente o que o cientista de dados Lenny Bronner (BS '16, MS '17) do The Washington Post pretendia destacar em um novo modelo de previsão que começou a desenvolver para as eleições locais da Virga­nia em 2019 e a refinar ainda mais para as eleições presidenciais, com a ajuda de John Cherian (BS '17, MS '17), um atual estudante de doutorado em estata­stica em Stanford que Bronner conhecia de seus estudos de graduação.

“O modelo realmente tratava de adicionar contexto aos resultados que estavam sendo mostrados”, disse Bronner. “Nãose tratava de prever a eleição. Tratava-se de dizer aos leitores que os resultados que eles estavam vendo não refletiam onde pensa¡vamos que a eleição iria terminar. ”

Este modelo éa primeira aplicação no mundo real de uma técnica estata­stica existente desenvolvida em Stanford por Canda¨s, o ex-bolsista de pa³s-doutorado Yaniv Romano e o ex-aluno de graduação Evan Patterson. A técnica éaplica¡vel a uma variedade de problemas e, como no modelo de predicação de Post , pode ajudar a elevar a importa¢ncia da incerteza honesta na previsão. Enquanto o Post continua a ajustar seu modelo para futuras eleições, Canda¨s estãoaplicando a técnica subjacente em outro lugar, incluindo dados sobre COVID-19.

Evitando suposições

Para criar essa técnica estata­stica, Canda¨s, Romano e Evan Patterson combinaram duas áreas de pesquisa - regressão quanta­lica e predição conformada - para criar o que Canda¨s chamou de “o intervalo de valores preditos mais informativo e bem calibrado que eu sei construir”.

Enquanto a maioria dos modelos de previsão tenta prever um aºnico valor, geralmente a média (média) de um conjunto de dados, a regressão quanta­lica estima uma gama de resultados plausa­veis. Por exemplo, uma pessoa pode querer encontrar o quantil 90, que éo limite abaixo do qual o valor observado deve cair 90 por cento do tempo. Quando adicionada a  regressão de quantis, a predição conformada - desenvolvida pelo cientista da computação Vladimir Vovk - calibra os quantis estimados para que sejam va¡lidos fora de uma amostra, como para dados atéentão não vistos. Para o modelo de eleição do Post , isso significava usar os resultados da votação de áreas demograficamente semelhantes para ajudar a calibrar as previsaµes sobre os votos que estavam pendentes.

O que háde especial nessa técnica éque ela comea§a com suposições ma­nimas incorporadas a s equações. Para funcionar, no entanto, ele precisa comea§ar com uma amostra representativa de dados. Isso éum problema para a noite da eleição porque as contagens de votos iniciais - geralmente de pequenas comunidades com mais votação pessoal - raramente refletem o resultado final.

Sem acesso a uma amostra representativa dos votos atuais, Bronner e Cherian tiveram que adicionar uma suposição. Eles calibraram seu modelo usando as contagens de votos das eleições presidenciais de 2016 para que, quando uma área relatasse 100 por cento de seus votos, o modelo do Post assumisse que quaisquermudanças entre os votos de 2020 daquela área e seus votos de 2016 seriam igualmente refletidos em similar condados. (O modelo então se ajustaria ainda mais - reduzindo a influaªncia da suposição - conforme mais áreas relatassem 100 por cento de seus votos.) Para verificar a validade deste manãtodo, eles testaram o modelo com cada eleição presidencial, comea§ando em 1992, e descobriram que suas previsaµes coincidiram de perto com os resultados do mundo real.

“O que ébom em usar a abordagem de Emmanuel para isso éque as barras de erro em torno de nossas previsaµes são muito mais realistas e podemos manter suposições ma­nimas”, disse Cherian.

Visualizando a incerteza

Em ação, a visualização do modelo ao vivo do Post foi cuidadosamente projetada para exibir de forma proeminente as barras de erro e a incerteza que elas representavam. O Post executou o modelo para prever a gama de resultados eleitorais prova¡veis ​​em diferentes estados e tipos de condado; condados foram categorizados de acordo com seus dados demogra¡ficos. Em todos os casos, cada nomeado tinha sua própria barra horizontal preenchida em sãolido - azul para Joe Biden, vermelho para Donald Trump - para mostrar os votos conhecidos. Então, o resto da barra continha um gradiente que representava os resultados mais prova¡veis ​​para os votos pendentes, de acordo com o modelo. A área mais escura do gradiente era o resultado mais prova¡vel.


Captura de tela do modelo eleitoral do The Washington Post , mostrando a previsão de
votação para a Pensilva¢nia em 4 de novembro de 2020. (Crédito da imagem:
cortesia do The Washington Post)

“Conversamos com pesquisadores sobre a visualização da incerteza e aprendemos que se vocêder a alguém uma previsão média e depois dizer quanta incerteza estãoenvolvida, eles tendem a ignorar a incerteza”, disse Bronner. “Então fizemos uma visualização que émuito 'incerteza para a frente'. Quera­amos mostrar, essa éa incerteza e nem vamos dizer qual éa nossa previsão média. ”

Amedida que a noite da eleição avana§ava, a parte mais escura do gradiente de Biden na visualização do voto total estava mais para o lado direito da barra, o que significava que o modelo previu que ele acabaria com mais votos. Seu gradiente também era mais amplo e se espalhava assimetricamente em direção ao lado mais votado da barra, o que significava que o modelo previa que haveria muitos cenários, com chances decentes, em que ele ganharia mais votos do que o número mais prova¡vel.

“Na noite da eleição, notamos que as barras de erro eram muito curtas no lado esquerdo da barra de Biden e muito longas no lado direito”, disse Cherian. “Isso acontecia porque Biden tinha muitas vantagens para, potencialmente, superar nossa projeção de forma substancial e ele não tinha tantas desvantagens”. Essa previsão assimanãtrica foi uma consequaªncia da abordagem de modelagem particular usada por Cherian e Bronner. Como as previsaµes do modelo foram calibradas usando resultados de condados demograficamente semelhantes que terminaram de relatar seus votos, ficou claro que Biden tinha uma boa chance de superar significativamente o voto democrata de 2016 em condados suburbanos, embora fosse extremamente improva¡vel que ele tivesse um desempenho pior.

Claro, conforme a contagem de votos se encaminhava para o final, os gradientes encolheram e as previsaµes incertas do Post pareciam cada vez mais certas - uma situação desesperadora para cientistas de dados preocupados em exagerar tais conclusaµes importantes.

“Eu estava particularmente preocupado que a corrida caa­sse para um estado, e nostera­amos uma previsão em nossa pa¡gina por dias que acabou não se concretizando”, disse Bronner.

E essa preocupação foi bem fundada porque o modelo previu forte e teimosamente uma vita³ria de Biden por vários dias, a  medida que a contagem final dos votos chegava não de um estado, mas de três: Wisconsin, Michigan e Pensilva¢nia.

“Ele acabou vencendo esses estados, então isso acabou funcionando bem para o modelo”, acrescentou Bronner. “Mas na anãpoca era muito, muito estressante.”

Seguindo seu compromisso com a transparaªncia, Bronner e Cherian também divulgaram o ca³digo em seu modelo eleitoral, para que as pessoas pudessem executa¡-lo por conta própria. Eles também publicaram relatórios técnicos sobre seus manãtodos (disponí­veis para download aqui ). O modelo seráexecutado novamente durante as eleições estaduais da Virga­nia este ano e as eleições de meio de mandato em 2022.

“Quera­amos tornar tudo paºblico. Queremos que esta seja uma conversa com pessoas que se preocupam com eleições e pessoas que se preocupam com dados ”, disse Bronner.

Fora§ando a honestidade

O panorama da Canda¨s écomo o trabalho estata­stico honesto e transparente pode contribuir para resultados mais razoa¡veis ​​e anãticos no mundo real. Afinal, as estata­sticas são fundamentais para a inteligaªncia artificial e os algoritmos, que estãopresentes em nossa vida cotidiana. Eles orquestram nossos resultados de pesquisa, experiência em ma­dia social e sugestaµes de streaming, ao mesmo tempo que são usados ​​em ferramentas de tomada de decisão em assistaªncia médica, admissaµes em universidades, sistema judicia¡rio e banca¡rio. O poder - e a onipotaªncia percebida - dos algoritmos incomoda Canda¨s.

Modelos como o que o Post usou podem abordar algumas dessas questões. Comea§ando com menos suposições, o modelo fornece uma avaliação mais honesta - e mais difa­cil de ignorar - da incerteza em torno de suas previsaµes. E modelos semelhantes podem ser desenvolvidos para uma ampla variedade de problemas de previsão. Na verdade, Canda¨s estãoatualmente trabalhando em um modelo, construa­do na mesma técnica estata­stica do modelo eleitoral de Post , para inferir os tempos de sobrevivaªncia após contratar COVID-19 com base em fatores relevantes como idade, sexo e comorbidades.

O problema de um modelo estata­stico honesto e livre de suposições, entretanto, éque as conclusaµes são prejudicadas se não houver dados suficientes. Por exemplo, as previsaµes sobre as consequaªncias de diferentes decisaµes de cuidados médicos para as mulheres teriam barras de erro muito mais amplas do que as previsaµes sobre os homens, porque sabemos muito menos sobre as mulheres, em termos médicos, do que os homens.

Este problema éum recurso, não um bug. A incerteza éextremamente a³bvia, assim como a correção: precisamos de mais e melhores dados antes de comea§ar a usa¡-los para informar decisaµes importantes.

“Como estata­sticos, queremos informar as decisaµes, mas não somos os tomadores de decisão”, disse Canda¨s. “Então, gosto da maneira como este modelo comunica os resultados da análise de dados aos tomadores de decisão porque éum relatório extremamente honesto e evita posicionar o algoritmo como o tomador de decisão.”

 

.
.

Leia mais a seguir