Humanidades

As 10 principais ideias em estatísticas que impulsionaram a revolução da IA
O Andrew Gelman , professor de estatística na Columbia, e Aki Vehtari , professor de ciência da computação na Universidade Aalto da Finlândia, publicaram uma lista das ideias estatísticas mais importantes dos últimos 50 anos.
Por Kim Martineau - 10/07/2021


Reprodução

Se você já pediu ajuda ao Siri ou Alexa, ou gerou um autorretrato no estilo de um pintor da Renascença, você interagiu com o aprendizado profundo, uma forma de inteligência artificial que extrai padrões de montanhas de dados para fazer previsões. Embora aprendizado profundo e IA tenham se tornado termos familiares, os avanços nas estatísticas que alimentaram essa revolução são menos conhecidos. Em um artigo recente,  Andrew Gelman , professor de estatística na Columbia, e  Aki Vehtari , professor de ciência da computação na Universidade Aalto da Finlândia,  publicaram uma lista  das ideias estatísticas mais importantes dos últimos 50 anos.

Abaixo, Gelman e Vehtari decompõem a lista para aqueles que podem ter cochilado por meio da Estatística 101. Cada ideia pode ser vista como um substituto para um subcampo inteiro, dizem eles, com algumas ressalvas: a ciência é incremental; ao destacar essas obras, eles não significam diminuir a importância de trabalhos semelhantes e relacionados. Eles também optaram por se concentrar em métodos em estatística e aprendizado de máquina, em vez de avanços igualmente importantes em computação estatística e ciência da computação e engenharia, que forneceram as ferramentas e o poder de computação para análise e visualização de dados para se tornarem ferramentas práticas do dia a dia. Finalmente, eles se concentraram em métodos, embora reconhecendo que os desenvolvimentos na teoria e nos métodos são frequentemente motivados por aplicações específicas. 

Vê algo importante que está faltando? Tweet-o em @columbiascience e Gelman e Vehtari considerarão adicioná-lo à lista.

Os 10 artigos e livros abaixo todos foram publicados nos últimos 50 anos e estão listados em ordem cronológica.

1. Hirotugu Akaike (1973). Teoria da Informação e uma Extensão do Princípio da Máxima Verossimilhança . Anais do Segundo Simpósio Internacional de Teoria da Informação.

Este é o artigo que introduziu o termo AIC (originalmente chamado de Critério de Informação, mas agora conhecido como Critério de Informação de Akaike), para avaliar o ajuste de um modelo com base em sua precisão preditiva estimada. AIC foi imediatamente reconhecida como uma ferramenta útil, e este artigo foi um dos vários publicados em meados da década de 1970, colocando a inferência estatística dentro de uma estrutura preditiva. Agora reconhecemos a validação preditiva como um princípio fundamental em estatística e aprendizado de máquina. Akaike foi um estatístico aplicado que, na década de 1960, tentou medir a rugosidade das pistas de aeroportos, da mesma forma que os primeiros artigos de Benoit Mandelbrot sobre taxonomia e distribuições de Pareto levaram a seu trabalho posterior na matemática dos fractais.

2. John Tukey (1977). Análise Exploratória de Dados .

Este livro foi extremamente influente e é uma leitura divertida que pode ser digerida de uma só vez. Tradicionalmente, a visualização e a exploração de dados eram consideradas aspectos de baixo grau da estatística prática; o fascínio estava em ajustar modelos, provar teoremas e desenvolver as propriedades teóricas de procedimentos estatísticos sob várias suposições ou restrições matemáticas. Tukey virou essa ideia de cabeça para baixo. Ele escreveu sobre ferramentas estatísticas não para confirmar o que já sabíamos (ou pensávamos que sabíamos), e não para rejeitar hipóteses em que nunca, ou nunca deveríamos, acreditar, mas para descobrir novos e inesperados insights a partir dos dados. Seu trabalho motivou avanços em análise de rede, software e perspectivas teóricas que integram confirmação, crítica e descoberta. 

3. Grace Wahba (1978). Priors impróprios, suavização de spline e o problema de proteção contra erros de modelo na regressão . Journal of the Royal Statistical Society.

A suavização de spline é uma abordagem para ajustar curvas não paramétricas. Outro artigo de Wahba desse período é chamado de "Uma curva francesa automática", referindo-se a uma classe de algoritmos que podem ajustar curvas suaves arbitrárias por meio de dados sem overfitting para ruído ou outliers. A ideia pode parecer óbvia agora, mas foi um grande passo à frente em uma era em que os pontos de partida para o ajuste da curva eram polinômios, exponenciais e outras formas fixas. Além da aplicabilidade direta de splines, este artigo foi importante teoricamente. Serviu como base para trabalhos posteriores em inferência bayesiana não paramétrica ao unificar ideias de regularização de modelos de alta dimensão.

4. Bradley Efron (1979). Métodos de bootstrap: outra olhada no Jackknife . Annals of Statistics.

Bootstrapping é um método para realizar inferência estatística sem suposições. Os dados puxam-se por seus bootstraps, por assim dizer. Mas você não pode fazer inferências sem suposições; o que tornou o bootstrap tão útil e influente é que as suposições vieram implicitamente com o procedimento computacional: a ideia audaciosamente simples de reamostrar os dados. Cada vez que você repete o procedimento estatístico executado nos dados originais. Assim como muitos métodos estatísticos dos últimos 50 anos, este se tornou amplamente útil por causa de uma explosão no poder da computação que permitiu que as simulações substituíssem a análise matemática.

5. Alan Gelfand e Adrian Smith (1990). Abordagens baseadas em amostragem para calcular densidades marginais . Journal of the American Statistical Association.

Outra maneira pela qual a computação rápida revolucionou as estatísticas e o aprendizado de máquina é por meio de modelos bayesianos abertos. Os modelos estatísticos tradicionais são estáticos: ajuste a distribuição A aos dados do tipo B. Mas a modelagem estatística moderna tem uma qualidade mais Tinkertoy que permite resolver problemas com flexibilidade à medida que surgem, recorrendo a bibliotecas de distribuições e transformações. Precisamos apenas de ferramentas computacionais para ajustar esses modelos ajustados. Em seu influente artigo, Gelfand e Smith não desenvolveram nenhuma ferramenta nova; eles demonstraram como a amostragem de Gibbs pode ser usada para ajustar uma grande classe de modelos estatísticos. Nas últimas décadas, o amostrador de Gibbs foi substituído pelo Hamiltoniano Monte Carlo, filtragem de partículas, Bayes variacional e algoritmos mais elaborados, mas o princípio geral de construção de modelo modular permaneceu.

6. Guido Imbens e Joshua Angrist (1994). Identificação e estimativa dos efeitos médios locais do tratamento. Econometrica.

A inferência causal é central para qualquer problema em que a pergunta não seja apenas uma descrição (como foram as coisas?) Ou previsão (o que acontecerá a seguir?), Mas um contrafactual (se fizermos X, o que acontecerá com Y?) . Os métodos causais evoluíram com o resto da estatística e do aprendizado de máquina por meio da exploração, modelagem e computação. Mas o raciocínio causal tem o desafio adicional de perguntar sobre dados que são impossíveis de medir (você não pode fazer X e não-X para a mesma pessoa). Como resultado, uma ideia chave neste campo é identificar quais perguntas podem ser respondidas de forma confiável a partir de um determinado experimento. Imbens e Angrist são economistas que escreveram um artigo influente sobre o que pode ser estimado quando os efeitos causais variam, e suas ideias formam a base para muitos dos trabalhos posteriores sobre este tópico.

7. Robert Tibshirani (1996). Redução da regressão e seleção por meio do laço . Journal of the Royal Statistical Society.

Na regressão, ou na previsão de uma variável de resultado a partir de um conjunto de entradas ou recursos, o desafio está em incluir muitas entradas junto com suas interações; o problema de estimativa resultante torna-se estatisticamente instável devido às muitas maneiras diferentes de combinar essas entradas para obter previsões razoáveis. Mínimos quadrados clássicos ou estimativas de máxima verossimilhança serão ruidosas e podem não funcionar bem em dados futuros e, portanto, vários métodos foram desenvolvidos para restringir ou “regularizar” o ajuste para obter estabilidade. Neste artigo, Tibshirani introduziu o lasso, uma abordagem computacionalmente eficiente e agora amplamente usada para regularização, que se tornou um modelo para regularização baseada em dados em modelos mais complicados.

8. Leland Wilkinson (1999). A gramática dos gráficos .

Neste livro, Wilkinson, um estatístico que trabalhou em vários projetos de software comercial influentes, incluindo SPSS e Tableau, apresenta uma estrutura para gráficos estatísticos que vai além do foco usual em gráficos de pizza versus histogramas, como desenhar um gráfico de dispersão e dados de tinta e chartjunk, para explorar abstratamente como os dados e as visualizações se relacionam. Este trabalho influenciou a estatística por meio de muitos caminhos, principalmente por meio do ggplot2 e da família de pacotes tidyverse na linguagem de computação R. É um passo importante para integrar dados exploratórios e análise de modelo no fluxo de trabalho da ciência de dados.

9. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville e Yoshua Bengio (2014). Redes Adversariais Generativas . Proceedings of the International Conference on Neural Information Processing Systems.

Uma das conquistas impressionantes do aprendizado de máquina nos últimos anos é a tomada de decisões em tempo real por meio de previsões e feedbacks de inferência. Exemplos famosos incluem carros autônomos e AlphaGo da DeepMind, que se treinou para se tornar o melhor jogador de Go do planeta. Redes adversárias gerativas, ou GANs, são um avanço conceitual que permite que problemas de aprendizagem por reforço sejam resolvidos automaticamente. Eles marcam um passo em direção ao objetivo de longa data da inteligência artificial geral, ao mesmo tempo que aproveitam o poder do processamento paralelo para que um programa possa se treinar jogando milhões de jogos contra si mesmo. Em um nível conceitual, os GANs vinculam a predição aos modelos generativos.

10. Yoshua Bengio, Yann LeCun e Geoffrey Hinton (2015). Aprendizado profundo . Nature .

Aprendizado profundo é uma classe de modelos de redes neurais artificiais que podem ser usados ​​para fazer previsões não lineares flexíveis usando um grande número de recursos. Seus blocos de construção - regressão logística, estrutura de vários níveis e inferência bayesiana - dificilmente são novos. O que torna essa linha de pesquisa tão influente é o reconhecimento de que esses modelos podem ser ajustados para resolver uma variedade de problemas de previsão, desde o comportamento do consumidor até a análise de imagens. Como acontece com outros desenvolvimentos em estatística e aprendizado de máquina, o processo de ajuste só foi possível com o advento da computação paralela rápida e algoritmos estatísticos para aproveitar esse poder para ajustar modelos grandes em tempo real. Conceitualmente, ainda estamos alcançando o poder desses métodos, e é por isso que há tanto interesse em aprendizado de máquina interpretável.

 

.
.

Leia mais a seguir