Tecnologia Científica

Técnica de validação pode ajudar cientistas a fazer previsões mais precisas
Pesquisadores do MIT desenvolveram uma nova abordagem para avaliar previsões com uma dimensão espacial, como previsão do tempo ou mapeamento da poluição do ar.
Por Adam Zewe - 12/02/2025


Um novo método pode ajudar cientistas a fazer melhores previsões em áreas como previsão do tempo, pesquisa climática, saúde pública e gestão ecológica. Crédito: MIT News; iStock


Você deve pegar seu guarda-chuva antes de sair de casa? Verificar a previsão do tempo com antecedência só será útil se essa previsão for precisa.

Problemas de previsão espacial, como previsão do tempo ou estimativa de poluição do ar, envolvem prever o valor de uma variável em um novo local com base em valores conhecidos em outros locais. Cientistas normalmente usam métodos de validação testados e comprovados para determinar o quanto confiar nessas previsões.

Mas pesquisadores do MIT mostraram que esses métodos populares de validação podem falhar muito mal para tarefas de previsão espacial. Isso pode levar alguém a acreditar que uma previsão é precisa ou que um novo método de previsão é eficaz, quando na realidade não é o caso.

Os pesquisadores desenvolveram uma técnica para avaliar métodos de validação de predição e a usaram para provar que dois métodos clássicos podem estar substancialmente errados em problemas espaciais. Eles então determinaram por que esses métodos podem falhar e criaram um novo método projetado para lidar com os tipos de dados usados ??para predições espaciais.

Em experimentos com dados reais e simulados, seu novo método forneceu validações mais precisas do que as duas técnicas mais comuns. Os pesquisadores avaliaram cada método usando problemas espaciais realistas, incluindo a previsão da velocidade do vento no Aeroporto O-Hare de Chicago e a previsão da temperatura do ar em cinco locais metropolitanos dos EUA.

Seu método de validação pode ser aplicado a uma série de problemas, desde ajudar cientistas do clima a prever temperaturas da superfície do mar até auxiliar epidemiologistas a estimar os efeitos da poluição do ar em certas doenças.

“Espero que isso leve a avaliações mais confiáveis ??quando as pessoas estiverem criando novos métodos preditivos e a uma melhor compreensão do desempenho dos métodos”, diz Tamara Broderick, professora associada do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do Laboratório de Sistemas de Informação e Decisão e do Instituto de Dados, Sistemas e Sociedade, e afiliada do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).

Broderick é acompanhado no artigo pelo autor principal e pós-doutorado do MIT David R. Burt e pelo aluno de pós-graduação da EECS Yunyi Shen. A pesquisa será apresentada na International Conference on Artificial Intelligence and Statistics.

Avaliando validações

O grupo de Broderick colaborou recentemente com oceanógrafos e cientistas atmosféricos para desenvolver modelos de previsão de aprendizado de máquina que podem ser usados ??para problemas com um forte componente espacial.

Por meio desse trabalho, eles notaram que métodos de validação tradicionais podem ser imprecisos em configurações espaciais. Esses métodos mantêm uma pequena quantidade de dados de treinamento, chamados dados de validação, e os usam para avaliar a precisão do preditor.

Para encontrar a raiz do problema, eles conduziram uma análise completa e determinaram que os métodos tradicionais fazem suposições que são inapropriadas para dados espaciais. Os métodos de avaliação dependem de suposições sobre como os dados de validação e os dados que se deseja prever, chamados dados de teste, estão relacionados.

Os métodos tradicionais assumem que os dados de validação e os dados de teste são independentes e distribuídos de forma idêntica, o que implica que o valor de qualquer ponto de dados não depende dos outros pontos de dados. Mas em uma aplicação espacial, esse geralmente não é o caso.

Por exemplo, um cientista pode estar usando dados de validação de sensores de poluição do ar da EPA para testar a precisão de um método que prevê poluição do ar em áreas de conservação. No entanto, os sensores da EPA não são independentes — eles foram localizados com base na localização de outros sensores.

Além disso, talvez os dados de validação sejam de sensores da EPA perto de cidades enquanto os locais de conservação estão em áreas rurais. Como esses dados são de locais diferentes, eles provavelmente têm propriedades estatísticas diferentes, então não são distribuídos de forma idêntica.

“Nossos experimentos mostraram que você obtém algumas respostas realmente erradas no caso espacial quando essas suposições feitas pelo método de validação falham”, diz Broderick.

Os pesquisadores precisavam criar uma nova suposição.

Especificamente espacial

Pensando especificamente em um contexto espacial, onde os dados são coletados de diferentes locais, eles projetaram um método que assume que os dados de validação e os dados de teste variam suavemente no espaço.

Por exemplo, é improvável que os níveis de poluição do ar mudem drasticamente entre duas casas vizinhas.

“Essa suposição de regularidade é apropriada para muitos processos espaciais e nos permite criar uma maneira de avaliar preditores espaciais no domínio espacial. Até onde sabemos, ninguém fez uma avaliação teórica sistemática do que deu errado para chegar a uma abordagem melhor”, diz Broderick.

Para usar sua técnica de avaliação, alguém inseriria seu preditor, os locais que deseja prever e seus dados de validação, então ele automaticamente faz o resto. No final, ele estima quão precisa será a previsão do preditor para o local em questão. No entanto, avaliar efetivamente sua técnica de validação provou ser um desafio.

“Não estamos avaliando um método, em vez disso, estamos avaliando uma avaliação. Então, tivemos que recuar, pensar cuidadosamente e ser criativos sobre os experimentos apropriados que poderíamos usar”, explica Broderick.

Primeiro, eles projetaram vários testes usando dados simulados, que tinham aspectos irrealistas, mas permitiram que eles controlassem cuidadosamente os parâmetros-chave. Então, eles criaram dados mais realistas e semi-simulados, modificando dados reais. Finalmente, eles usaram dados reais para vários experimentos.

Usar três tipos de dados de problemas realistas, como prever o preço de um apartamento na Inglaterra com base em sua localização e prever a velocidade do vento, permitiu que eles conduzissem uma avaliação abrangente. Na maioria dos experimentos, sua técnica foi mais precisa do que qualquer método tradicional com o qual eles a compararam.

No futuro, os pesquisadores planejam aplicar essas técnicas para melhorar a quantificação de incerteza em configurações espaciais. Eles também querem encontrar outras áreas onde a suposição de regularidade poderia melhorar o desempenho dos preditores, como com dados de séries temporais.

Esta pesquisa é financiada, em parte, pela National Science Foundation e pelo Office of Naval Research.

 

.
.

Leia mais a seguir