Pesquisadores estão desenvolvendo algoritmos para prever falhas quando a automação encontra o mundo real em áreas como programação de tráfego aéreo ou veículos autônomos.

Pesquisadores do MIT desenvolveram um sistema computacional para usar a combinação de dados esparsos sobre um evento de falha raro, com dados muito mais extensos sobre operações normais, para trabalhar de trás para frente e tentar identificar as causas raiz de eventos como falhas de rede desencadeadas por condições climáticas severas de inverno, para ajustar os sistemas para evitar tais ocorrências no futuro. Créditos: Imagem: iStock
Em 21 de dezembro de 2022, quando a alta temporada de viagens de fim de ano estava começando, a Southwest Airlines passou por uma série de falhas em sua programação, inicialmente desencadeadas pelo rigoroso inverno na região de Denver. Mas os problemas se espalharam por toda a rede e, ao longo dos 10 dias seguintes, a crise acabou deixando mais de 2 milhões de passageiros retidos e causando prejuízos de US$ 750 milhões para a companhia aérea.
Como um sistema meteorológico localizado acabou desencadeando uma falha tão generalizada? Pesquisadores do MIT examinaram essa falha amplamente divulgada como um exemplo de casos em que sistemas que funcionam perfeitamente na maior parte do tempo quebram repentinamente e causam um efeito dominó de falhas. Eles desenvolveram um sistema computacional que utiliza a combinação de dados esparsos sobre um evento de falha raro, em conjunto com dados muito mais abrangentes sobre operações normais, para trabalhar de trás para frente e tentar identificar as causas raiz da falha e, com sorte, encontrar maneiras de ajustar os sistemas para evitar tais falhas no futuro.
As descobertas foram apresentadas na Conferência Internacional sobre Representações de Aprendizagem (ICLR), realizada em Cingapura de 24 a 28 de abril pelo estudante de doutorado do MIT Charles Dawson, pelo professor de aeronáutica e astronáutica Chuchu Fan e colegas da Universidade de Harvard e da Universidade de Michigan.
“A motivação por trás deste trabalho é que é realmente frustrante quando temos que interagir com esses sistemas complicados, onde é muito difícil entender o que está acontecendo nos bastidores que está criando esses problemas ou falhas que estamos observando”, diz Dawson.
O novo trabalho se baseia em pesquisas anteriores do laboratório de Fan, onde se analisaram problemas envolvendo hipotéticos problemas de previsão de falhas, diz ela, como grupos de robôs trabalhando juntos em uma tarefa, ou sistemas complexos como a rede elétrica, buscando maneiras de prever como tais sistemas podem falhar. "O objetivo deste projeto", diz Fan, "era realmente transformar isso em uma ferramenta de diagnóstico que pudéssemos usar em sistemas do mundo real".
A ideia era fornecer uma maneira para que alguém pudesse "nos dar dados de uma época em que esse sistema do mundo real teve um problema ou uma falha", diz Dawson, "e podemos tentar diagnosticar as causas raiz e dar uma pequena olhada nos bastidores dessa complexidade".
A intenção é que os métodos que desenvolveram "funcionem para uma classe bastante geral de problemas ciberfísicos", afirma. Trata-se de problemas nos quais "há um componente de tomada de decisão automatizada interagindo com a desordem do mundo real", explica. Existem ferramentas disponíveis para testar sistemas de software que operam por conta própria, mas a complexidade surge quando esse software precisa interagir com entidades físicas realizando suas atividades em um ambiente físico real, seja a programação de aeronaves, os movimentos de veículos autônomos, as interações de uma equipe de robôs ou o controle das entradas e saídas de uma rede elétrica. Em tais sistemas, o que frequentemente acontece, afirma, é que "o software pode tomar uma decisão que parece correta a princípio, mas depois tem todos esses efeitos dominó, em cascata, que tornam as coisas mais confusas e muito mais incertas".
Uma diferença fundamental, porém, é que em sistemas como equipes de robôs, diferentemente da programação de aeronaves, "temos acesso a um modelo no mundo da robótica", diz Fan, pesquisador principal do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT. "Temos um bom entendimento da física por trás da robótica e temos maneiras de criar um modelo" que represente suas atividades com razoável precisão. Mas a programação de companhias aéreas envolve processos e sistemas que são informações comerciais proprietárias, e, portanto, os pesquisadores tiveram que encontrar maneiras de inferir o que estava por trás das decisões, usando apenas as informações relativamente escassas disponíveis publicamente, que consistiam essencialmente apenas nos horários reais de chegada e partida de cada aeronave.
"Reunimos todos esses dados de voo, mas existe todo um sistema de agendamento por trás disso, e não sabemos como ele está funcionando", diz Fan. E a quantidade de dados relacionados à falha em si equivale a apenas alguns dias, em comparação com anos de dados sobre operações normais de voo.
O impacto dos eventos climáticos em Denver durante a semana da crise de programação da Southwest ficou claro nos dados de voo, apenas pelos tempos de resposta mais longos do que o normal entre pouso e decolagem no aeroporto de Denver. Mas a forma como esse impacto se refletiu no sistema foi menos óbvia e exigiu mais análise. A chave acabou tendo a ver com o conceito de aeronave reserva.
As companhias aéreas normalmente mantêm alguns aviões de reserva em vários aeroportos, para que, se forem encontrados problemas com um avião programado para um voo, outro possa ser rapidamente substituído. A Southwest usa apenas um único tipo de avião, portanto, todos são intercambiáveis, facilitando essas substituições. Mas a maioria das companhias aéreas opera em um sistema de hub-and-spoke, com alguns aeroportos hub designados onde a maioria dessas aeronaves de reserva pode ser mantida, enquanto a Southwest não usa hubs, então seus aviões de reserva estão mais espalhados por sua rede. E a forma como esses aviões foram alocados acabou desempenhando um papel importante no desenrolar da crise.
“O desafio é que não há dados públicos disponíveis sobre onde as aeronaves estão estacionadas em toda a rede da Southwest”, diz Dawson. “O que conseguimos descobrir com nosso método é que, analisando os dados públicos sobre chegadas, partidas e atrasos, podemos usar nosso método para descobrir quais poderiam ter sido os parâmetros ocultos dessas reservas de aeronaves, para explicar as observações que estávamos observando.”
O que eles descobriram foi que a forma como as reservas foram alocadas foi um "indicador avançado" dos problemas que se espalharam em uma crise nacional. Algumas partes da rede que foram afetadas diretamente pelo clima conseguiram se recuperar rapidamente e retomar o cronograma. "Mas quando analisamos outras áreas da rede, vimos que essas reservas simplesmente não estavam disponíveis e a situação só piorava."
Por exemplo, os dados mostraram que as reservas de Denver estavam diminuindo rapidamente devido aos atrasos climáticos, mas "também nos permitiram rastrear essa falha de Denver a Las Vegas", diz ele. Embora não tenha havido condições climáticas severas na região, "nosso método ainda nos mostrava um declínio constante no número de aeronaves que conseguiam operar voos partindo de Las Vegas".
Ele diz que "o que descobrimos foi que havia essa circulação de aeronaves dentro da rede da Southwest, onde uma aeronave podia começar o dia na Califórnia e depois voar para Denver, e então terminar o dia em Las Vegas". O que aconteceu no caso dessa tempestade foi que o ciclo foi interrompido. Como resultado, "essa tempestade em Denver quebra o ciclo e, de repente, as reservas em Las Vegas, que não são afetadas pelo clima, começam a se deteriorar".
No final, a Southwest foi forçada a tomar uma medida drástica para resolver o problema: eles tiveram que fazer uma "reinicialização forçada" de todo o seu sistema, cancelando todos os voos e voando com aeronaves vazias pelo país para reequilibrar suas reservas.
Trabalhando com especialistas em sistemas de transporte aéreo, os pesquisadores desenvolveram um modelo de como o sistema de agendamento deveria funcionar. Então, "o que nosso método faz é, essencialmente, tentar executar o modelo de trás para frente". Observando os resultados observados, o modelo permite que eles trabalhem de trás para frente para ver que tipos de condições iniciais poderiam ter produzido esses resultados.
Embora os dados sobre as falhas reais fossem escassos, os dados abrangentes sobre operações típicas ajudaram a ensinar o modelo computacional sobre "o que é viável, o que é possível, qual é o âmbito da possibilidade física aqui", diz Dawson. "Isso nos dá o conhecimento de domínio para então dizer, neste evento extremo, dado o espaço do que é possível, qual é a explicação mais provável" para a falha.
Isso poderia levar a um sistema de monitoramento em tempo real, diz ele, onde os dados sobre operações normais seriam constantemente comparados com os dados atuais, determinando a tendência. "Estamos caminhando para a normalidade ou para eventos extremos?" Identificar sinais de problemas iminentes poderia permitir medidas preventivas, como a redistribuição antecipada de aeronaves de reserva para áreas com problemas previstos.
O trabalho de desenvolvimento desses sistemas está em andamento em seu laboratório, diz Fan. Enquanto isso, eles produziram uma ferramenta de código aberto para analisar sistemas de falhas, chamada CalNF, que está disponível para qualquer pessoa usar. Dawson, que obteve seu doutorado no ano passado, está trabalhando como pós-doutorando para aplicar os métodos desenvolvidos neste trabalho à compreensão de falhas em redes elétricas.
A equipe de pesquisa também incluiu Max Li, da Universidade de Michigan, e Van Tran, da Universidade Harvard. O trabalho foi apoiado pela NASA, pelo Escritório de Pesquisa Científica da Força Aérea e pelo programa MIT-DSTA.