Uma nova técnica torna os modelos de IA mais enxutos e rápidos enquanto ainda estão aprendendo
Pesquisadores utilizam a teoria de controle para eliminar a complexidade desnecessária de modelos de IA durante o treinamento, reduzindo os custos computacionais sem sacrificar o desempenho.

Uma nova técnica, chamada CompreSSM, ajuda a identificar quais partes de um modelo estão desempenhando seu papel antes de remover cirurgicamente componentes desnecessários no início do processo de treinamento. Créditos: Imagem: Alex Shipps/MIT CSAIL e Makram Chahine, utilizando recursos do Pixabay e Pexels.
Treinar um modelo de inteligência artificial de grande porte é caro, não apenas em termos financeiros, mas também em tempo, energia e recursos computacionais. Tradicionalmente, obter um modelo menor e mais rápido exige treinar primeiro um modelo enorme e depois reduzi-lo, ou treinar um modelo pequeno do zero e aceitar um desempenho inferior.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, do Instituto Max Planck para Sistemas Inteligentes, do Laboratório Europeu de Aprendizagem e Sistemas Inteligentes, da ETH e da Liquid AI desenvolveram um novo método que contorna completamente essa compensação, comprimindo os modelos durante o treinamento, em vez de depois.
A técnica, chamada CompreSSM , tem como alvo uma família de arquiteturas de IA conhecidas como modelos de espaço de estados, que alimentam aplicações que vão desde o processamento de linguagem natural até a geração de áudio e a robótica. Ao utilizar ferramentas matemáticas da teoria de controle, os pesquisadores conseguem identificar quais partes de um modelo são realmente úteis e quais são inúteis, antes de remover cirurgicamente os componentes desnecessários logo no início do processo de treinamento.
"É essencialmente uma técnica para fazer com que os modelos cresçam menores e mais rapidamente durante o treinamento", diz Makram Chahine, estudante de doutorado em engenharia elétrica e ciência da computação, afiliado ao CSAIL e principal autor do artigo. "Durante o aprendizado, eles também se livram de partes que não são úteis para o seu desenvolvimento."
A principal descoberta é que a importância relativa dos diferentes componentes dentro desses modelos se estabiliza surpreendentemente cedo durante o treinamento. Usando uma grandeza matemática chamada valores singulares de Hankel, que mede o quanto cada estado interno contribui para o comportamento geral do modelo, a equipe demonstrou que consegue classificar com segurança quais dimensões importam e quais não importam após apenas cerca de 10% do processo de treinamento. Uma vez estabelecidas essas classificações, os componentes menos importantes podem ser descartados com segurança, e os 90% restantes do treinamento prosseguem na velocidade de um modelo muito menor.
"O que é empolgante neste trabalho é que ele transforma a compressão de uma reflexão tardia em parte do próprio processo de aprendizagem", diz a autora sênior Daniela Rus, professora do MIT e diretora do CSAIL. "Em vez de treinar um modelo grande e depois descobrir como torná-lo menor, o CompreSSM permite que o modelo descubra sua própria estrutura eficiente à medida que aprende. Essa é uma maneira fundamentalmente diferente de pensar sobre a construção de sistemas de IA."
Os resultados são impressionantes. Em benchmarks de classificação de imagens, os modelos comprimidos mantiveram praticamente a mesma precisão que suas contrapartes de tamanho original, com um treinamento até 1,5 vezes mais rápido. Um modelo comprimido, reduzido a aproximadamente um quarto de sua dimensão original, alcançou 85,7% de precisão no benchmark CIFAR-10, em comparação com apenas 81,8% para um modelo treinado do zero com esse tamanho reduzido. No Mamba, uma das arquiteturas de espaço de estados mais utilizadas, o método obteve uma aceleração de treinamento de aproximadamente 4 vezes, comprimindo um modelo de 128 dimensões para cerca de 12 dimensões, mantendo um desempenho competitivo.
"Você obtém o desempenho do modelo maior, porque captura a maior parte da dinâmica complexa durante a fase de aquecimento e, em seguida, mantém apenas os estados mais úteis", diz Chahine. "O modelo ainda é capaz de ter um desempenho superior ao de um modelo pequeno treinado desde o início."
O que diferencia o CompreSSM das abordagens existentes é sua fundamentação teórica. Os métodos convencionais de poda treinam um modelo completo e depois removem parâmetros, o que significa que você ainda paga o custo computacional total do treinamento do modelo grande. A destilação de conhecimento, outra técnica popular, exige o treinamento de um grande modelo "professor" até o fim e, em seguida, o treinamento de um segundo modelo "aluno" menor sobre ele, essencialmente dobrando o esforço de treinamento. O CompreSSM evita esses dois custos tomando decisões de compressão informadas durante o processo.
A equipe comparou o desempenho do CompreSSM diretamente com as duas alternativas. Em comparação com a regularização da norma nuclear de Hankel, uma técnica espectral recentemente proposta para incentivar modelos de espaço de estados compactos, o CompreSSM foi mais de 40 vezes mais rápido, além de alcançar maior precisão. A abordagem de regularização tornou o treinamento cerca de 16 vezes mais lento, pois exigia cálculos dispendiosos de autovalores a cada passo de gradiente e, mesmo assim, os modelos resultantes apresentaram desempenho inferior. Em comparação com a destilação de conhecimento no CIFAR-10, o CompreSSM apresentou uma clara vantagem para modelos altamente comprimidos: em dimensões de estado menores, os modelos destilados sofreram quedas significativas na precisão, enquanto os modelos comprimidos pelo CompreSSM mantiveram um desempenho quase total. E como a destilação requer uma passagem direta tanto pelo professor quanto pelo aluno a cada passo de treinamento, mesmo seus modelos alunos menores foram treinados mais lentamente do que a linha de base de tamanho completo.
Os pesquisadores provaram matematicamente que a importância de estados individuais do modelo muda suavemente durante o treinamento, graças a uma aplicação do teorema de Weyl, e mostraram empiricamente que a classificação relativa desses estados permanece estável. Juntos, esses resultados dão aos profissionais a segurança de que as dimensões identificadas como negligenciáveis no início não se tornarão repentinamente críticas mais tarde.
O método também oferece uma rede de segurança pragmática. Se uma etapa de compressão causar uma queda inesperada no desempenho, os praticantes podem retornar a um ponto de verificação salvo anteriormente. "Isso dá às pessoas controle sobre o quanto estão dispostas a sacrificar em termos de desempenho, em vez de terem que definir um limite de energia menos intuitivo", explica Chahine.
Existem algumas limitações práticas para a técnica. O CompreSSM funciona melhor em modelos que exibem uma forte correlação entre a dimensão do estado interno e o desempenho geral, uma propriedade que varia entre tarefas e arquiteturas. O método é particularmente eficaz em modelos MIMO (múltiplas entradas e múltiplas saídas), onde a relação entre o tamanho do estado e a expressividade é mais forte. Para arquiteturas de entrada única e saída única por canal, os ganhos são mais modestos, uma vez que esses modelos são menos sensíveis a mudanças na dimensão do estado.
A teoria se aplica de forma mais precisa a sistemas lineares invariantes no tempo, embora a equipe tenha desenvolvido extensões para as arquiteturas dependentes da entrada e variantes no tempo, cada vez mais populares. E como a família de modelos de espaço de estados se estende a arquiteturas como a atenção linear, uma área de crescente interesse como alternativa aos transformadores tradicionais, o escopo potencial de aplicação é amplo.
Chahine e seus colaboradores veem o trabalho como um passo importante. A equipe já demonstrou uma extensão para sistemas lineares variáveis no tempo, como o Mamba, e as direções futuras incluem levar o CompreSSM ainda mais longe em sistemas dinâmicos com valores matriciais usados em mecanismos de atenção linear, o que aproximaria a técnica das arquiteturas Transformer que sustentam a maioria dos maiores sistemas de IA da atualidade.
"Este tinha que ser o primeiro passo, porque é aqui que a teoria se torna clara e a abordagem pode se manter pautada em princípios", diz Chahine. "É o ponto de partida para, então, estender a outras arquiteturas que as pessoas estão usando na indústria hoje em dia."
"O trabalho de Chahine e seus colegas oferece uma perspectiva intrigante e teoricamente fundamentada sobre a compressão de modelos de espaço de estados (SSMs) modernos", afirma Antonio Orvieto, investigador principal do Instituto ELLIS de Tübingen e líder do grupo independente MPI para Sistemas Inteligentes, que não participou da pesquisa. "O método fornece evidências de que a dimensão de estado desses modelos pode ser efetivamente reduzida durante o treinamento e que uma perspectiva de teoria de controle pode guiar esse procedimento com sucesso. O trabalho abre novos caminhos para pesquisas futuras, e o algoritmo proposto tem o potencial de se tornar uma abordagem padrão no pré-treinamento de grandes modelos baseados em SSMs."
O trabalho, que foi aceito como artigo para a Conferência Internacional sobre Representações de Aprendizagem de 2026, será apresentado ainda este mês. Ele recebeu apoio, em parte, do Centro Max Planck ETH para Sistemas de Aprendizagem, da Fundação Hector, da Boeing e do Escritório de Pesquisa Naval dos EUA.