Opinião

É preciso muita energia para as máquinas aprenderem - eis porque a IA tem tanta fome de energia
Sou um pesquisador que estuda e desenvolve modelos de IA e estou muito familiarizado com a energia vertiginosa e os custos financeiros da pesquisa em IA.
Por Kate Saenko - 14/12/2020


Data centers como esta instalação do Google em Iowa usam grandes quantidades de eletricidade. Chad Davis / Flickr , CC BY-SA

Este mês, o Google expulsou uma importante pesquisadora de ética em IA depois que ela expressou frustração com a empresa por fazê-la retirar um artigo de pesquisa . O artigo apontou os riscos da inteligência artificial de processamento de linguagem, o tipo usado na Pesquisa Google e em outros produtos de análise de texto.

Entre os riscos está a grande pegada de carbono do desenvolvimento desse tipo de tecnologia de IA. Segundo algumas estimativas , o treinamento de um modelo de IA gera tantas emissões de carbono quanto é necessário para construir e dirigir cinco carros ao longo de suas vidas úteis.

Sou um pesquisador que estuda e desenvolve modelos de IA e estou muito familiarizado com a energia vertiginosa e os custos financeiros da pesquisa em IA. Por que os modelos de IA se tornaram tão famintos por energia e como eles são diferentes da computação de data center tradicional?

O treinamento de hoje é ineficiente

Os trabalhos tradicionais de processamento de dados realizados em data centers incluem streaming de vídeo, e-mail e mídia social. A IA é mais computacionalmente intensiva porque precisa ler muitos dados até aprender a entendê-los - ou seja, ser treinada.

Esse treinamento é muito ineficiente em comparação com o modo como as pessoas aprendem. A IA moderna usa redes neurais artificiais , que são cálculos matemáticos que imitam os neurônios do cérebro humano. A força de conexão de cada neurônio ao seu vizinho é um parâmetro da rede denominado peso. Para aprender a entender a linguagem, a rede começa com pesos aleatórios e os ajusta até que a saída concorde com a resposta correta.

Uma forma comum de treinar uma rede de idiomas é alimentando-a com muitos textos de sites como Wikipedia e veículos de notícias com algumas das palavras mascaradas e pedindo-lhe que adivinhe as palavras mascaradas. Um exemplo é “meu cachorro é fofo”, com a palavra “fofo” mascarada. Inicialmente, o modelo equivale a todos eles, mas, após muitas rodadas de ajuste, os pesos de conexão começam a mudar e a pegar padrões nos dados. A rede eventualmente se torna precisa.

Um modelo recente, denominado Bidirectional Encoder Representations from Transformers (BERT), usou 3,3 bilhões de palavras de livros em inglês e artigos da Wikipedia. Além disso, durante o treinamento, o BERT leu este conjunto de dados não uma, mas 40 vezes. Para comparar, uma criança média que aprende a falar pode ouvir 45 milhões de palavras aos cinco anos, 3.000 vezes menos do que o BERT.

Procurando a estrutura certa

O que torna os modelos de linguagem ainda mais caros de construir é que esse processo de treinamento acontece muitas vezes durante o desenvolvimento. Isso ocorre porque os pesquisadores querem encontrar a melhor estrutura para a rede - quantos neurônios, quantas conexões entre os neurônios, a velocidade com que os parâmetros devem mudar durante o aprendizado e assim por diante. Quanto mais combinações eles tentarem, maiores serão as chances de a rede atingir uma alta precisão. Os cérebros humanos, em contraste, não precisam encontrar uma estrutura ótima - eles vêm com uma estrutura pré-construída que foi aprimorada pela evolução.

À medida que empresas e acadêmicos competem no espaço de IA, há pressão para melhorar o estado da arte. Mesmo alcançar uma melhoria de 1% na precisão em tarefas difíceis como tradução automática é considerado significativo e leva a uma boa publicidade e produtos melhores. Mas para conseguir essa melhoria de 1%, um pesquisador pode treinar o modelo milhares de vezes, cada vez com uma estrutura diferente, até que a melhor seja encontrada.

Pesquisadores da Universidade de Massachusetts Amherst estimaram o custo de energia do desenvolvimento de modelos de linguagem de IA medindo o consumo de energia de hardware comum usado durante o treinamento. Eles descobriram que o treinamento do BERT já teve a pegada de carbono de um passageiro que fazia uma viagem de ida e volta entre Nova York e São Francisco. No entanto, ao pesquisar usando estruturas diferentes - isto é, treinar o algoritmo várias vezes nos dados com números ligeiramente diferentes de neurônios, conexões e outros parâmetros - o custo tornou-se o equivalente a 315 passageiros, ou um jato 747 inteiro.

Maior e mais quente

Os modelos de IA também são muito maiores do que precisam ser e crescem a cada ano. Um modelo de linguagem mais recente semelhante ao BERT, denominado GPT-2 , tem 1,5 bilhão de pesos em sua rede. O GPT-3, que criou um rebuliço este ano por causa de sua alta precisão, tem 175 bilhões de pesos.

Os pesquisadores descobriram que ter redes maiores leva a uma melhor precisão, mesmo que apenas uma pequena fração da rede acabe sendo útil. Algo semelhante acontece no cérebro das crianças quando as conexões neuronais são adicionadas e depois reduzidas , mas o cérebro biológico é muito mais eficiente em termos de energia do que os computadores.

Os modelos de IA são treinados em hardware especializado, como unidades de processador gráfico, que consomem mais energia do que as CPUs tradicionais. Se você possui um laptop para jogos, provavelmente ele tem uma dessas unidades de processador gráfico para criar gráficos avançados para, digamos, jogar Minecraft RTX. Você também pode notar que eles geram muito mais calor do que os laptops normais.

Tudo isso significa que o desenvolvimento de modelos avançados de IA soma uma grande pegada de carbono. A menos que mudemos para fontes de energia 100% renováveis, o progresso da IA ​​pode estar em desacordo com as metas de redução das emissões de gases de efeito estufa e desaceleração das mudanças climáticas. O custo financeiro do desenvolvimento também está se tornando tão alto que apenas alguns laboratórios selecionados podem pagar por isso, e serão eles que definirão a agenda para os tipos de modelos de IA que serão desenvolvidos.

Fazendo mais com menos

O que isso significa para o futuro da pesquisa em IA? As coisas podem não ser tão sombrias quanto parecem. O custo do treinamento pode diminuir à medida que métodos de treinamento mais eficientes são inventados. Da mesma forma, embora se previsse que o uso de energia do data center explodisse nos últimos anos, isso não aconteceu devido a melhorias na eficiência do data center, hardware e refrigeração mais eficientes.

Também há uma compensação entre o custo de treinar os modelos e o custo de usá-los, portanto, gastar mais energia na hora do treinamento para criar um modelo menor pode, na verdade, torná-los mais baratos. Como um modelo será usado muitas vezes durante sua vida útil, isso pode resultar em uma grande economia de energia.

Em minha pesquisa de laboratório , procuramos maneiras de tornar os modelos de IA menores compartilhando pesos ou usando os mesmos pesos em várias partes da rede. Chamamos essas redes de metamorfos porque um pequeno conjunto de pesos pode ser reconfigurado em uma rede maior de qualquer formato ou estrutura. Outros pesquisadores demonstraram que o compartilhamento de peso tem melhor desempenho na mesma quantidade de tempo de treinamento.

Olhando para o futuro, a comunidade de IA deve investir mais no desenvolvimento de esquemas de treinamento com eficiência energética. Caso contrário, corre-se o risco de a IA ser dominada por um grupo seleto que pode definir a agenda, incluindo quais tipos de modelos são desenvolvidos, quais tipos de dados são usados ​​para treiná-los e para que os modelos são usados.

As opiniões expressas neste artigo são de responsabilidade exclusiva do(s) autor(es), não refletindo necessariamente a posição institucional do maisconhecer.com


Kate Saenko
Professor Associado de Ciência da Computação, Boston University

 

.
.

Leia mais a seguir