Opinião

a‰ preciso muita energia para as ma¡quinas aprenderem - eis porque a IA tem tanta fome de energia
Sou um pesquisador que estuda e desenvolve modelos de IA e estou muito familiarizado com a energia vertiginosa e os custos financeiros da pesquisa em IA.
Por Kate Saenko - 14/12/2020


Data centers como esta instalação do Google em Iowa usam grandes quantidades de eletricidade. Chad Davis / Flickr , CC BY-SA

Este maªs, o Google expulsou uma importante pesquisadora de anãtica em IA depois que ela expressou frustração com a empresa por fazaª-la retirar um artigo de pesquisa . O artigo apontou os riscos da inteligaªncia artificial de processamento de linguagem, o tipo usado na Pesquisa Google e em outros produtos de análise de texto.

Entre os riscos estãoa grande pegada de carbono do desenvolvimento desse tipo de tecnologia de IA. Segundo algumas estimativas , o treinamento de um modelo de IA gera tantas emissaµes de carbono quanto énecessa¡rio para construir e dirigir cinco carros ao longo de suas vidas aºteis.

Sou um pesquisador que estuda e desenvolve modelos de IA e estou muito familiarizado com a energia vertiginosa e os custos financeiros da pesquisa em IA. Por que os modelos de IA se tornaram tão famintos por energia e como eles são diferentes da computação de data center tradicional?

O treinamento de hoje éineficiente

Os trabalhos tradicionais de processamento de dados realizados em data centers incluem streaming de va­deo, e-mail e ma­dia social. A IA émais computacionalmente intensiva porque precisa ler muitos dados atéaprender a entendaª-los - ou seja, ser treinada.

Esse treinamento émuito ineficiente em comparação com o modo como as pessoas aprendem. A IA moderna usa redes neurais artificiais , que são ca¡lculos matema¡ticos que imitam os neura´nios do cérebro humano. A força de conexão de cada neura´nio ao seu vizinho éum para¢metro da rede denominado peso. Para aprender a entender a linguagem, a rede comea§a com pesos aleata³rios e os ajusta atéque a saa­da concorde com a resposta correta.

Uma forma comum de treinar uma rede de idiomas éalimentando-a com muitos textos de sites como Wikipedia e vea­culos de nota­cias com algumas das palavras mascaradas e pedindo-lhe que adivinhe as palavras mascaradas. Um exemplo é“meu cachorro éfofo”, com a palavra “fofo” mascarada. Inicialmente, o modelo equivale a todos eles, mas, após muitas rodadas de ajuste, os pesos de conexão comea§am a mudar e a pegar padraµes nos dados. A rede eventualmente se torna precisa.

Um modelo recente, denominado Bidirectional Encoder Representations from Transformers (BERT), usou 3,3 bilhaµes de palavras de livros em inglês e artigos da Wikipedia. Além disso, durante o treinamento, o BERT leu este conjunto de dados não uma, mas 40 vezes. Para comparar, uma criana§a média que aprende a falar pode ouvir 45 milhões de palavras aos cinco anos, 3.000 vezes menos do que o BERT.

Procurando a estrutura certa

O que torna os modelos de linguagem ainda mais caros de construir éque esse processo de treinamento acontece muitas vezes durante o desenvolvimento. Isso ocorre porque os pesquisadores querem encontrar a melhor estrutura para a rede - quantos neura´nios, quantas conexões entre os neura´nios, a velocidade com que os parametros devem mudar durante o aprendizado e assim por diante. Quanto mais combinações eles tentarem, maiores sera£o as chances de a rede atingir uma alta precisão. Os cérebros humanos, em contraste, não precisam encontrar uma estrutura a³tima - eles vão com uma estrutura pré-construa­da que foi aprimorada pela evolução.

Amedida que empresas e acadaªmicos competem no espaço de IA, hápressão para melhorar o estado da arte. Mesmo alcana§ar uma melhoria de 1% na precisão em tarefas difa­ceis como tradução automa¡tica éconsiderado significativo e leva a uma boa publicidade e produtos melhores. Mas para conseguir essa melhoria de 1%, um pesquisador pode treinar o modelo milhares de vezes, cada vez com uma estrutura diferente, atéque a melhor seja encontrada.

Pesquisadores da Universidade de Massachusetts Amherst estimaram o custo de energia do desenvolvimento de modelos de linguagem de IA medindo o consumo de energia de hardware comum usado durante o treinamento. Eles descobriram que o treinamento do BERT já teve a pegada de carbono de um passageiro que fazia uma viagem de ida e volta entre Nova York e Sa£o Francisco. No entanto, ao pesquisar usando estruturas diferentes - isto anã, treinar o algoritmo várias vezes nos dados com números ligeiramente diferentes de neura´nios, conexões e outros parametros - o custo tornou-se o equivalente a 315 passageiros, ou um jato 747 inteiro.

Maior e mais quente

Os modelos de IA também são muito maiores do que precisam ser e crescem a cada ano. Um modelo de linguagem mais recente semelhante ao BERT, denominado GPT-2 , tem 1,5 bilha£o de pesos em sua rede. O GPT-3, que criou um rebulia§o este ano por causa de sua alta precisão, tem 175 bilhaµes de pesos.

Os pesquisadores descobriram que ter redes maiores leva a uma melhor precisão, mesmo que apenas uma pequena fração da rede acabe sendo útil. Algo semelhante acontece no cérebro das criana§as quando as conexões neuronais são adicionadas e depois reduzidas , mas o cérebro biola³gico émuito mais eficiente em termos de energia do que os computadores.

Os modelos de IA são treinados em hardware especializado, como unidades de processador gra¡fico, que consomem mais energia do que as CPUs tradicionais. Se vocêpossui um laptop para jogos, provavelmente ele tem uma dessas unidades de processador gra¡fico para criar gra¡ficos avana§ados para, digamos, jogar Minecraft RTX. Vocaª também pode notar que eles geram muito mais calor do que os laptops normais.

Tudo isso significa que o desenvolvimento de modelos avana§ados de IA soma uma grande pegada de carbono. A menos que mudemos para fontes de energia 100% renova¡veis, o progresso da IA ​​pode estar em desacordo com as metas de redução das emissaµes de gases de efeito estufa e desaceleração dasmudanças climáticas. O custo financeiro do desenvolvimento também estãose tornando tão alto que apenas alguns laboratórios selecionados podem pagar por isso, e sera£o eles que definira£o a agenda para os tipos de modelos de IA que sera£o desenvolvidos.

Fazendo mais com menos

O que isso significa para o futuro da pesquisa em IA? As coisas podem não ser tão sombrias quanto parecem. O custo do treinamento pode diminuir a  medida que manãtodos de treinamento mais eficientes são inventados. Da mesma forma, embora se previsse que o uso de energia do data center explodisse nos últimos anos, isso não aconteceu devido a melhorias na eficiência do data center, hardware e refrigeração mais eficientes.

Tambanãm háuma compensação entre o custo de treinar os modelos e o custo de usa¡-los, portanto, gastar mais energia na hora do treinamento para criar um modelo menor pode, na verdade, torna¡-los mais baratos. Como um modelo seráusado muitas vezes durante sua vida útil, isso pode resultar em uma grande economia de energia.

Em minha pesquisa de laboratório , procuramos maneiras de tornar os modelos de IA menores compartilhando pesos ou usando os mesmos pesos em várias partes da rede. Chamamos essas redes de metamorfos porque um pequeno conjunto de pesos pode ser reconfigurado em uma rede maior de qualquer formato ou estrutura. Outros pesquisadores demonstraram que o compartilhamento de peso tem melhor desempenho na mesma quantidade de tempo de treinamento.

Olhando para o futuro, a comunidade de IA deve investir mais no desenvolvimento de esquemas de treinamento com eficiência energanãtica. Caso contra¡rio, corre-se o risco de a IA ser dominada por um grupo seleto que pode definir a agenda, incluindo quais tipos de modelos são desenvolvidos, quais tipos de dados são usados ​​para treina¡-los e para que os modelos são usados.

As opiniaµes expressas neste artigo são de responsabilidade exclusiva do(s) autor(es), não refletindo necessariamente a posição institucional do maisconhecer.com


Kate Saenko
Professor Associado de Ciência da Computação, Boston University

 

.
.

Leia mais a seguir