As raízes das redes neurais: como a pesquisa do Caltech abriu caminho para a IA moderna
Rastreando as raízes das redes neurais, os blocos de construção da IA moderna, no Caltech.

No início da década de 1980, três gigantes do corpo docente do Caltech — Carver Mead (BS '56, PhD '60), agora Professor Emérito de Engenharia e Ciências Aplicadas Gordon e Betty Moore; o falecido ganhador do Prêmio Nobel de Física Richard Feynman; e John Hopfield, então professor de biologia e química, que também ganharia um Prêmio Nobel — ficaram intrigados com as conexões entre cérebros e computadores.
O trio se reunia para almoçar no Ateneu do Caltech e se perguntava: como nossos cérebros, com seus bilhões de neurônios interconectados, processam informações? E será que os computadores, que funcionam de maneiras mais simples, como cálculos numéricos, podem imitar a capacidade do cérebro de, essencialmente, pensar?
Essas conversas acabaram levando a um novo curso de pós-graduação, "Física da Computação", ministrado intermitentemente pelos três professores de 1981 a 1983. Hopfield lembra que houve obstáculos para que o curso decolasse. "Naquela época, havia muito pouca interação entre a ciência da computação e outras áreas", diz Hopfield, agora professor emérito em Princeton e Professor Emérito Roscoe G. Dickinson de Química e Biologia do Caltech. "Tínhamos uma mistura difusa de ideias que queríamos apresentar, e demorou um pouco para convencermos o Instituto a aprovar o curso. Ainda assim, foi um período intelectualmente estimulante e trouxe excelentes novos alunos e muitos palestrantes convidados para o Caltech."
Paralelamente a essas conversas, Hopfield começou a formular ideias para a criação de redes simples que espelhassem o funcionamento da memória humana. Em 1982, publicou um artigo teórico descrevendo como uma rede neural artificial, modelada a partir da estrutura do cérebro humano, poderia ser programada para aprender e recordar. Embora outros pesquisadores posteriormente construíssem essas redes usando chips de computador, a pesquisa de Hopfield utilizou a matemática para descrever um novo esquema inspirado na biologia que poderia ser treinado para "lembrar" padrões armazenados, como imagens. Os computadores conseguiam recordar as imagens mesmo quando apenas uma versão incompleta ou difusa da mesma imagem estivesse disponível. O sistema é semelhante a alguém que se lembra da experiência completa de ouvir uma música específica depois de ouvir um trecho dela no rádio.
As raízes de programas modernos de IA como o ChatGPT remontam a modelos inspirados na biologia, semelhantes à rede de Hopfield, como é conhecida atualmente. Por essa pesquisa seminal, Hopfield recebeu o Prêmio Nobel de Física de 2024, juntamente com Geoffrey Hinton, da Universidade de Toronto. O avanço de Hopfield ocorreu em um momento crucial na história do Caltech, quando as ideias estavam apenas começando a fluir entre a neurociência e a ciência da computação. "A pesquisa em IA estava se desenvolvendo muito lentamente e ainda havia muitos céticos", diz Hopfield.
Apesar dos desafios, Hopfield buscou oficializar o movimento: além do curso de Física da Computação que ajudou a administrar, buscou organizar um novo programa interdisciplinar que oferecesse cursos de pós-graduação. O então reitor do Caltech, Robbie Vogt, agora Professor Emérito de Física e Professor de Serviço Distinto R. Stanton Avery, apoiou a ideia e, em 1986, nasceu o programa de Computação e Sistemas Neurais (CNS) do Instituto, com Hopfield como seu primeiro presidente. Hoje, o CNS reúne um grupo vibrante de acadêmicos que já formou mais de 150 doutores.
“Este programa foi o primeiro do gênero a acolher estudantes altamente quantitativos de física, engenharia e matemática interessados tanto em cérebros quanto em computadores”, diz Christof Koch, que foi o primeiro docente contratado no CNS e, posteriormente, como presidente do CNS, antes de deixar o Caltech em 2013 para se tornar diretor científico e presidente do Instituto Allen de Ciência do Cérebro. “Agora, existem muitos outros lugares que consideram os cérebros como sistemas computacionais, mas nós lideramos o esforço.”
Yaser Abu-Mostafa (PhD '83), professor de engenharia elétrica e ciência da computação no Caltech que realizou trabalhos teóricos sobre redes de Hopfield na década de 1980, lembra que, em meados daquela década, cada vez mais pessoas se juntavam à crescente comunidade de IA em todo o mundo, graças ao trabalho inovador realizado no campus. "O que Hopfield fez foi muito inspirador", diz ele. "Estabeleceu na mente das pessoas que isso é possível." Abu-Mostafa iniciou um workshop com o tema IA, que mais tarde levou à criação da conferência Neural Information Processing Systems em 1987. Agora conhecido como NeurIPS, o encontro se tornou a maior conferência de IA do mundo. (Veja a página 13.) "Foi muito gratificante observar um campo se formando do zero", diz Abu-Mostafa.
Construído em Física
No final da década de 1970, Hopfield, então professor de biofísica na Universidade de Princeton, assistiu a uma série de palestras sobre neurociência em Boston e rapidamente se fascinou pelo tema. Como físico da matéria condensada por formação e filho de pais físicos, ele queria entender como nossas mentes emergem da complexa rede de neurônios que compõe o cérebro humano. "Eu estava muito interessado na interface entre a física e a matéria viva", diz ele.
Em 1980, Hopfield deixou Princeton para ingressar no Caltech, em parte devido às "esplêndidas instalações computacionais" do instituto, que ele usaria para testar e desenvolver suas ideias para redes neurais. No entanto, Hopfield não pretendia criar uma inteligência artificial. "Eu esperava que as redes nos dissessem como o cérebro funciona", diz ele.
Sua ideia era construir um programa de computador simples baseado na vasta rede de bilhões de neurônios do nosso cérebro e nos trilhões de conexões entre eles. Os computadores da década de 1980 eram usados para executar longas sequências de comandos e pesquisar informações em bancos de dados, mas esse processo levava tempo e exigia cada vez mais espaço de armazenamento. Imagine tentar lembrar o nome de um cantor e ter que vasculhar mentalmente um catálogo com todos os nomes de cantores, um por um — pode levar algum tempo.
Em vez disso, nosso cérebro possui um sistema mais eficiente de recuperação de informações, que depende da mudança de arquitetura dos neurônios à medida que aprendem novas conexões. As memórias são codificadas em diferentes padrões de atividade neural; como diz Hopfield, o cérebro é um sistema biológico dinâmico. Ele decidiu modelar sua rede neural em outro sistema dinâmico da natureza envolvendo magnetismo. Chamado de modelo de Ising, o sistema descreve como os spins ascendentes ou descendentes dos elétrons em um material podem influenciar uns aos outros e disseminar estados magnetizados. Quando isso ocorre, o sistema evolui para o estado de menor energia, como uma bola rolando ladeira abaixo.
As redes de Hopfield também evoluem para estados de baixa energia em um sentido matemático. Essas redes neurais são compostas por neurônios artificiais conectados por nós, com cada conexão tendo uma força, ou peso, diferente. Um conjunto de códigos de computador, conhecido como algoritmo, direciona a rede para ajustar as forças de conexão entre esses neurônios de forma que uma imagem armazenada, como a de uma aranha, seja associada a um estado específico de baixa energia. Quando uma imagem difusa de uma aranha é inserida na rede de Hopfield, os neurônios artificiais da rede avaliam as informações disponíveis e, em seguida, ajustam seus níveis de atividade, evoluindo para o estado de baixa energia correspondente à imagem armazenada. Dessa forma, o sistema aprende a reconhecer imagens de objetos.
A espinha dorsal de qualquer rede neural é um algoritmo (ou regra de aprendizagem); uma característica fundamental do algoritmo de Hopfield, diz Abu-Mostafa, é que ele permitiu que o sistema aprendesse e se tornasse cada vez mais inteligente. "A aprendizagem é absolutamente essencial para a inteligência", afirma. "Hopfield extraiu a essência dos neurônios." Abu-Mostafa observa que o artigo teórico publicado por Hopfield em 1982, "Redes neurais e sistemas físicos com habilidades computacionais coletivas emergentes", é o quinto artigo mais citado do Caltech de todos os tempos.
A física desempenhou um papel fundamental no sucesso de Hopfield, diz Koch, e isso “levou a um influxo maciço de físicos para a área”.
“Hopfield descobriu como moldar a paisagem energética [um mapa dos possíveis estados de energia de um sistema]. Sua rede foi treinada para cavar um buraco na paisagem correspondente ao padrão de imagem que estava sendo treinado”, acrescenta Erik Winfree (PhD '98), professor de ciência da computação, computação e sistemas neurais e bioengenharia no Caltech, e ex-aluno de CNS de Hopfield. “Ele trouxe a física para as redes.”
Na palestra de Hopfield na cerimônia do Prêmio Nobel, em dezembro de 2024, ele explicou como o modelo de magnetismo de Ising poderia ser generalizado para replicar um sistema biológico como o cérebro. "Tudo realmente se encaixou quando vi que essas duas partes da ciência são descritas pelo mesmo conjunto de matemática", disse Hopfield.
Mead acrescenta que outros já haviam tentado construir redes neurais artificiais antes, mas poucos conseguiam imaginá-las escaláveis até o tamanho necessário para realizar tarefas interessantes. "Hopfield mostrou que elas eram possíveis", explica. "Foi a primeira vez que as pessoas começaram a pensar que redes neurais poderiam ser úteis."
Como os computadores alcançaram
Na época em que Hopfield trabalhava na teoria por trás de suas redes neurais, Mead e seus colaboradores começaram a transformar a indústria de computadores ao inventar uma nova maneira de agregar mais dos minúsculos semicondutores conhecidos como transistores em chips de computador, um processo chamado integração em escala muito grande (VLSI). A VLSI permitiu que milhões, e agora bilhões, de transistores fossem compactados em chips únicos, um feito que possibilitou o desenvolvimento de computadores de mesa, celulares e uma miríade de outros dispositivos de computação.
No início da década de 2010, pesquisadores perceberam que poderiam usar um tipo de chip VLSI empregado em videogames, chamado unidades de processamento gráfico (GPUs), para lidar com as enormes demandas computacionais das redes de IA.
Embora os chips de GPU não tenham sido inventados no Caltech, alguns aspectos de sua origem podem ser rastreados até as primeiras pesquisas sobre VLSI no campus. Uma característica fundamental das GPUs, que as torna essenciais para grandes redes neurais de IA, é um tipo de computação chamado processamento paralelo. Essencialmente, isso significa que elas podem realizar múltiplas computações simultaneamente, tornando-as muito eficazes na resolução de problemas matemáticos. Essa inovação veio de um cientista da computação que trabalhava com a tecnologia VLSI na década de 1980, chamado HT Kung. Na época, membro do corpo docente da Universidade Carnegie Mellon e atualmente da Universidade Harvard, Kung proferiu uma palestra na primeira conferência sobre VLSI.
"Ele descobriu como multiplicar linhas inteiras de números, não apenas duas de cada vez, nos chips VLSI", explica Mead. "Isso se chama multiplicação de matrizes e permitiu o processamento paralelo. A ideia foi posteriormente redescoberta pela NVIDIA e aplicada às GPUs."
A NVIDIA, principal desenvolvedora de GPUs do mundo, também conta com sua parcela de influências da Caltech, incluindo Bill Dally (PhD '86), ex-professor da Caltech que agora é cientista-chefe e vice-presidente sênior da empresa, e Anima Anandkumar, Professor Bren de Computação e Ciências Matemáticas, que anteriormente atuou como diretor sênior de pesquisa de IA da empresa de 2018 a 2023.
Assim como Hopfield, Anandkumar afirma que a física inspira seu trabalho. Mesmo antes de Anandkumar ingressar no Caltech em 2017, ela afirma que "era fascinada pela física". Em 2011, ela analisou como o sucesso dos algoritmos de aprendizagem está vinculado à transição de fase no modelo de Ising, o mesmo modelo sobre o qual Hopfield construiu sua rede. "Hopfield nos deu as ferramentas iniciais para a IA moderna", afirma Anandkumar.
Construindo pontes entre cérebros e computadores
Hopfield aponta Mead como um dos primeiros a acreditar em sua visão para redes neurais. "Carver me convidou para uma palestra na década de 1980, onde havia pessoas da Bell Labs", diz Hopfield, "e lembro-me de pensar: não sei o que dizer a essas pessoas". Então, percebi que poderia simplesmente provar o teorema da rede de Hopfield. A prova original está escrita no verso de um papel timbrado do hotel que ainda guardo." Vogt, reitor do Caltech na época, também acreditava na viabilidade dos esforços de Hopfield e, por fim, deu sinal verde para a criação da opção de pós-graduação em SNC.
“Acho que o CNS não teria continuado por mais um ou dois anos se não fosse por Robbie Vogt”, diz Hopfield. “Ele era um tipo diferente de líder. Ele podia fazer coisas maravilhosas.”
Hopfield via o CNS como um meio para pessoas com diferentes formações conversarem e influenciarem o trabalho umas das outras, embora observe que foi difícil conseguir que o curso de Física da Computação e a opção de pós-graduação em CNS fossem lançados no Caltech. Outros cientistas, diz ele, não estavam convencidos dos méritos do esforço interdisciplinar. "Antes do CNS, havia uma clara lacuna entre a ciência da computação e a neurobiologia", diz ele. "A lacuna era algo como ter um grupo de pessoas trabalhando com clima e outro grupo de pessoas trabalhando com física molecular e química, mas sem ninguém perguntando qual era a relação entre clima e as colisões moleculares, que estavam obviamente na base disso. A qualidade dos alunos ingressantes no CNS era tão alta que os neurobiólogos e engenheiros que antes eram céticos rapidamente se tornaram verdadeiros crentes, ou pelo menos participantes voluntários."
Atualmente, os quase 40 membros do corpo docente associados à opção de pós-graduação em SNC do Caltech continuam a estudar o cérebro humano como um sistema computacional para desenvolver novas ferramentas de IA e entender melhor o funcionamento fundamental do cérebro.
Na comemoração do 30º aniversário do programa, realizada em 2017, muitos formandos relembraram a emoção de cruzar fronteiras entre áreas. Gabriel Kreiman (PhD '02), professor da Escola Médica de Harvard, discursou no evento e atribuiu ao rigor e à natureza colaborativa do programa a produção de grandes cientistas e cientistas.
“A liberdade intelectual de se reunir e ir com todas as outras pessoas do CNS ao Athenaeum para almoçar e depois passar três horas discutindo os detalhes de um problema específico, ou ficar até altas horas da madrugada em uma das salas onde temos todos os computadores, trabalhando e lutando juntos sobre absolutamente todos os problemas da neurociência e da neurociência computacional...”, disse Kreiman no evento, “a magia, a centelha do que aconteceu aqui no CNS foi completamente única.”