Sony desenvolve IA que pode gerar acompanhamentos instrumentais de alta qualidade
Nas últimas décadas, muitos engenheiros começaram a desenvolver ferramentas baseadas em inteligência artificial (IA) que podem apoiar o trabalho de profissionais criativos, acelerando ou aprimorando a produção de diversos tipos de conteúdo...

Crédito: S. Marino, S. Lattner, DALL-E
Nas últimas décadas, muitos engenheiros começaram a desenvolver ferramentas baseadas em inteligência artificial (IA) que podem apoiar o trabalho de profissionais criativos, acelerando ou aprimorando a produção de diversos tipos de conteúdo. Estes incluem modelos computacionais que podem gerar faixas musicais e facilitar alguns aspectos da produção musical.
Os pesquisadores da Sony CSL têm trabalhado em diversas soluções baseadas em IA projetadas para ajudar músicos, produtores musicais e outros entusiastas da música em seus empreendimentos criativos. Em um artigo recente postado no servidor de pré-impressão arXiv, eles apresentaram o Diff-A-Riff, um modelo computacional promissor que pode gerar acompanhamentos instrumentais de alta qualidade para qualquer música.
“Nosso artigo recente baseia-se em nossa pesquisa anterior sobre a geração de acompanhamentos de baixo”, disse a equipe musical da Sony CSL Paris. "Enquanto nosso trabalho anterior se concentrava na criação de linhas de baixo para complementar as faixas existentes, o Diff-A-Riff estende esse conceito para gerar acompanhamentos de instrumento único de qualquer tipo de instrumento."
"Esta evolução foi inspirada nas necessidades práticas dos produtores musicais e artistas, que muitas vezes procuram ferramentas para melhorar as suas composições existentes, adicionando instrumentos adicionais, e pelo seu desejo de serem flexíveis em relação aos tipos/timbres de instrumentos."
O objetivo principal do trabalho recente da equipe musical da Sony CSL Paris foi criar um sistema de IA versátil que pudesse gerar acompanhamentos instrumentais de alta qualidade que se integrassem perfeitamente a um determinado contexto musical, concentrando-se em um instrumento por vez. A ferramenta que desenvolveram é baseada em duas técnicas distintas e poderosas de aprendizagem profunda: modelos de difusão latente e codificadores automáticos de consistência.
“Diff-A-Riff aproveita o poder dos modelos de difusão latente e autoencoders de consistência para gerar acompanhamentos instrumentais que correspondam ao estilo e tonalidade de um determinado contexto musical”, explicaram.
"O sistema primeiro comprime o áudio de entrada em uma representação latente usando um autoencoder de consistência pré-treinado, um codec desenvolvido internamente, que garante decodificação de alta qualidade por meio de um decodificador generativo. Essa representação compactada é então alimentada em nosso modelo de difusão latente, que gera novo áudio no espaço latente, condicionado ao contexto de entrada e referências de estilo opcionais de incorporações de texto ou áudio."
Diff-A-Riff tem inúmeras vantagens sobre outras ferramentas para geração de acompanhamento instrumental. O primeiro é o seu controle versátil, que permite ao usuário condicionar prompts de áudio e texto, oferecendo maior flexibilidade na orientação da geração de acompanhamentos. Além disso, o Diff-A-Riff produz saídas de alta qualidade, com áudio pseudo-estéreo de 48kHz.
“O Diff-A-Riff também reduz significativamente o tempo de inferência e o uso de memória em comparação com sistemas anteriores, pois usamos uma taxa de compactação de 64x”, explicou a equipe. “Descobrimos que ele pode gerar acompanhamentos para qualquer contexto musical, tornando-se uma ferramenta valiosa para produtores musicais e artistas.
"Além disso, possui controles adicionais, como a interpolação entre referências de instrumentos e prompts de texto, a definição de largura estéreo e a possibilidade de criar transições contínuas para loops."
A equipe musical da Sony CSL avaliou seu modelo em uma série de testes. As suas descobertas foram altamente promissoras, uma vez que o modelo gerou acompanhamentos instrumentais de alta qualidade para várias faixas musicais que os ouvintes humanos não conseguiam distinguir dos acompanhamentos gravados tocados por músicos humanos.
“Uma velocidade de geração de três segundos para um minuto de áudio é sem precedentes e é alcançada pela alta taxa de compressão do autoencoder de consistência”, disseram eles. "Em cenários do mundo real, o Diff-A-Riff pode ser aplicado à produção musical, colaboração criativa e design de som."
A ferramenta de geração de acompanhamento instrumental desenvolvida na Sony CSL poderá em breve ser utilizada por produtores musicais em todo o mundo, permitindo-lhes criar faixas instrumentais que complementem as suas composições existentes. O Diff-A-Riff também pode ser usado por artistas para explorar facilmente novas ideias musicais ou por designers de som para testar rapidamente diferentes timbres ou estilos de execução para seus projetos.
"Nossos planos de pesquisa futura incluem aprimorar as capacidades do Diff-A-Riff, melhorando os mecanismos de controle e explorando novas maneiras de integrar o modelo em vários estágios do processo de produção musical", acrescentou a equipe.
"Nosso objetivo é fornecer informações ainda mais intuitivas para tornar o modelo mais acessível e útil para artistas, incluindo amadores e profissionais. Além disso, planejamos colaborar com músicos e compositores para refinar e validar ainda mais nossos modelos, garantindo que eles atendam às necessidades práticas de usuários na indústria musical ."
Mais informações: Javier Nistal et al, Diff-A-Riff: Co-criação de acompanhamento musical via modelos de difusão latente, arXiv (2024). DOI: 10.48550/arxiv.2406.08384
Mais imagens e áudio disponíveis em: sonycslparis.github.io/diffariff-companion/
Informações do diário: arXiv