Connect with us

Notícias

Meta framework de código aberto para geração de sons e música

Publicado

on

O avanço da inteligência artificial gerativa está cada vez mais próximo de proporcionar não apenas a escrita e criação de imagens em um estilo convincentemente humano, mas também a composição de música e sons que passam por obras profissionais. Nesse sentido, a Meta anunciou hoje o Audiocraft, um framework projetado para gerar áudio e música “de alta qualidade” e “realista” a partir de descrições curtas de texto. Embora não seja a primeira incursão da Meta na geração de áudio, já que a empresa lançou anteriormente o gerador de música MusicGen em junho, a Meta afirma ter feito avanços significativos que melhoram consideravelmente a qualidade dos sons gerados pela inteligência artificial, como latidos de cachorro, buzinas de carros e passos em um piso de madeira.

De acordo com um post no blog compartilhado com o TechCrunch, a Meta explica que a estrutura do Audiocraft foi projetada para simplificar o uso de modelos generativos para áudio em comparação com trabalhos anteriores no campo, como Riffusion, Dance Diffusion e Jukebox, da OpenAI. O Audiocraft, cujo código está disponível como open source, oferece uma coleção de geradores de som e música, além de algoritmos de compressão que podem ser usados para criar e codificar músicas e áudio sem a necessidade de alternar entre diferentes códigos.

O Audiocraft contém três modelos de inteligência artificial generativa: MusicGen, AudioGen e EnCodec. O MusicGen não é novo, mas a Meta disponibilizou o código de treinamento, permitindo que os usuários treinem o modelo em seu próprio conjunto de dados musicais. Isso, no entanto, pode suscitar importantes questões éticas e legais, considerando que o MusicGen “aprende” a partir de músicas existentes para produzir efeitos similares, algo que nem todos os artistas ou usuários de IA generativa estão confortáveis.

Cada vez mais, músicas feitas em casa que usam IA generativa para criar sons familiares que podem ser considerados autênticos, ou pelo menos suficientemente similares, vêm ganhando popularidade. As gravadoras têm se apressado em chamar a atenção de parceiros de streaming, citando questões de propriedade intelectual, e, em geral, têm sido bem-sucedidas. No entanto, ainda não está claro se músicas “deepfake” violam os direitos autorais de artistas, gravadoras e outros detentores de direitos.

A Meta deixou claro que a versão pré-treinada e pronta para uso do MusicGen foi treinada com músicas licenciadas especificamente pela Meta, Shutterstock e Pond5. O Meta também removeu as vozes dos dados de treinamento para evitar que o modelo replicasse as vozes dos artistas. No entanto, embora os termos de uso do MusicGen desencoragem o uso do modelo para casos de uso além da pesquisa, a Meta não proíbe expressamente qualquer aplicação comercial.

O AudioGen, outro modelo de geração de áudio contido no Audiocraft, concentra-se na criação de sons ambientais e efeitos sonoros, ao contrário de músicas e melodias. O AudioGen é um modelo baseado em diffusion, assim como a maioria dos geradores de imagens modernos, como o DALL-E 2 da OpenAI, o Imagen do Google e o Stable Diffusion. Em diffusion, um modelo aprende gradualmente a subtrair ruídos de dados iniciais compostos inteiramente por ruídos, como áudio ou imagens, aproximando-o passo a passo do prompt-alvo.

Dado uma descrição textual de uma cena acústica, o AudioGen pode gerar sons ambientais com “condições de gravação realistas” e “conteúdo complexo de cena”. Segundo a Meta, o AudioGen também pode gerar fala a partir de prompts, refletindo a diversidade de seu conjunto de dados de treinamento.

A Meta reconhece no whitepaper que o Audiocraft poderia ser utilizado indevidamente para forjar a voz de uma pessoa. E, assim como o MusicGen, o Audiocraft levanta as mesmas questões éticas. Porém, a Meta não impõe muitas restrições sobre as formas de uso do Audiocraft e seu código de treinamento, para o bem ou para o mal.

O último dos três modelos do Audiocraft, o EnCodec, é uma melhoria em relação a um modelo anterior da Meta para geração de música com menos artefatos. A Meta afirma que o EnCodec modela sequências de áudio de forma mais eficiente, capturando diferentes níveis de informações nos dados de treinamento para auxiliar na criação de áudios inovadores.

A Meta planeja continuar pesquisando formas de aprimorar o controle e o desempenho dos modelos de áudio generativos, assim como mitigar as limitações e os vieses desses modelos. A empresa ressalta a importância de ser transparente no desenvolvimento desses modelos e de garantir que sejam fáceis de usar, permitindo que as pessoas compreendam o que eles são capazes de fazer e não fazer. A Meta espera que, por meio do desenvolvimento de controles mais avançados, esses modelos se tornem úteis tanto para amadores como para profissionais da música.