Dopo Google, anche Meta si dà alla generazione di musica con l'IA: l'azienda ha rilasciato MusicGen, un modello di intelligenza artificiale in grado di generare musica a partire da un input testuale. A differenza di MusicLM, il prodotto di Google, MusicGen è open source.
Alla base del modello c'è la libreria Audiocraft che utilizza il framework PyTorch. Per addestrare il modello, scrive Meta, sono state usate 20.000 ore di musica, utilizzando nello specifico 10.000 tracce con licenza e circa 390.000 provenienti da Shutterstock e Pond5.
MusicGen può generare 12 secondi di audio basandosi su una descrizione testuale dell'utente; è possibile inoltre al modello una traccia audio di riferimento dalla quale estrarre la melodia e usarla come base per generare il nuovo audio. Su HuggingFace è disponibile una demo con entrambe le modalità.
Uno degli esempi riportati da Meta chiede di generare "una canzone pop anni '80 con batteria e synth pad in sottofondo", fornendo una traccia di Bach da cui prendere la melodia.
Nel paper dedicato i ricercatori di Meta specificano che il modello ha ancora dei limiti, dovuti sopratutto alla scarsa eterogeneità di tracce usate per l'addestramento: il dataset usato da Meta conteneva per lo più musica occidentale.
La natura open-source di MusicGen, spiegano i ricercatori, nasce per rendere disponibile il modello anche agli artisti ed evitare una competizione sleale. In futuro Meta ha intenzione di aggiungere controlli più specifici per avere più controllo sull'output, rendendo MusicGen uno strumento utile anche ai professionisti del settore.