News VALL-E di Microsoft imita la voce umana in soli 3 secondi
2' 8''
12/01/2023

VALL-E è il modello text-to-speech di Microsoft in grado di replicare l'inflessione e il timbro della voce di input in soli 3 secondi.

VALL-E di Microsoft imita la voce umana in soli 3 secondi

Microsoft ha annunciato VALL-E, un modello di text-to-speech (TTS) in grado di imitare il tono e il timbro di voce in input. Con un campione audio di soli 3 secondi, il modello riesce a replicare le inflessioni e le emozioni della voce.

Il modello si basa su EnCodec, una tecnologia sviluppata da Meta che usa tecniche di apprendimento automatico per comprimere gli audio in tempo reale, senza perdere la qualità del campione. 

VALL-E può essere usato per diverse applicazioni, come il TTS zero-shot, per riprodurre il tono del parlato, lo speech editing e la creazione di contenuti in combinazione con modelli di IA generativa, come GPT-3.

Le capacità di VALL-E

A differenza dei modelli TTS usati finora, che si basano sullo spettrogramma mel per l'analisi vocale, VALL-E sfrutta la tecnologia di Meta per trasformare i fonemi in token acustici che comporranno la forma d'onda finale.

Gerd Altmann on Pixabay
Forma d'onda VALL-E
I singoli token audio formano la forma d'onda finale.

Il timbro e l'inflessione vocali vengono tradotti in componenti discrete di informazione per imitare il parlato. Questi token vengono poi sintetizzati per produrre l'output. 

Il modello è stato addestrato attingendo da un dataset composto da 60.000 ore di audio in lingua inglese, prodotti da 7.000 oratori. I risultati, consultabili sulla demo pubblica, mostrano un elevato livello di precisione nel catturare e replicare la cadenza e il timbro di voce in input.

L'analisi qualitativa effettuata dal team di Microsoft evidenzia un'ottima capacità di preservare sia le emozioni dell'oratore che l'acustica ambientale: VALL-E ha dimostrato di saper identificare e replicare riverberi e altre condizioni acustiche. 

Karolina Grabowska on Pexels
VALL-E
VALL-E è in grado di replicare l'acustica dell'input.

Il modello presenta però anche dei limiti, relativi per lo più alla scarsa eterogeneità del dataset di training: al momento VALL-E non è in grado di replicare accenti e parlate locali a causa della poca varietà dell'input. Inoltre, per input particolarmente ostici, alcune parole sono pronunciate in maniera errata o assenti del tutto.

Microsoft è consapevole dei rischi derivanti da uno sconsiderato del modello; tra i principali ci sono attacchi di voice spoofing o tentativi di impersonare qualcuno. Un modo per mitigare questi rischi è sviluppare un modello in grado di riconoscere se un audio è stato generato o se è originale.

VALL-E rappresenta un enorme passo avanti rispetto ai modelli TTS attuali: le applicazioni del modello sono varie, ma lo sono anche le minacce. Se VALL-E diventerà di uso comune sarà necessario definire delle regolamentazioni e adattare i propri sistemi di sicurezza ai nuovi attacchi.

Potrebbe interessarti anche

News

Microsoft permetterà alle aziende di creare agenti autonomi personalizzati

Microsoft ha annunciato che, dal mese prossimo, le aziende potranno creare agenti di IA autonomi personalizzati su Copil...

Approfondimenti

L'IA di Microsoft protegge il Prosecco dalla contraffazione

Microsoft Italia e Istituto Poligrafico e Zecca dello Stato hanno stretto un accordo per usare la tecnologia al fine di...

News

TRAIN si espande per aiutare il settore sanitario europeo a rendere operativa l'IA responsabile

TRAIN, tra i principali network di IA sanitaria, ha annunciato la sua espansione in Europa per aiutare le organizzazioni...

News

Microsoft annuncia Copilot+ PC, i PC progettati per l'IA

Microsoft ha presentato i Copilot+PC, i nuovi computer che sfruttano l'intelligenza artificiale per rivoluzionare le esp...