Microsoft ha annunciato VALL-E, un modello di text-to-speech (TTS) in grado di imitare il tono e il timbro di voce in input. Con un campione audio di soli 3 secondi, il modello riesce a replicare le inflessioni e le emozioni della voce.
Il modello si basa su EnCodec, una tecnologia sviluppata da Meta che usa tecniche di apprendimento automatico per comprimere gli audio in tempo reale, senza perdere la qualità del campione.
VALL-E può essere usato per diverse applicazioni, come il TTS zero-shot, per riprodurre il tono del parlato, lo speech editing e la creazione di contenuti in combinazione con modelli di IA generativa, come GPT-3.
Le capacità di VALL-E
A differenza dei modelli TTS usati finora, che si basano sullo spettrogramma mel per l'analisi vocale, VALL-E sfrutta la tecnologia di Meta per trasformare i fonemi in token acustici che comporranno la forma d'onda finale.
Il timbro e l'inflessione vocali vengono tradotti in componenti discrete di informazione per imitare il parlato. Questi token vengono poi sintetizzati per produrre l'output.
Il modello è stato addestrato attingendo da un dataset composto da 60.000 ore di audio in lingua inglese, prodotti da 7.000 oratori. I risultati, consultabili sulla demo pubblica, mostrano un elevato livello di precisione nel catturare e replicare la cadenza e il timbro di voce in input.
L'analisi qualitativa effettuata dal team di Microsoft evidenzia un'ottima capacità di preservare sia le emozioni dell'oratore che l'acustica ambientale: VALL-E ha dimostrato di saper identificare e replicare riverberi e altre condizioni acustiche.
Il modello presenta però anche dei limiti, relativi per lo più alla scarsa eterogeneità del dataset di training: al momento VALL-E non è in grado di replicare accenti e parlate locali a causa della poca varietà dell'input. Inoltre, per input particolarmente ostici, alcune parole sono pronunciate in maniera errata o assenti del tutto.
Microsoft è consapevole dei rischi derivanti da uno sconsiderato del modello; tra i principali ci sono attacchi di voice spoofing o tentativi di impersonare qualcuno. Un modo per mitigare questi rischi è sviluppare un modello in grado di riconoscere se un audio è stato generato o se è originale.
VALL-E rappresenta un enorme passo avanti rispetto ai modelli TTS attuali: le applicazioni del modello sono varie, ma lo sono anche le minacce. Se VALL-E diventerà di uso comune sarà necessario definire delle regolamentazioni e adattare i propri sistemi di sicurezza ai nuovi attacchi.