Nel panorama dei tool di intelligenza artificiale per la generazione di audio spiccano anche quelli di PlayAI, una compagnia che si proclama come "l'interfaccia vocale dell'IA".
Fondata da Hammad Syed e Mahmoud Felfel, i quali avevano già collaborato per lo sviluppo di un'estensione Chrome di text-to-speech, la piattaforma permette agli utenti di scegliere una voce predefinita o clonarne una per integrare le funzionalità di text-to-speech nelle loro applicazioni, modificando l'intonazione, la cadenza e il timbro della voce.
Kyle Wiggers di TechCrunch riporta che una delle funzionalità più interessanti offerte dalla piattaforma è PlayNote, in grado di trasformare file PDF, foto, video canzoni e altri tipi di file in podcast, discussioni tra due speaker, riassunti vocali o storie per bambini.
Sebbene il tool non sia esente da errori e allucinazioni, secondo Wiggers le funzionalità di PlayNote sono piuttosto valide.
Dietro le feature di text-to-speech c'è PlayDialog, un modello di IA capace di comprendere il contesto e la storia di una conversazione per generare un file audio coerente col flusso del dibattito. "Usando un contesto storico di conversazione per controllare la prosodia, l'emozione e il ritmo, PlayDialog offre una conversazione naturale e con un tono appropriato".
Le preoccupazioni per la privacy e i deepfake
Il tool sembra essere portentoso, ma vista la sua capacità di clonare qualsiasi tipo di voce non mancano le preoccupazioni per la privacy, le frodi e i deepfake.
Se PlayAI afferma di individuare e bloccare automaticamente "contenuti sessuali, offensivi, razzisti o pericolosi", nella pratica le cose non sembrano funzionare correttamente: stando a quanto riportato da Wiggers, durante alcuni test è riuscito a generare un discorso controverso senza neanche ricevere un avviso da parte del tool.
La situazione non migliora guardando alla community di PlayNote: Wiggers afferma che il portale della piattaforma è ricco di contenuti con titoli espliciti e offensivi.
La situazione non migliora neanche se si parla di privacy: in caso di segnalazione, il tool elimina gli audio generati senza il consenso del proprietario della voce, ma si tratta di un meccanismo a posteriori che non protegge fin da subito la vittima. Quando infatti si carica una traccia vocale per la generazione di audio, il tool si limita a richiedere all'utente di selezionare una casella per confermare che ha "tutti i diritti o i consensi necessari" per usarla, senza altri meccanismi di controllo.
Non mancano poi i dubbi riguardo il training del modello: Wiggers riporta che la compagnia non ha rivelato esattamente da dove prende i dataset per addestrare PlayNote, apparentemente per questioni di competitività.
Syed ha solo affermato che PlayAI usa dataset open e set di dati proprietari costruiti internamente. "I nostri modelli sono addestrati su milioni di ore di conversazioni umane, con voci femminili e maschili in molteplici lingue e accenti" ha specificato Syed.
Nonostante la compagnia si proclami in regola con i requisiti di privacy e coi permessi necessari per generare le voci, i suoi meccanismi di controllo non del tutto trasparenti né efficaci potrebbero metterla in una posizione scomoda.
Inoltre, PlayAI deve vedersela con una competizione sempre più feroce, non solo da parte delle Big Tech ma anche di realtà emergenti come Papercup, Deepdub, Acapela e Voice.ai. Attualmente la compagnia di Syed e Felfel è in espansione, grazie anche a nuovi investimenti degli ultimi mesi, ma viste le implicazioni di privacy e sicurezza degli utenti è il caso di muoversi con attenzione.