VALL-E è il modello text-to-speech di Microsoft in grado di replicare l'inflessione e il timbro della voce di input in s...