La nueva IA de Microsoft puede simular la voz de cualquier persona con solo 3 segundos de audio

Los progresos de la IA y la síntesis de voz en inglés avanzan a un ritmo trepidante

Clonar la voz humana

VALL-E es el modelo de inteligencia artificial generativa de texto a voz que puede preservar el tono emocional del hablante y el entorno acústico

Wired.com, Artículo adaptado por Andrei Osornio, 11.01.2023. El jueves, desarrolladores de Microsoft anunciaron un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular fielmente la voz de una persona cuando se le presenta una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede generar un sonido de esa persona diciendo cualquier cosa, y hacerlo de una manera que intenta preservar el tono emocional del hablante.

La síntesis de voz humana en inglés ha llegado a límites insospechados en muy poco tiempo (Fotografía de Gerd Altmann en Pixabay)

Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa, como GPT-3. Generative Pre-trained Transformer 3 es un modelo de inteligencia artificial que genera contenido escrito similar a textos hechos por los humanos.

"Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa"

¿Cómo funciona VALL-E de Microsoft?

Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en partes individuales (llamados ‘tokens’) gracias a EnCodec y utiliza datos de entrenamiento para hacer coincidir lo que 'sabe' sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. O, como señala Microsoft en el artículo sobre VALL-E:

“Para sintetizar el discurso personalizado, VALL-E crea los tokens acústicos correspondientes. condicionados a los de la grabación de tres segundos inscrita y a la indicación de fonemas que restringen la información del hablante y del contenido. Por último, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el respectivo decodificador de códec neural.”

Microsoft ha entrenado las capacidades de síntesis de expresión de VALL-E con una librería (biblioteca) de audio, creada por Meta, llamada LibriLight. Contiene 60 mil horas de oratoria en inglés de más de siete mil hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E reproduzca un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a una de los datos de entrenamiento.

En el sitio web con ejemplos de VALL-E, Microsoft ofrece decenas de muestras de sonido del modelo de inteligencia artificial en acción. Entre las demostraciones, el Speaker Prompt es el audio de tres segundos que se proporciona a VALL-E y que debe imitar. La Ground Truth se refiere a una grabación preexistente de ese mismo orador diciendo una frase concreta con fines comparativos (algo así como el ‘control’ del experimento). Baseline corresponde a un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra VALL-E es la salida creada por el modelo.

-Sigue leyendo este artículo en Wired.com

Relacionado:

-Primer podcast creado con Inteligencia Artificial, por Prodigioso Volcán

-Locutores y periodistas sustituidos por bots

-La radio del futuro: ¿mejor o más barata?

-Vicomtech, la empresa que resucitó la voz de Franco

-La inteligencia artificial hará mejor la radio, por Jorge Heili

-RNE estudia impulsar robots inteligentes como periodistas

-“OK, periódico… susúrrame la actualidad”