La nueva IA de Microsoft puede simular la voz de cualquier persona con solo 3 segundos de audio
- VALL-E es el modelo de inteligencia artificial generativa de texto a voz que puede preservar el tono emocional del hablante y el entorno acústico
La síntesis de voz humana en inglés ha llegado a límites insospechados en muy poco tiempo (Fotografía de Gerd Altmann en Pixabay) |
"Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa"
¿Cómo funciona VALL-E de Microsoft?
Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en partes individuales (llamados ‘tokens’) gracias a EnCodec y utiliza datos de entrenamiento para hacer coincidir lo que 'sabe' sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. O, como señala Microsoft en el artículo sobre VALL-E:
“Para sintetizar el discurso personalizado, VALL-E crea los tokens acústicos correspondientes. condicionados a los de la grabación de tres segundos inscrita y a la indicación de fonemas que restringen la información del hablante y del contenido. Por último, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el respectivo decodificador de códec neural.”
Microsoft ha entrenado las capacidades de síntesis de expresión de VALL-E con una librería (biblioteca) de audio, creada por Meta, llamada LibriLight. Contiene 60 mil horas de oratoria en inglés de más de siete mil hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E reproduzca un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a una de los datos de entrenamiento.
En el sitio web con ejemplos de VALL-E, Microsoft ofrece
decenas de muestras de sonido del modelo de inteligencia artificial en acción.
Entre las demostraciones, el Speaker Prompt es el audio de tres segundos que se
proporciona a VALL-E y que debe imitar. La Ground Truth se refiere a una
grabación preexistente de ese mismo orador diciendo una frase concreta con
fines comparativos (algo así como el ‘control’ del experimento). Baseline
corresponde a un ejemplo de síntesis proporcionada por un método convencional
de síntesis de texto a voz, y la muestra VALL-E es la salida creada por el
modelo.
-Sigue
leyendo este artículo en Wired.com
Relacionado:
-Primer podcast creado con Inteligencia Artificial, por Prodigioso Volcán
-Locutores y periodistas sustituidos por bots
-La radio del futuro: ¿mejor o más barata?
-Vicomtech, la empresa que resucitó la voz de Franco
-La inteligencia artificial hará mejor la radio, por Jorge Heili
Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda,
ResponderEliminar