La nueva IA de Microsoft puede simular la voz de cualquier persona con solo 3 segundos de audio

Los progresos de la IA y la síntesis de voz en inglés avanzan a un ritmo trepidante

Clonar la voz humana

  • VALL-E es el modelo de inteligencia artificial generativa de texto a voz que puede preservar el tono emocional del hablante y el entorno acústico

Wired.com, Artículo adaptado por Andrei Osornio, 11.01.2023. El jueves, desarrolladores de Microsoft anunciaron un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular fielmente la voz de una persona cuando se le presenta una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede generar un sonido de esa persona diciendo cualquier cosa, y hacerlo de una manera que intenta preservar el tono emocional del hablante.

La síntesis de voz humana en inglés ha llegado a límites insospechados en muy poco tiempo (Fotografía de Gerd Altmann en Pixabay)
Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa, como GPT-3. Generative Pre-trained Transformer 3 es un modelo de inteligencia artificial que genera contenido escrito similar a textos hechos por los humanos.
"Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa"

¿Cómo funciona VALL-E de Microsoft?

Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en partes individuales (llamados ‘tokens’) gracias a EnCodec y utiliza datos de entrenamiento para hacer coincidir lo que 'sabe' sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. O, como señala Microsoft en el artículo sobre VALL-E: 

Para sintetizar el discurso personalizado, VALL-E crea los tokens acústicos correspondientes. condicionados a los de la grabación de tres segundos inscrita y a la indicación de fonemas que restringen la información del hablante y del contenido. Por último, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el respectivo decodificador de códec neural.” 

Microsoft ha entrenado las capacidades de síntesis de expresión de VALL-E con una librería (biblioteca) de audio, creada por Meta, llamada LibriLight. Contiene 60 mil horas de oratoria en inglés de más de siete mil hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E reproduzca un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a una de los datos de entrenamiento. 

En el sitio web con ejemplos de VALL-E, Microsoft ofrece decenas de muestras de sonido del modelo de inteligencia artificial en acción. Entre las demostraciones, el Speaker Prompt es el audio de tres segundos que se proporciona a VALL-E y que debe imitar. La Ground Truth se refiere a una grabación preexistente de ese mismo orador diciendo una frase concreta con fines comparativos (algo así como el ‘control’ del experimento). Baseline corresponde a un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra VALL-E es la salida creada por el modelo.

-Sigue leyendo este artículo en Wired.com


Relacionado:

-Primer podcast creado con Inteligencia Artificial, por Prodigioso Volcán

-Locutores y periodistas sustituidos por bots

-La radio del futuro: ¿mejor o más barata?

-Vicomtech, la empresa que resucitó la voz de Franco

-La inteligencia artificial hará mejor la radio, por Jorge Heili


Tambien te puede interesar:

post destacado 2626856022720923451

Publicar un comentario

  1. Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda,

    ResponderEliminar

emo-but-icon

RADIOPLAYER DISPONIBLE EN ESTA WEB

RADIOPLAYER DISPONIBLE EN ESTA WEB
Clica y escucha en directo tu emisora favorita

¿TE MANEJAS BIEN HABLANDO EN PÚBLICO?

¿TE MANEJAS BIEN HABLANDO EN PÚBLICO?
Clica y amplía información

PARTICIPA EN LA ENCUESTA 'NAVEGANTES' (AIMC)

PARTICIPA EN LA ENCUESTA 'NAVEGANTES' (AIMC)
Clica y amplía información

EGM INCORPORARÁ DATOS REALES DE ESCUCHA

EGM INCORPORARÁ DATOS REALES DE ESCUCHA
Clica y amplía información

LA SER LANZA 'LA RADIO QUE INVENTÓ QUINTERO'

LA SER LANZA 'LA RADIO QUE INVENTÓ QUINTERO'
Clica y amplía información

'LAS RARAS' IMPARTE TALLER EN UNI MÁLAGA

100 PODCASTERS LANZAN 'DANA SOLIDARIO'

100 PODCASTERS LANZAN 'DANA SOLIDARIO'
Clica y amplía información

MARATÓN NEBRIJA: 12 HORAS PARA 100 AÑOS

MARATÓN NEBRIJA: 12 HORAS PARA 100 AÑOS
Clica y amplía información

SONODOC: 10 AÑOS DE NARRATIVAS SONORAS

SONODOC: 10 AÑOS DE NARRATIVAS SONORAS
Clica y amplía información

GUADAPOD, LA FUERZA DEL PODCAST NARRATIVO

GUADAPOD, LA FUERZA DEL PODCAST NARRATIVO
Clica y amplía información

UNESCO: D.M.R. DEDICADO AL CAMBIO DE CLIMA

UNESCO: D.M.R. DEDICADO AL CAMBIO DE CLIMA
Clica y amplía información

GORKA ZUMETA FICHA POR RADIO EXTERIOR (RNE)

GORKA ZUMETA FICHA POR RADIO EXTERIOR (RNE)
Clica y amplía información

GORKA ZUMETA ENTREVISTADO POR UNA IA

GORKA ZUMETA ENTREVISTADO POR UNA IA
Clica y amplía información

GORKA ZUMETA ANTE EL 'ESPEJISMO DIGITAL'

GORKA ZUMETA ANTE EL 'ESPEJISMO DIGITAL'
Clica y amplía información

GORKA ZUMETA Y LA CREDIBILIDAD DE LA RADIO

GORKA ZUMETA Y LA CREDIBILIDAD DE LA RADIO
Clica y amplía información

G.ZUMETA: 'GUERRA ABIERTA' CONTRA LA RADIO

G.ZUMETA: 'GUERRA ABIERTA' CONTRA LA RADIO
Clica y amplía información

GORKA ZUMETA: "NO AL EDADISMO EN LA RADIO"

GORKA ZUMETA: "NO AL EDADISMO EN LA RADIO"
Clica y amplía información

HEILI, MERINO Y ZUMETA EN "ESTUDIO 8"

HEILI, MERINO Y ZUMETA EN "ESTUDIO 8"
Clica y amplía información

ZUMETA: EL FINAL DE LA FM Y EL SORPASO ONLINE

ZUMETA: EL FINAL DE LA FM Y EL SORPASO ONLINE
Clica y visualiza la conferencia en FORTA

GORKA ZUMETA EN EL INICIO DE LA DAB+ DE RNE

GORKA ZUMETA EN EL INICIO DE LA DAB+ DE RNE
Clica y amplía información

G. ZUMETA: LA "DAB+ Y EL CONTROL DEL CANAL

G. ZUMETA: LA "DAB+ Y EL CONTROL DEL CANAL
Clica y amplía información

ZUMETA: EL FUTURO DE LA RADIO, EN LOS COLES

ZUMETA: EL FUTURO DE LA RADIO, EN LOS COLES
Clica y amplía información

G. ZUMETA INVITADO EN LA ASAMBLEA DE ARU

G. ZUMETA INVITADO EN LA ASAMBLEA DE ARU
Clica y amplía información

GORKA ZUMETA EN EL XI CONGRESO PROCOM'23

GORKA ZUMETA EN EL XI CONGRESO PROCOM'23
Clica y visiona el video (1:32:30)

ÁNGELES AFUERA Y GORKA ZUMETA EN ESTUDIO 8

ÁNGELES AFUERA Y GORKA ZUMETA EN ESTUDIO 8
Clica y amplía información

ZUMETA, PREMIADO CON UN ACCÉSIT POR LA RPA

ZUMETA, PREMIADO CON UN ACCÉSIT POR LA RPA
Clica y amplía información

GORKA ZUMETA HABLA DE LA IA EN 'CLARÍN'

GORKA ZUMETA HABLA DE LA IA EN 'CLARÍN'
Clica y amplía información

G.ZUMETA EN LA JORNADA DE RADIO DE FORTA

G.ZUMETA EN LA JORNADA DE RADIO DE FORTA
Clica y amplía informarción

GORKA ZUMETA CLAUSURÓ EL I FORO DE VILLENA

GORKA ZUMETA CLAUSURÓ EL I FORO DE VILLENA
Clica y amplía información

G.ZUMETA EN LA UNIVERSIDAD DE EXTREMADURA

G.ZUMETA EN LA UNIVERSIDAD DE EXTREMADURA
En sus Jornadas Iberoamericanas 2022

G. ZUMETA EN EL CONGRESO DE RADIO ESCOLAR

G. ZUMETA EN EL CONGRESO DE RADIO ESCOLAR
Clica, y amplía información

G.ZUMETA INVITADO EN LA UIPR (PUERTO RICO)

G.ZUMETA INVITADO EN LA UIPR (PUERTO RICO)
Clica y escucha

GORKA ZUMETA ENTREVISTADO EN 'CLARÍN'

GORKA ZUMETA ENTREVISTADO EN 'CLARÍN'
Clica y amplía información

DIARIO DE UN FIRMANTE EN LA FERIA DEL LIBRO

DIARIO DE UN FIRMANTE EN LA FERIA DEL LIBRO
Clica y amplía información

G.ZUMETA EN LA 'SEMANA DE LA RADIO' DE PERÚ

G.ZUMETA EN LA 'SEMANA DE LA RADIO' DE PERÚ
Clica y amplía información

GORKA ZUMETA DEFIENDE LA RADIO ESCOLAR

GORKA ZUMETA DEFIENDE LA RADIO ESCOLAR
Clica y amplía información

GORKA ZUMETA ANALIZA LOS 'DAILYS' EN TEA FM

GORKA ZUMETA ANALIZA LOS 'DAILYS' EN TEA FM
Clica y amplía información

GORKA ZUMETA EN LA FRANCISCO DE VITORIA

GORKA ZUMETA EN LA FRANCISCO DE VITORIA
Clica y visualiza el video

GORKA ZUMETA 'SOCIO DE HONOR' DE LA ARU

GORKA ZUMETA 'SOCIO DE HONOR' DE LA ARU
Clica y amplía información

GORKA ZUMETA, INVITADO EN LA U.SALAMANCA

GORKA ZUMETA, INVITADO EN LA U.SALAMANCA
Clica y amplía información

GORKA ZUMETA, CLASE MAGISTRAL EN EL CEU

GORKA ZUMETA, CLASE MAGISTRAL EN EL CEU
Clica y visualiza el video

DESCUBRE RADIOS DEL MUNDO A GOLPE DE CLIC

DESCUBRE RADIOS DEL MUNDO A GOLPE DE CLIC
Clica, viaja por el mundo y elige tu radio
item