Manuel Ángel García: “Es imposible atisbar la dimensión que la IA abre en la industria del audio”

Consultor y periodista, especializado en Tecnología de vanguardia para Radio y Televisión y Soluciones broadcast

“Estamos ante un precipicio que volverá a transformarnos en la forma de entenderlo todo”

Sus reflexiones y aportaciones enriquecen el intenso y tal vez atropellado debate en torno a la irrupción de la Inteligencia Artificial. Los ejemplos que aporta no dejan de sorprendernos por la perfección que demuestran y las potencialidades que anuncian. Para unos, se trata de un fenómeno inquietante, a otros les provoca, directamente, miedo; los profesionales intentan frenarlo poniendo barreras. Y los desarrolladores aplauden porque ha llegado la hora de la IA. Pero, como afirma Manuel Ángel García, aquel que intente ponerle puertas al campo “se estará quedando directamente fuera de la nueva realidad”

Manuel Ángel García, Facebook, Abril 2023. He publicado un hilo para mostrar el auténtico reto al que nos enfrentamos con las voces sintéticas, ofreciendo muestras de audio reales, absolutamente sorprendentes.

La IA no va a dejar de sorprendernos en muchos años (Fototgrafía Pexels)

Clonar cualquier voz y hacerla hablar en cualquier idioma al momento, con traducción automática y con un acento perfecto, ya es perfectamente posible.

Lo único imposible es imaginar la revolucionaria dimensión que esto abre en la industria del audio y atisbar sus infinitas posibilidades.

Las voces sintéticas robóticas ya pasaron a la historia

Hacer que un avatar de voz propio locute por uno mismo un audio a partir de un texto y en tiempo real, y dejarlo publicado al momento en internet en varios idiomas, sin necesidad de recurrir a un traductor, es sólo uno de los usos más obvios.

Que una IA imite un acento perfecto en cualquier idioma será un reto fácilmente superable en poco tiempo.

Como ejemplo, @elevenLabsio acaba de demostrar un excelente resultado con su modelo de síntesis de voz en 7 idiomas:
https://t.co/m0BWeGdvha

(Varias demos a continuación)
— Manuel Ángel García (@ma_garcia) May 2, 2023

Repetir tomas frente al micrófono es algo que está a punto de pasar a la historia. Ahora ya es (casi) posible modificar la tonalidad y emocionalidad sobre el papel y obtener una versión perfecta de la locución deseada.

En este punto, surgen varios desafíos que acometer.

Uno es evitar el fraude. Cualquiera por teléfono podría engañarte, haciéndote creer que hablas con quien realmente no existe; con absoluto realismo, generando mensajes en tiempo real y adaptados al contexto. Imaginemos audios o vídeos "fake" publicados en internet, o incluso difundidos a través de los medios. Todo ello, hoy, resultaría ya posible y sería imposible de distinguir lo auténtico de lo falso.

Un par de demos más para demostrar cómo la primera versión del modelo de síntesis de voz (speech synthesis) "Eleven Multilingual" de @elevenlabsio traspasa las fronteras del idioma sin ninguna dificultad, con una voz 100% natural:https://t.co/YhtTZ89lKP https://t.co/JFFbpIFK1A
— Manuel Ángel García (@ma_garcia) May 2, 2023

Otro pasa por proteger la autoría de las voces. Ciertamente, debe hacerse con urgencia.

Pero, ¿quién en su sano juicio podría negarse a abrir esta caja de Pandora? En mi opinión, quien elija permanecer en la prehistoria o pretenda ponerle puertas al campo se estará quedando directamente fuera de la nueva realidad.

Y todos, como usuarios, no sólo como profesionales, estamos ante un precipicio que, como todo cambio de paradigma, volverá a transformarnos en la forma de entenderlo y concebirlo todo.

Manuel Ángel García

-Este texto en Facebook

Nota del editor: Este texto constituye una reacción del autor sobre la noticia publicada en esta web en torno a los locutores latinoamericanos que intentan frenar el desarrollo de la IA por las amenazas que supone a su desempeño profesional y medio de vida.

-"Las voces reales se rebelan contra las voces virtuales"

Manuel Ángel García es Consultor tecnológico y periodista. Growth hacker. Administrador/CTO Star Comunicaciones. Director Clavemedia Consulting.