Manuel Ángel García: “Es imposible atisbar la dimensión que la IA abre en la industria del audio”
- Sus reflexiones y aportaciones enriquecen el intenso y tal vez atropellado debate en torno a la irrupción de la Inteligencia Artificial. Los ejemplos que aporta no dejan de sorprendernos por la perfección que demuestran y las potencialidades que anuncian. Para unos, se trata de un fenómeno inquietante, a otros les provoca, directamente, miedo; los profesionales intentan frenarlo poniendo barreras. Y los desarrolladores aplauden porque ha llegado la hora de la IA. Pero, como afirma Manuel Ángel García, aquel que intente ponerle puertas al campo “se estará quedando directamente fuera de la nueva realidad”
La IA no va a dejar de sorprendernos en muchos años (Fototgrafía Pexels) |
Lo único imposible es imaginar la revolucionaria dimensión que esto abre en la industria del audio y atisbar sus infinitas posibilidades.
Las voces sintéticas robóticas ya pasaron a la historia
Hacer que un avatar de voz propio locute por uno mismo un audio a partir de un texto y en tiempo real, y dejarlo publicado al momento en internet en varios idiomas, sin necesidad de recurrir a un traductor, es sólo uno de los usos más obvios.
Repetir tomas frente al micrófono es algo que está a punto de pasar a la historia. Ahora ya es (casi) posible modificar la tonalidad y emocionalidad sobre el papel y obtener una versión perfecta de la locución deseada.Que una IA imite un acento perfecto en cualquier idioma será un reto fácilmente superable en poco tiempo.
— Manuel Ángel García (@ma_garcia) May 2, 2023
Como ejemplo, @elevenLabsio acaba de demostrar un excelente resultado con su modelo de síntesis de voz en 7 idiomas:
https://t.co/m0BWeGdvha
(Varias demos a continuación)
En este punto, surgen varios desafíos que acometer.
Uno es evitar el fraude. Cualquiera por teléfono podría engañarte, haciéndote creer que hablas con quien realmente no existe; con absoluto realismo, generando mensajes en tiempo real y adaptados al contexto. Imaginemos audios o vídeos "fake" publicados en internet, o incluso difundidos a través de los medios. Todo ello, hoy, resultaría ya posible y sería imposible de distinguir lo auténtico de lo falso.
Otro pasa por proteger la autoría de las voces. Ciertamente, debe hacerse con urgencia.Un par de demos más para demostrar cómo la primera versión del modelo de síntesis de voz (speech synthesis) "Eleven Multilingual" de @elevenlabsio traspasa las fronteras del idioma sin ninguna dificultad, con una voz 100% natural:https://t.co/YhtTZ89lKPhttps://t.co/JFFbpIFK1A
— Manuel Ángel García (@ma_garcia) May 2, 2023
Pero, ¿quién en su sano juicio podría negarse a abrir esta
caja de Pandora? En mi opinión, quien elija permanecer en la prehistoria o
pretenda ponerle puertas al campo se estará quedando directamente fuera de la
nueva realidad.
Y todos, como usuarios, no sólo como profesionales, estamos
ante un precipicio que, como todo cambio de paradigma, volverá a transformarnos
en la forma de entenderlo y concebirlo todo.
Manuel Ángel García |
Nota del editor: Este texto constituye una reacción del autor sobre la noticia publicada en esta web en torno a los locutores latinoamericanos que intentan frenar el desarrollo de la IA por las amenazas que supone a su desempeño profesional y medio de vida.
-"Las voces reales se rebelan contra las voces virtuales"