Emma Watson lee «Mein Kampf» de Hitler y Eminem rapea consignas racistas: AI lo hace posible. Incluso la voz ya no está a salvo del robo.


Esos fueron los días en que los pioneros de la tecnología comenzaron la revolución de la voz y declararon que la voz era una contraseña a prueba de falsificaciones. La inteligencia artificial ha convertido la voz en un objeto de alquiler.

Cuando Eminem rapea, puede que no sea Eminem en absoluto, es David Guetta: la voz se ha convertido en una mercancía.

Mario Azuoni

Hace unas semanas, la estrella francesa DJ David Guetta presentó una nueva canción de Eminem. «Este es el sonido rave del futuro. Me estoy poniendo genial y underground», rapea una voz, luego un bajo retumbante, el público enloquece. Pero lo que suena de la cinta no es el propio Eminem, sino un fake: David Guetta tenía el texto y la letra generados por una IA -como una «broma», como dijo en un video-. Primero, Guetta tenía letras escritas al estilo de Eminem. Con el resultado, alimentó una IA de voz que sintetizó la voz del rapero. El rap enlatado estaba listo.

Con la ayuda de la IA, ahora cualquiera puede escribir canciones y clonar voces. Los algoritmos reconocen características de voz específicas y patrones acústicos en archivos de audio, que reproducen mediante un modelo estadístico. Microsoft presentó recientemente una IA (VALL-E) que copia una voz en solo tres segundos de material de capacitación.

En la música techno, donde los instrumentos musicales son reemplazados por sintetizadores, samplers y cajas de ritmos, las técnicas de simulación y alienación no sorprenden. El hecho de que las voces también se reproduzcan digitalmente es un nuevo desarrollo en la historia de la música. El servicio de transmisión chino Tencent Music ha lanzado más de mil canciones cantadas por una IA.

Algo así como un muestreo

Han pasado algunos años desde que los genios de la tecnología en Silicon Valley proclamaron la revolución de la voz y declararon la voz como la nueva contraseña. Sin embargo, los clones de voz no están destinados a la autenticación biométrica en absoluto, sino exactamente lo contrario: desbloquear la huella digital acústica. La voz debe convertirse en una especie de objeto de préstamo en cuya apariencia uno viste sus propias palabras, como la fuente en un programa de procesamiento de textos. A todos se les debería permitir sonar como Bruce Springsteen o Freddie Mercury en el futuro. La voz como último grito de la promesa de individualización.

La artista digital Holly Herndon presentó el año pasado un instrumento compatible con IA que permite a las personas cantar con su voz. Usando un modelo de aprendizaje automático, es posible mejorar digitalmente las muestras de voz grabadas y modular su propia voz. Herndon pudo así cantar música tradicional catalana con su voz, aunque no dominaba el idioma ni los tonos.

La artista entiende su técnica, denominada «spawning», como una continuación del muestreo, eso requiere un nuevo marco de derechos de autor: en lugar de limitar el uso de la voz, su uso debería estar abierto a todos. El órgano humano se convertiría así en un archivo de código abierto que cualquiera puede descargar libremente.

La voz detrás de Siri

En Silicon Valley, las nuevas empresas están investigando un software de cambio de voz que cambiará los acentos ásperos de los trabajadores de los centros de llamadas indios en un melodioso acento de Brooklyn, al igual que los oídos estadounidenses están acostumbrados a escuchar en los programas de televisión. Mientras tanto, Amazon está trabajando en una tecnología que permitirá a su asistente de idiomas Alexa hablar con la voz de familiares fallecidos. No necesita que le operen las cuerdas vocales: la IA le dará la voz que desea. Pero, ¿cómo les suena eso a los distribuidores?

La actriz de voz Susan Bennett, la voz detrás de la asistente de voz de Apple, Siri, en la versión estadounidense, dijo una vez en una entrevista que al principio le preocupaba que la encasillaran. El arte del doblaje consiste en imitar diferentes voces y no estar atado a una sola voz.

Aunque Bennett enfatizó que Siri la ayudó a tener un protagonismo inesperado. Pero muy pocos tienen idea de quién está detrás del asistente de idiomas de Apple. Si te limitas a la voz de una computadora, no hay variación, no hay más vida. La voz de los anuncios en el metro suena igual de monótona que la de los asistentes virtuales. Siri no sube el tono, no se vuelve ronco ni más suave, siempre suena igual.

violación vocal

Esta práctica plantea la cuestión de dónde se encuentran los límites legales y éticos del préstamo de voz. ¿Se permite que los dobles de voz articulen cosas que el hablante original nunca habría dicho? ¿Qué pasa si Fake Eminem de repente rapea de manera racista?

Internet está repleto de deepfakes, que ponen palabras en boca de políticos y otras celebridades que nunca dijeron. Los trolls de Internet en el foro en línea 4chan hicieron que la actriz Emma Watson leyera «Mein Kampf» de Adolf Hitler con un software de imitación de voz. Se podría describir como «violación vocal»: la actriz fue violada en su autodeterminación y apenas pudo defenderse de la apropiación indebida de su órgano.

El actor Robin Williams, fallecido en 2014 y conocido entre otras cosas como la voz del Genio en «Aladdin», prohibió en vida el uso de su voz con fines publicitarios en su contrato con Disney. Pero no pudo evitar que su voz fuera mal utilizada para falsificaciones de audio en Internet. Internet amenaza con degenerar en un espectáculo de parodia en el que las mismas voces fuera de la pantalla se escuchan una y otra vez.



Source link-58