La humanidad ha dado un paso más hacia la inevitable guerra contra las máquinas (que perderemos) con la creación de Vall-E, una IA desarrollada por un equipo de investigadores de Microsoft que puede producir réplicas de voz humana de alta calidad en tan solo unos segundos. de entrenamiento de audio.
Vall-E no es la primera herramienta de voz impulsada por IA: xVASynth (se abre en una pestaña nueva), por ejemplo, ha estado funcionando durante un par de años, pero promete superarlos a todos en términos de capacidad pura. En un artículo disponible en la Universidad de Cornell (se abre en una pestaña nueva) (a través de Windows Central (se abre en una pestaña nueva)), los investigadores de Vall-E dicen que la mayoría de los sistemas de texto a voz actuales están limitados por su dependencia de «datos limpios de alta calidad» para sintetizar con precisión voz de alta calidad.
«Los datos a gran escala rastreados desde Internet no pueden cumplir con el requisito y siempre conducen a una degradación del rendimiento», afirma el documento. «Debido a que los datos de entrenamiento son relativamente pequeños, los sistemas TTS actuales todavía sufren de una mala generalización. La similitud de los oradores y la naturalidad del habla disminuyen drásticamente para los oradores invisibles en el escenario de tiro cero».
(«Escenario de tiro cero (se abre en una pestaña nueva)» en este caso significa esencialmente la capacidad de la IA para recrear voces sin estar específicamente entrenado en ellas).
Vall-E, por otro lado, está entrenado con un conjunto de datos mucho más grande y diverso: 60.000 horas de habla en inglés extraídas de más de 7.000 hablantes únicos, todo transcrito por un software de reconocimiento de voz. Los datos que se alimentan a la IA contienen «habla más ruidosa y transcripciones inexactas» que las utilizadas por otros sistemas de texto a voz, pero los investigadores creen que la gran escala de la entrada y su diversidad lo hacen mucho más flexible, adaptable, y, este es el grande, natural que sus predecesores.
«Los resultados del experimento muestran que Vall-E supera significativamente al sistema de TTS de tiro cero de última generación en términos de naturalidad del habla y similitud del hablante», afirma el documento, que está lleno de números, ecuaciones, diagramas y otros similares. complejidades «Además, encontramos que VALL-E podría preservar la emoción del orador y el entorno acústico del mensaje acústico en síntesis».
De hecho, puedes escuchar a Vall-E en acción en Github (se abre en una pestaña nueva), donde el equipo de investigación compartió un breve desglose de cómo funciona todo, junto con docenas de muestras de entradas y salidas. La calidad varía: algunas de las voces son notablemente robóticas, mientras que otras suenan bastante humanas. Pero como una especie de demostración técnica de primer paso, es impresionante. Imagínese dónde estará esta tecnología en un año, dos o cinco, a medida que los sistemas mejoren y el conjunto de datos de entrenamiento de voz se expanda aún más.
Que es, por supuesto, por qué es un problema. Dall-E, el generador de arte de IA, se enfrenta a un rechazo por las preocupaciones de privacidad y propiedad (se abre en una pestaña nueva)y el bot ChatGPT es lo suficientemente convincente como para que el Departamento de Educación de la ciudad de Nueva York lo prohibiera recientemente. (se abre en una pestaña nueva). Vall-E tiene el potencial de ser aún más preocupante debido al posible uso en llamadas de estafas de marketing o para reforzar videos falsos. Eso puede sonar un poco retorcido, pero como dijo nuestro editor ejecutivo Tyler Wilde a principios de año, esto no va a desaparecer. (se abre en una pestaña nueva)y es vital que reconozcamos los problemas y regulemos la creación y el uso de sistemas de IA antes de que los problemas potenciales se conviertan en problemas reales (y realmente grandes).
El equipo de investigación de Vall-E abordó esos «impactos más amplios» en la conclusión de su artículo. «Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el mal uso del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico», escribió el equipo. «Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E. También pondremos Principios de IA de Microsoft (se abre en una pestaña nueva) en la práctica cuando se desarrollen más los modelos».
En caso de que necesite más evidencia de que el mimetismo de voz sobre la marcha conduce a malos lugares: