OpenAI frena el lanzamiento generalizado de tecnología de clonación de voz debido a preocupaciones sobre su uso indebido


La síntesis de voz ha recorrido un largo camino desde el juguete Speak & Spell de 1978, que alguna vez cautivó a la gente con su capacidad de última generación para leer palabras en voz alta usando una voz electrónica. Ahora, utilizando modelos de inteligencia artificial de aprendizaje profundo, el software puede crear no solo voces que suenan realistas, sino también imitar de manera convincente voces existentes utilizando pequeñas muestras de audio.

En ese sentido, OpenAI acaba de anunciar Voice Engine, un modelo de inteligencia artificial de texto a voz para crear voces sintéticas basadas en un segmento de audio grabado de 15 segundos. Ha proporcionado muestras de audio del Voice Engine en acción en su sitio web.

Una vez que se clona una voz, un usuario puede ingresar texto en Voice Engine y obtener un resultado de voz generado por IA. Pero OpenAI aún no está listo para lanzar ampliamente su tecnología. Inicialmente, la compañía planeó lanzar un programa piloto para que los desarrolladores se registraran en la API Voice Engine a principios de este mes. Pero después de considerar más a fondo las implicaciones éticas, la empresa decidió reducir sus ambiciones por ahora.

«En línea con nuestro enfoque hacia la seguridad de la IA y nuestros compromisos voluntarios, estamos eligiendo una vista previa, pero no lanzar ampliamente esta tecnología en este momento», escribe la compañía. «Esperamos que esta vista previa de Voice Engine destaque su potencial y también motive la necesidad de reforzar la resiliencia de la sociedad frente a los desafíos que plantean modelos generativos cada vez más convincentes».

La tecnología de clonación de voz en general no es particularmente nueva: hemos cubierto varios modelos de síntesis de voz con IA desde 2022 y la tecnología está activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI esté avanzando poco a poco hacia permitir que cualquiera use su marca particular de tecnología de voz es notable. Y en cierto modo, la reticencia de la empresa a publicarlo en su totalidad podría ser la historia más importante.

OpenAI dice que los beneficios de su tecnología de voz incluyen brindar asistencia de lectura a través de voces que suenan naturales, permitir un alcance global para los creadores al traducir contenido mientras se preservan los acentos nativos, apoyar a las personas no verbales con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después. condiciones que afectan el habla.

Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien podría clonarla efectivamente, y eso tiene implicaciones obvias para un posible uso indebido. Incluso si OpenAI nunca lanza ampliamente su motor de voz, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas en las que alguien imita la voz de un ser querido y llamadas automáticas de campañas electorales con voces clonadas de políticos como Joe Biden.

Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz se puede utilizar para acceder a cuentas bancarias que utilizan autenticación de voz (como el Voice ID de Chase), lo que llevó al senador Sherrod Brown (demócrata por Ohio), presidente del Senado de Estados Unidos. Comité de Banca, Vivienda y Asuntos Urbanos, enviará una carta a los directores ejecutivos de varios bancos importantes en mayo de 2023 para preguntar sobre las medidas de seguridad que están tomando los bancos para contrarrestar los riesgos impulsados ​​por la IA.



Source link-49