OpenAI creó una herramienta de clonación de voz, pero no puedes usarla… todavía


A medida que proliferan los deepfakes, OpenAI está perfeccionando la tecnología utilizada para clonar voces, pero la compañía insiste en que lo hace de manera responsable.

Hoy marca el debut preliminar de Voice Engine de OpenAI, una expansión de la API de conversión de texto a voz existente de la compañía. Voice Engine, que lleva aproximadamente dos años en desarrollo, permite a los usuarios cargar cualquier muestra de voz de 15 segundos para generar una copia sintética de esa voz. Pero aún no hay una fecha para la disponibilidad pública, lo que le da tiempo a la empresa para responder a cómo se usa y abusa del modelo.

«Queremos asegurarnos de que todos se sientan bien acerca de cómo se está implementando, que entendemos el panorama de dónde esta tecnología es peligrosa y tenemos medidas de mitigación para ello», dijo Jeff Harris, miembro del personal de producto de OpenAI. TechCrunch en una entrevista.

Entrenando el modelo

El modelo de IA generativa que impulsa Voice Engine ha estado oculto a la vista durante algún tiempo, dijo Harris.

El mismo modelo sustenta las capacidades de voz y “lectura en voz alta” en ChatGPT, el chatbot impulsado por IA de OpenAI, así como las voces preestablecidas disponibles en la API de texto a voz de OpenAI. Y Spotify lo ha estado usando desde principios de septiembre para doblar podcasts para presentadores de alto perfil como Lex Fridman en diferentes idiomas.

Le pregunté a Harris de dónde procedían los datos de entrenamiento del modelo; un tema un poco delicado. Solo diría que el modelo Voice Engine se entrenó con una combinación de datos con licencia y disponibles públicamente.

Los modelos como el que impulsa Voice Engine se entrenan con una enorme cantidad de ejemplos (en este caso, grabaciones de voz) generalmente provenientes de sitios públicos y conjuntos de datos en la web. muchos generativos Los proveedores de IA ven los datos de entrenamiento como una ventaja competitiva y, por lo tanto, los mantienen junto con la información correspondiente cerca del cofre. Pero los detalles de los datos de capacitación también son una fuente potencial de demandas relacionadas con la propiedad intelectual, otro desincentivo para revelar mucho.

OpenAI es ya estando demandado Por acusaciones de que la empresa violó la ley de propiedad intelectual al entrenar su IA en contenido protegido por derechos de autor, incluidas fotografías, obras de arte, códigos, artículos y libros electrónicos, sin proporcionar crédito o pago a los creadores o propietarios.

OpenAI tiene acuerdos de licencia con algunos proveedores de contenido, como Shutterstock y el editor de noticias Axel Springer, y permite a los webmasters impedir que su rastreador web rastree su sitio en busca de datos de capacitación. OpenAI también permite a los artistas “optar por no participar” y eliminar su trabajo de los conjuntos de datos que la empresa utiliza para entrenar sus modelos de generación de imágenes, incluido su último DALL-E 3.

Pero OpenAI no ofrece ningún esquema de exclusión voluntaria para sus otros productos. Y en una declaración reciente ante la Cámara de los Lores del Reino Unido, OpenAI sugirió que es “imposible” crear modelos de IA útiles sin material protegido por derechos de autor, afirmando que el uso justo (la doctrina legal que permite el uso de obras protegidas por derechos de autor para realizar una creación secundaria como siempre que sea transformador, lo protege en lo que respecta al entrenamiento de modelos.

Sintetizando voz

Sorprendentemente, motor de voz no es entrenados o ajustados en los datos del usuario. Esto se debe en parte a la forma efímera en que el modelo (una combinación de proceso de difusión y transformador) genera el habla.

«Tomamos una pequeña muestra de audio y texto y generamos un discurso realista que coincide con el hablante original», dijo Harris. «El audio que se utiliza se elimina una vez completada la solicitud».

Como lo explicó, el modelo analiza simultáneamente los datos de voz que extrae y los datos de texto que deben leerse en voz alta, generando una voz coincidente sin tener que crear un modelo personalizado por hablante.

No es una tecnología novedosa. Varias empresas emergentes han ofrecido productos de clonación de voz durante años, desde ElevenLabs hasta Replica Studios, Papercup, Deepdub y Respeecher. También lo han hecho las grandes empresas tecnológicas como Amazon, Google y Microsoft (el último de los cuales, dicho sea de paso, es un importante inversor de OpenAI).

Harris afirmó que el enfoque de OpenAI ofrece un discurso general de mayor calidad.

También sabemos que su precio será agresivo. Aunque OpenAI eliminó el precio de Voice Engine de los materiales de marketing que publicó hoy, en los documentos vistos por TechCrunch, Voice Engine aparece con un costo de $15 por millón de caracteres, o ~162,500 palabras. Eso encajaría con el “Oliver Twist” de Dickens con un poco de espacio de sobra. (Una opción de calidad «HD» cuesta el doble, pero, de manera confusa, un portavoz de OpenAI le dijo a TechCrunch que no hay diferencia entre las voces HD y las que no son HD. Haga lo que quiera).

Eso se traduce en alrededor de 18 horas de audio, lo que hace que el precio esté algo por debajo de 1 dólar por hora. De hecho, es más barato que lo que cobra uno de los proveedores rivales más populares, ElevenLabs: 11 dólares por 100.000 caracteres al mes. Pero hace venir a expensas de cierta personalización.

Voice Engine no ofrece controles para ajustar el tono, el tono o la cadencia de una voz. De hecho, no ofrece cualquier perillas o diales de ajuste fino en este momento, aunque Harris señala que cualquier expresividad en la muestra de voz de 15 segundos se mantendrá a través de las generaciones posteriores (por ejemplo, si habla en un tono excitado, la voz sintética resultante sonará constantemente excitada) . Veremos cómo se compara la calidad de la lectura con otros modelos cuando se pueden comparar directamente.

El talento de voz como mercancía

Los salarios de los actores de voz en ZipRecruiter oscilan entre $ 12 y $ 79 por hora, mucho más caro que Voice Engine, incluso en el extremo inferior (los actores con agentes tendrán un precio mucho más alto por proyecto). Si se popularizara, la herramienta de OpenAI podría mercantilizar el trabajo de voz. Entonces, ¿dónde deja eso a los actores?

La industria del talento no sería tomada por sorpresa, exactamente: ha estado lidiando con la amenaza existencial de la IA generativa durante algún tiempo. A los actores de voz se les pide cada vez más que cedan los derechos de sus voces para que los clientes puedan utilizar la IA para generar versiones sintéticas que eventualmente podrían reemplazarlas. El trabajo de voz, particularmente el trabajo barato y de nivel básico, corre el riesgo de ser eliminado en favor del habla generada por IA.

Ahora, algunas plataformas de voz con IA están intentando lograr un equilibrio.

El año pasado, Replica Studios firmó un acuerdo algo polémico con SAG-AFTRA para crear y licenciar copias de las voces de los miembros del sindicato de artistas de los medios. Las organizaciones dijeron que el acuerdo establecía términos y condiciones justos y éticos para garantizar el consentimiento de los artistas mientras se negociaban los términos para el uso de voces sintéticas en nuevas obras, incluidos los videojuegos.

Mientras tanto, ElevenLabs alberga un mercado de voces sintéticas que permite a los usuarios crear una voz, verificarla y compartirla públicamente. Cuando otros usan una voz, los creadores originales reciben una compensación: una cantidad fija en dólares por cada 1.000 caracteres.

OpenAI no establecerá tales acuerdos o mercados sindicales, al menos no en el corto plazo, y solo exige que los usuarios obtengan un “consentimiento explícito” de las personas cuyas voces se clonan, hagan “revelaciones claras” que indiquen qué voces son generadas por IA y se comprometen a no utilizar las voces de menores de edad, personas fallecidas o figuras políticas de sus generaciones.

«Cómo esto se cruza con la economía de los actores de doblaje es algo que estamos observando de cerca y sobre lo que tenemos mucha curiosidad», dijo Harris. “Creo que habrá muchas oportunidades para ampliar tu alcance como actor de doblaje a través de este tipo de tecnología. Pero todo esto es algo que vamos a aprender a medida que la gente implemente y juegue un poco con la tecnología”.

Ética y deepfakes

Las aplicaciones de clonación de voz pueden ser (y han sido) abusadas de maneras que van mucho más allá de amenazar los medios de vida de los actores.

El infame foro de mensajes 4chan, conocido por su contenido conspirativo, utilizó la plataforma de ElevenLabs para compartir mensajes de odio imitando a celebridades como Emma Watson. James Vincent, de The Verge, pudo utilizar herramientas de inteligencia artificial para clonar voces de manera maliciosa y rápida, generando muestras que contenían de todo, desde amenazas violentas hasta comentarios racistas y transfóbicos. Y en Vice, el periodista Joseph Cox documentó la generación de un clon de voz lo suficientemente convincente como para engañar al sistema de autenticación de un banco.

Se teme que los malos actores intenten influir en las elecciones mediante la clonación de voces. Y no son infundadas: en enero, una campaña telefónica empleó a un presidente Biden falsificado para disuadir a los ciudadanos de New Hampshire de votar, lo que llevó a la FCC a tomar medidas para ilegalizar futuras campañas de este tipo.

Entonces, además de prohibir los deepfakes a nivel de políticas, ¿qué medidas está tomando OpenAI, si las hubiera, para evitar que se haga un mal uso de Voice Engine? Harris mencionó algunos.

En primer lugar, Voice Engine solo está disponible para un grupo excepcionalmente pequeño de desarrolladores (alrededor de 10) para empezar. OpenAI está dando prioridad a casos de uso que son de “bajo riesgo” y “socialmente beneficiosos”, dice Harris, como los de atención médica y accesibilidad, además de experimentar con medios sintéticos “responsables”.

Algunos de los primeros en adoptar Voice Engine incluyen Age of Learning, una empresa de tecnología educativa que utiliza la herramienta para generar voces en off de actores previamente elegidos, y HeyGen, una aplicación de narración que aprovecha Voice Engine para la traducción. Livox y Lifespan están utilizando Voice Engine para crear voces para personas con discapacidades y problemas del habla, y Dimagi está creando una herramienta basada en Voice Engine para brindar retroalimentación a los trabajadores de la salud en sus idiomas principales.

Aquí hay voces generadas por Lifespan:


Y aquí hay uno de Livox:

En segundo lugar, los clones creados con Voice Engine tienen marcas de agua utilizando una técnica desarrollada por OpenAI que incorpora identificadores inaudibles en las grabaciones. (Otros proveedores, incluidos Resemble AI y Microsoft, emplean marcas de agua similares). Harris no prometió que no habrá formas de eludir la marca de agua, pero la describió como «resistente a manipulaciones».

«Si hay un clip de audio, es muy fácil para nosotros mirar ese clip y determinar que fue generado por nuestro sistema y el desarrollador que realmente creó esa generación», Harris dicho. “Hasta ahora, no es de código abierto; por ahora lo tenemos internamente. Tenemos curiosidad por ponerlo a disposición del público, pero obviamente, eso conlleva riesgos adicionales en términos de exposición y ruptura”.

En tercer lugar, OpenAI planea proporcionar a los miembros de su red de equipos rojos, un grupo contratado de expertos que ayudan a informar las estrategias de mitigación y evaluación de riesgos del modelo de IA de la compañía, acceso a Voice Engine para detectar usos maliciosos.

Algunos expertos argumentan que los equipos rojos de IA no son lo suficientemente exhaustivos y que corresponde a los proveedores desarrollar herramientas para defenderse de los daños que su IA podría causar. OpenAI no va tan lejos con Voice Engine, pero Harris afirma que el «principio principal» de la empresa es lanzar la tecnología de forma segura.

Liberación General

Dependiendo de cómo vaya la vista previa y la recepción pública de Voice Engine, OpenAI podría lanzar la herramienta a su base de desarrolladores más amplia, pero en la actualidad, la compañía se muestra reacia a comprometerse con algo concreto.

harris hizo Sin embargo, eche un vistazo a la hoja de ruta de Voice Engine, que revela que OpenAI está probando un mecanismo de seguridad que hace que los usuarios lean texto generado aleatoriamente como prueba de que están presentes y son conscientes de cómo se utiliza su voz. Esto podría darle a OpenAI la confianza que necesita para llevar Voice Engine a más personas, dijo Harris, o podría ser solo el comienzo.

«Lo que nos seguirá impulsando hacia adelante en términos de la tecnología de comparación de voz real realmente dependerá de lo que aprendamos del piloto, los problemas de seguridad que se descubran y las mitigaciones que tengamos implementadas», dijo. «No queremos que la gente se confunda entre voces artificiales y voces humanas reales».

Y en ese último punto podemos estar de acuerdo.



Source link-48