El modelo de IA de clonación de voz de OpenAI solo necesita una muestra de 15 segundos para funcionar


OpenAI ofrece acceso limitado a una plataforma de generación de texto a voz que desarrolló llamada Voice Engine, que puede crear una voz sintética basada en un clip de 15 segundos de la voz de alguien. La voz generada por IA puede leer indicaciones de texto cuando se le ordena en el mismo idioma que el hablante o en varios otros idiomas. «Estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en varias industrias», OpenAI. dijo en su publicación de blog.

Las empresas con acceso incluyen la empresa de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, el fabricante de software de salud de primera línea Dimagi, el creador de aplicaciones de comunicación de inteligencia artificial Livox y el sistema de salud Lifespan.

En estos ejemplos publicados por OpenAI, puedes escuchar lo que Era del aprendizaje ha estado haciendo con la tecnología para generar contenido de voz en off preguionado, además de leer en voz alta “respuestas personalizadas en tiempo real” a los estudiantes escritas por GPT-4.

Primero, el audio de referencia en inglés:

Y aquí hay tres clips de audio generados por IA basados ​​en esa muestra,

OpenAI dijo que comenzó a desarrollar Voice Engine a fines de 2022 y que la tecnología ya ha impulsado voces preestablecidas para la API de texto a voz y Función de lectura en voz alta de ChatGPT. En una entrevista con TechCrunch, Jeff Harris, miembro del equipo de productos de OpenAI para Voice Engine, dijo que el modelo fue entrenado en «una combinación de datos con licencia y disponibles públicamente». OpenAI dijo a la publicación que el modelo sólo estará disponible para unos 10 desarrolladores.

La generación de texto a audio con IA es un área de la IA generativa que continúa evolucionando. Si bien la mayoría se centra en sonidos instrumentales o naturales, menos se han centrado en la generación de voz, en parte debido a las preguntas citadas por OpenAI. Algunos nombres en el espacio incluyen empresas como Podcastle y ElevenLabs, que proporcionan tecnología de clonación de voz mediante IA y herramientas el Vergecast explorado el año pasado.

Según OpenAI, sus socios acordaron cumplir con sus políticas de uso que dicen que no utilizarán Voice Generation para hacerse pasar por personas u organizaciones sin su consentimiento. También requiere que los socios obtengan el “consentimiento explícito e informado” del hablante original, no creen formas para que los usuarios individuales creen sus propias voces y revelen a los oyentes que las voces son generadas por IA. OpenAI también agregó marca de agua a los clips de audio para rastrear su origen y monitorear activamente cómo se usa el audio.

OpenAI sugirió varios pasos que cree que podrían limitar los riesgos en torno a herramientas como estas, incluida la eliminación gradual de la autenticación basada en voz para acceder a cuentas bancarias, políticas para proteger el uso de las voces de las personas en la IA, una mayor educación sobre los deepfakes de IA y el desarrollo de sistemas de seguimiento. de contenido de IA.



Source link-37