OpenAI dice que puede clonar una voz con solo 15 segundos de audio


OpenAI acaba de anunciar una nueva herramienta llamada Voice Engine. Se trata de una tecnología de clonación de voz que puede imitar a cualquier hablante analizando una muestra de audio de 15 segundos. La compañía dice que genera «un discurso que suena natural» con «voces emotivas y realistas».

La tecnología se basa en la de la empresa y ha estado en desarrollo desde 2022. OpenAI ya ha estado utilizando una versión del conjunto de herramientas para potenciar las voces preestablecidas disponibles en la API actual de texto a voz y la función Leer en voz alta. Hay un montón de muestras en el blog oficial de la compañía y suenan inquietantemente cercanas a las reales. Te animo a que los escuches e imagines las posibilidades, tanto buenas como malas.

OpenAI dice que considera que esta tecnología es útil para ayudar a leer, traducir idiomas y ayudar a quienes sufren condiciones del habla repentinas o degenerativas. La compañía presentó una solución que ayudó a un paciente con problemas de habla mediante la creación de un clon de Voice Engine extraído del audio grabado para un proyecto escolar.

A pesar de los beneficios potenciales, los malos actores ciertamente abusarían de esta tecnología para participar en algunas tonterías graves y falsas. Con esto en mente, Voice Engine no está listo para el horario de máxima audiencia, ya que existen serias preocupaciones de privacidad que deben resolverse antes de un lanzamiento completo.

OpenAI reconoce que esta tecnología tiene «graves riesgos, que son especialmente importantes en un año electoral». La compañía dice que está incorporando comentarios de “socios estadounidenses e internacionales de todo el gobierno, los medios, el entretenimiento, la educación, la sociedad civil y más” para garantizar que el producto se lance con una cantidad mínima de riesgo. Todos los evaluadores de la versión preliminar aceptaron las políticas de uso de OpenAI, que prohíben la suplantación de otra persona sin consentimiento o derecho legal.

Además, cualquiera que utilice la tecnología deberá revelar a su audiencia que las voces están generadas por IA. OpenAI implementó medidas de seguridad, como marcas de agua para rastrear el origen de cualquier audio y un «monitoreo proactivo» de cómo se utiliza el sistema. Cuando el producto se lance oficialmente, habrá una “lista de voces prohibidas” que detecta y previene a los oradores generados por IA que son demasiado similares a figuras prominentes.

En cuanto a cuándo se producirá ese lanzamiento, OpenAI se mantiene en silencio. TechCrunch y parece que se socavará. Voice Engine podría costar 15 dólares por millón de caracteres, lo que equivale a unas 162.500 palabras. Esto es aproximadamente la duración de Stephen King. el resplandor. Ciertamente parece una forma económica de hacer un audiolibro. Los materiales de marketing también hacen referencia a una versión «HD» que cuesta el doble, pero la empresa no ha detallado cómo funcionará.

OpenAI ha dado grandes pasos esta semana. Acaba de anunciar otra asociación con su mejor amigo Microsoft para construir una supercomputadora basada en inteligencia artificial llamada «Stargate». Según se informa, el proyecto costará la friolera de 100 mil millones de dólares, .

Este artículo contiene enlaces de afiliados; Si hace clic en dicho enlace y realiza una compra, podemos ganar una comisión.



Source link-47