Clonación – Magazine Office

Truecaller se asocia con Microsoft para presentar una función de clonación de voz para responder llamadas utilizando la voz personal de Azure AI

John — Fri, 24 May 2024 15:23:12 +0000

Truecaller es una empresa de identificación de llamadas que se asoció recientemente con Microsoft para brindar una experiencia verdaderamente personalizada a sus usuarios con la ayuda de un asistente de inteligencia artificial. La compañía utilizará Azure AI de Microsoft para crear un clon digital de la voz del usuario para ayudar a volver a realizar llamadas utilizando la versión de la voz generada por AI. Esta nueva función de voz personalizada nos da otra idea de los avances de la IA y el papel que desempeñará en la forma en que nos comunicamos.

Con la ayuda de Azure AI de Microsoft, Truecaller está decidido a ofrecer una nueva función que permite a los usuarios crear una versión AI de su propia voz para responder llamadas.

Truecaller incorporó una función de asistente de IA anteriormente en 2022 que tenía la capacidad de responder llamadas automáticamente y filtrarlas en nombre del usuario con un conjunto determinado de voces para elegir. Sin embargo, con la nueva asociación, la empresa va un paso más allá y ofrece una mayor personalización con la ayuda de una versión de voz digital del usuario. La voz replicada la crea el asistente de IA utilizando uno de los clips grabados del usuario.

Con la ayuda de la integración de IA, Truecaller está decidido a mejorar la experiencia del usuario no solo en términos de experiencia de voz personalizada, sino también filtrando llamadas y detectando spam. El asistente de voz haría preguntas y luego le informaría al usuario si se debe responder la llamada. Luego, el usuario tiene la autonomía para responder la llamada él mismo o hacer que el Asistente de IA la atienda.

En la publicación del blog de Microsoft, el director de producto y gerente general de Truecaller, Raphael Mimoun, compartió sus pensamientos sobre la característica avanzada que pretende presentar:

La función de voz personal permite a nuestros usuarios usar su propia voz, lo que permite que el asistente digital suene igual que ellos al atender llamadas entrantes. Esta capacidad innovadora no sólo añade un toque de familiaridad y comodidad para los usuarios, sino que también muestra el poder de la IA para transformar la forma en que interactuamos con nuestros asistentes digitales.

Microsoft mostró por primera vez la función mejorada de Azure AI Speech, Personal Voice, durante la Build Conference. Esta función puede crear una versión de IA replicada de la voz del usuario, que se puede utilizar dentro de las aplicaciones. Sin embargo, esta función personalizada actualmente solo se limita a casos de uso específicos, como asistentes de voz, traducción de voz o incluso creación de contenido. Puede ver la demostración de la función a continuación:

Microsoft declaró en una publicación de blog que las marcas de agua se agregan automáticamente a la voz creada a través de Personal Voice de AI Azure. Incluso proporcionó un código de conducta para garantizar el cumplimiento de su compromiso de promover una IA responsable.

Source link-29

Entrenador de Baltimore acusado de utilizar clonación de voz mediante IA para intentar despedir al director de una escuela secundaria

John — Thu, 25 Apr 2024 21:28:35 +0000

Un exdirector deportivo de una escuela secundaria de Baltimore ha sido arrestado y acusado de utilizando un servicio de clonación de voz de IA para incriminar al director de la escuela.

La bandera de Baltimore informes que la policía de Baltimore cree que una supuesta grabación del director de la escuela secundaria de Pikesville, Eric Eiswert, haciendo comentarios racistas y antisemitas era falsa. Los expertos dijeron La bandera de Baltimore y a la policía de Baltimore que la grabación, que circuló a través de las redes sociales en enero y resultó brevemente en la suspensión de Eiswert, tiene un «tono plano, sonidos de fondo inusualmente limpios y falta de pausas o sonidos respiratorios consistentes».

La policía de Baltimore rastreó la grabación hasta Dazhon Darien, un exdirector deportivo de la escuela cuyo nombre también se menciona en el clip de audio. Supuestamente accedió a las computadoras de la escuela para buscar «herramientas OpenAI». No está claro qué plataforma de voz de IA supuestamente utilizó Darien.

En este ambiente tenso, OpenAI decidió en marzo retener su plataforma de generación de texto a voz con IA, Voice Engine, de uso público. El servicio, que sólo requiere un clip de audio de 15 minutos para clonar la voz de alguien, sólo está disponible para un número limitado de investigadores debido a la falta de barreras de seguridad en torno a la tecnología.

Los legisladores estadounidenses han presentado, pero aún no han aprobado, varios proyectos de ley como la ley contra las falsificaciones y la Ley contra el fraude de IA que buscan evitar que las empresas de tecnología utilicen el rostro, la voz o el nombre de una persona sin su permiso.

Source link-37

Los actores de Baldur’s Gate 3 revelan el lado más oscuro del éxito impulsado por la clonación de voces de IA

John — Mon, 15 Apr 2024 23:23:19 +0000

Baldur’s Gate 3 de Larian ha sido celebrado por las actuaciones de su elenco de voces, que recibió varias nominaciones para los premios BAFTA de este año y que anoche ganó el codiciado premio al Mejor Juego.

Sin embargo, en la alfombra roja, los actores del juego detallaron el lado más oscuro de su éxito gracias al auge de la IA y la clonación de voces.

Amelia Tyler, nominada a mejor interpretación por su interpretación de la narradora de Baldur’s Gate 3, habló con franqueza con Eurogamer sobre una transmisión particularmente desgarradora.

Baldur’s Gate 3 PS5 – ¡Consejos y trucos para comenzar! Ver en YouTube

«La gente ha estado recreando mi voz en la parte posterior de este juego en IA sin mi permiso y el de varios otros actores del juego», dijo. «Para que todos sepan, ninguno de nosotros ha dado permiso para que eso suceda. A menos que haya firmado algo que diga que se le permite hacer eso, eso no solo me está robando mi trabajo sino también mi identidad.

«He tenido algunas experiencias realmente malas, como ingresar a la transmisión de alguien donde colocaron texto a voz y le dieron el control del chat», continuó. «Entré a esta transmisión porque alguien me avisó y seguí y escuché mi propia voz leyendo pornografía sobre violaciones. Ese es el nivel de cosas con las que hemos tenido que lidiar desde que salió este juego y ha sido horrible, honestamente. «.

Tyler agregó que le encantaría ver a los jugadores grabar sus propias versiones de las líneas del narrador – «Me encantan los mods en los juegos», dijo – pero dijo «tomar mi voz y usarla para entrenar algo sin mi permiso, creo que debería ser ilegal».

Andrew Wincott, quien ganó el premio a la mejor interpretación secundaria por interpretar a Raphael, entendió algunos de los beneficios de usar IA, como grabar durante 10 horas para crear 40 horas de producto. «Y me pareció genial», dijo, «¡siempre y cuando me pagues 40!»

Wincott dijo que «felicita» a sindicatos como Equity y SAG-AFTRA por tratar de proteger los derechos de los actores contra la IA, pero advirtió: «Si vas a firmar algo, eso significa que estás renunciando a los derechos de tu voz, Ten mucho cuidado y asegúrate de que la remuneración sea significativa porque así se acabó tu carrera».

Samantha Béart, nominada por su interpretación de Karlach, dijo que estaba «bastante decepcionada» por el último acuerdo de SAG-AFTRA (al igual que otros actores), y añadió: «Había muchas cosas sobre la mesa y parece que arrojaron muchas cosas de actores menos glamorosos debajo del autobús porque obtuvieron lo que querían para los actores más visibles. Nos gustaría más protección». Tracy Wiles, nominada por su interpretación de Jaheira, señaló que los contratos estaban tardando más gracias a la adición de nuevas cláusulas de IA, pero esto sólo se debía a que intervino su propio agente.

Neil Newbon, nominado por su interpretación de Astarion, dijo que cree que la IA no debería utilizarse para la actuación de voz porque «no se captan los matices, no se captan los accidentes felices, no se capta la interacción entre los director y el actor de la misma manera». Continuó: «Conozco a mucha gente en la industria de los juegos a la que le gustaría trabajar con un actor por lo que aportamos, el oficio que aportamos. No creo que se pueda programar el oficio. Es algo más allá de ceros y unos. más allá de la fórmula. Es bastante mágico.»

Otros actores también hablaron sobre el tema de la IA.

David Harewood, quien interpretó a Warlin Door en Alan Wake 2 y es el nuevo presidente de la escuela de teatro RADA, dijo que la IA era una preocupación para todos los involucrados en la actuación. «Es una gran amenaza y tenemos que encontrar una manera de hacer que mejore nuestra profesión en lugar de reemplazarla», afirmó. «No creo que sea así. Somos individuos únicos y no creo que una computadora pueda reemplazar realmente las peculiaridades de cada persona.

«Pero ciertamente creo que los estudios, si pueden salirse con la suya, harán todo lo posible para ganar tanto dinero como puedan y al mismo tiempo sacar a mucha gente del negocio. Debemos luchar para que nunca sucede.»

Los actores de Final Fantasy 16 Ben Starr, que entregó un premio, y Ralph Ineson, nominado por su interpretación del Cid, sumaron su preocupación.

«Creo que, lamentablemente, nos encontramos en un escenario en el que la IA avanza tan increíblemente rápido que estamos viendo avances casi de la noche a la mañana de los que no creo que ningún sindicato pueda protegerse adecuadamente», dijo Starr. «Espero que nos tenga en cuenta. Creo que ha sido una ocurrencia tardía, eso es lo que se siente. Parece que la IA es algo que tiene enormes beneficios para la industria de los videojuegos, para la industria del cine, ha existido durante mucho tiempo. mucho tiempo, pero a un costo bastante severo».

Para Ineson, recientemente grabó una sesión de reemplazo de diálogos para una película en la que ya se había utilizado una IA para replicar su voz – «parece que estoy haciendo una actuación realmente mala», dijo – antes de grabar la versión real. «Es bastante aterrador que eventualmente puedan perfeccionarlo para que funcione», dijo. «Así que, habiéndolo visto en sus etapas de formación, es bastante aterrador verlo».

Los actores con los que habló Eurogamer en los premios BAFTA del año pasado también expresaron escepticismo hacia la IA. Parece que el sentimiento ha cambiado poco durante el último año, a pesar de que, en el Reino Unido, los actores y Equity trabajan juntos para lograr una mejor protección contra la IA.

Baldur’s Gate 3 ganó cinco premios en la ceremonia BAFTA de anoche, incluyendo Mejor Juego, Narrativa, Música, el premio EE Player’s Choice y Wincott’s Performer in a Supporting Role.

Source link-11

OpenAI creó una herramienta de clonación de voz, pero no puedes usarla… todavía

John — Sat, 30 Mar 2024 12:27:53 +0000

A medida que proliferan los deepfakes, OpenAI está perfeccionando la tecnología utilizada para clonar voces, pero la compañía insiste en que lo hace de manera responsable.

Hoy marca el debut preliminar de Voice Engine de OpenAI, una expansión de la API de conversión de texto a voz existente de la compañía. Voice Engine, que lleva aproximadamente dos años en desarrollo, permite a los usuarios cargar cualquier muestra de voz de 15 segundos para generar una copia sintética de esa voz. Pero aún no hay una fecha para la disponibilidad pública, lo que le da tiempo a la empresa para responder a cómo se usa y abusa del modelo.

«Queremos asegurarnos de que todos se sientan bien acerca de cómo se está implementando, que entendemos el panorama de dónde esta tecnología es peligrosa y tenemos medidas de mitigación para ello», dijo Jeff Harris, miembro del personal de producto de OpenAI. TechCrunch en una entrevista.

Entrenando el modelo

El modelo de IA generativa que impulsa Voice Engine ha estado oculto a la vista durante algún tiempo, dijo Harris.

El mismo modelo sustenta las capacidades de voz y “lectura en voz alta” en ChatGPT, el chatbot impulsado por IA de OpenAI, así como las voces preestablecidas disponibles en la API de texto a voz de OpenAI. Y Spotify lo ha estado usando desde principios de septiembre para doblar podcasts para presentadores de alto perfil como Lex Fridman en diferentes idiomas.

Le pregunté a Harris de dónde procedían los datos de entrenamiento del modelo; un tema un poco delicado. Solo diría que el modelo Voice Engine se entrenó con una combinación de datos con licencia y disponibles públicamente.

Los modelos como el que impulsa Voice Engine se entrenan con una enorme cantidad de ejemplos (en este caso, grabaciones de voz) generalmente provenientes de sitios públicos y conjuntos de datos en la web. muchos generativos Los proveedores de IA ven los datos de entrenamiento como una ventaja competitiva y, por lo tanto, los mantienen junto con la información correspondiente cerca del cofre. Pero los detalles de los datos de capacitación también son una fuente potencial de demandas relacionadas con la propiedad intelectual, otro desincentivo para revelar mucho.

OpenAI es ya estando demandado Por acusaciones de que la empresa violó la ley de propiedad intelectual al entrenar su IA en contenido protegido por derechos de autor, incluidas fotografías, obras de arte, códigos, artículos y libros electrónicos, sin proporcionar crédito o pago a los creadores o propietarios.

OpenAI tiene acuerdos de licencia con algunos proveedores de contenido, como Shutterstock y el editor de noticias Axel Springer, y permite a los webmasters impedir que su rastreador web rastree su sitio en busca de datos de capacitación. OpenAI también permite a los artistas “optar por no participar” y eliminar su trabajo de los conjuntos de datos que la empresa utiliza para entrenar sus modelos de generación de imágenes, incluido su último DALL-E 3.

Pero OpenAI no ofrece ningún esquema de exclusión voluntaria para sus otros productos. Y en una declaración reciente ante la Cámara de los Lores del Reino Unido, OpenAI sugirió que es “imposible” crear modelos de IA útiles sin material protegido por derechos de autor, afirmando que el uso justo (la doctrina legal que permite el uso de obras protegidas por derechos de autor para realizar una creación secundaria como siempre que sea transformador, lo protege en lo que respecta al entrenamiento de modelos.

Sintetizando voz

Sorprendentemente, motor de voz no es entrenados o ajustados en los datos del usuario. Esto se debe en parte a la forma efímera en que el modelo (una combinación de proceso de difusión y transformador) genera el habla.

«Tomamos una pequeña muestra de audio y texto y generamos un discurso realista que coincide con el hablante original», dijo Harris. «El audio que se utiliza se elimina una vez completada la solicitud».

Como lo explicó, el modelo analiza simultáneamente los datos de voz que extrae y los datos de texto que deben leerse en voz alta, generando una voz coincidente sin tener que crear un modelo personalizado por hablante.

No es una tecnología novedosa. Varias empresas emergentes han ofrecido productos de clonación de voz durante años, desde ElevenLabs hasta Replica Studios, Papercup, Deepdub y Respeecher. También lo han hecho las grandes empresas tecnológicas como Amazon, Google y Microsoft (el último de los cuales, dicho sea de paso, es un importante inversor de OpenAI).

Harris afirmó que el enfoque de OpenAI ofrece un discurso general de mayor calidad.

También sabemos que su precio será agresivo. Aunque OpenAI eliminó el precio de Voice Engine de los materiales de marketing que publicó hoy, en los documentos vistos por TechCrunch, Voice Engine aparece con un costo de $15 por millón de caracteres, o ~162,500 palabras. Eso encajaría con el “Oliver Twist” de Dickens con un poco de espacio de sobra. (Una opción de calidad «HD» cuesta el doble, pero, de manera confusa, un portavoz de OpenAI le dijo a TechCrunch que no hay diferencia entre las voces HD y las que no son HD. Haga lo que quiera).

Eso se traduce en alrededor de 18 horas de audio, lo que hace que el precio esté algo por debajo de 1 dólar por hora. De hecho, es más barato que lo que cobra uno de los proveedores rivales más populares, ElevenLabs: 11 dólares por 100.000 caracteres al mes. Pero hace venir a expensas de cierta personalización.

Voice Engine no ofrece controles para ajustar el tono, el tono o la cadencia de una voz. De hecho, no ofrece cualquier perillas o diales de ajuste fino en este momento, aunque Harris señala que cualquier expresividad en la muestra de voz de 15 segundos se mantendrá a través de las generaciones posteriores (por ejemplo, si habla en un tono excitado, la voz sintética resultante sonará constantemente excitada) . Veremos cómo se compara la calidad de la lectura con otros modelos cuando se pueden comparar directamente.

El talento de voz como mercancía

Los salarios de los actores de voz en ZipRecruiter oscilan entre $ 12 y $ 79 por hora, mucho más caro que Voice Engine, incluso en el extremo inferior (los actores con agentes tendrán un precio mucho más alto por proyecto). Si se popularizara, la herramienta de OpenAI podría mercantilizar el trabajo de voz. Entonces, ¿dónde deja eso a los actores?

La industria del talento no sería tomada por sorpresa, exactamente: ha estado lidiando con la amenaza existencial de la IA generativa durante algún tiempo. A los actores de voz se les pide cada vez más que cedan los derechos de sus voces para que los clientes puedan utilizar la IA para generar versiones sintéticas que eventualmente podrían reemplazarlas. El trabajo de voz, particularmente el trabajo barato y de nivel básico, corre el riesgo de ser eliminado en favor del habla generada por IA.

Ahora, algunas plataformas de voz con IA están intentando lograr un equilibrio.

El año pasado, Replica Studios firmó un acuerdo algo polémico con SAG-AFTRA para crear y licenciar copias de las voces de los miembros del sindicato de artistas de los medios. Las organizaciones dijeron que el acuerdo establecía términos y condiciones justos y éticos para garantizar el consentimiento de los artistas mientras se negociaban los términos para el uso de voces sintéticas en nuevas obras, incluidos los videojuegos.

Mientras tanto, ElevenLabs alberga un mercado de voces sintéticas que permite a los usuarios crear una voz, verificarla y compartirla públicamente. Cuando otros usan una voz, los creadores originales reciben una compensación: una cantidad fija en dólares por cada 1.000 caracteres.

OpenAI no establecerá tales acuerdos o mercados sindicales, al menos no en el corto plazo, y solo exige que los usuarios obtengan un “consentimiento explícito” de las personas cuyas voces se clonan, hagan “revelaciones claras” que indiquen qué voces son generadas por IA y se comprometen a no utilizar las voces de menores de edad, personas fallecidas o figuras políticas de sus generaciones.

«Cómo esto se cruza con la economía de los actores de doblaje es algo que estamos observando de cerca y sobre lo que tenemos mucha curiosidad», dijo Harris. “Creo que habrá muchas oportunidades para ampliar tu alcance como actor de doblaje a través de este tipo de tecnología. Pero todo esto es algo que vamos a aprender a medida que la gente implemente y juegue un poco con la tecnología”.

Ética y deepfakes

Las aplicaciones de clonación de voz pueden ser (y han sido) abusadas de maneras que van mucho más allá de amenazar los medios de vida de los actores.

El infame foro de mensajes 4chan, conocido por su contenido conspirativo, utilizó la plataforma de ElevenLabs para compartir mensajes de odio imitando a celebridades como Emma Watson. James Vincent, de The Verge, pudo utilizar herramientas de inteligencia artificial para clonar voces de manera maliciosa y rápida, generando muestras que contenían de todo, desde amenazas violentas hasta comentarios racistas y transfóbicos. Y en Vice, el periodista Joseph Cox documentó la generación de un clon de voz lo suficientemente convincente como para engañar al sistema de autenticación de un banco.

Se teme que los malos actores intenten influir en las elecciones mediante la clonación de voces. Y no son infundadas: en enero, una campaña telefónica empleó a un presidente Biden falsificado para disuadir a los ciudadanos de New Hampshire de votar, lo que llevó a la FCC a tomar medidas para ilegalizar futuras campañas de este tipo.

Entonces, además de prohibir los deepfakes a nivel de políticas, ¿qué medidas está tomando OpenAI, si las hubiera, para evitar que se haga un mal uso de Voice Engine? Harris mencionó algunos.

En primer lugar, Voice Engine solo está disponible para un grupo excepcionalmente pequeño de desarrolladores (alrededor de 10) para empezar. OpenAI está dando prioridad a casos de uso que son de “bajo riesgo” y “socialmente beneficiosos”, dice Harris, como los de atención médica y accesibilidad, además de experimentar con medios sintéticos “responsables”.

Algunos de los primeros en adoptar Voice Engine incluyen Age of Learning, una empresa de tecnología educativa que utiliza la herramienta para generar voces en off de actores previamente elegidos, y HeyGen, una aplicación de narración que aprovecha Voice Engine para la traducción. Livox y Lifespan están utilizando Voice Engine para crear voces para personas con discapacidades y problemas del habla, y Dimagi está creando una herramienta basada en Voice Engine para brindar retroalimentación a los trabajadores de la salud en sus idiomas principales.

Aquí hay voces generadas por Lifespan:

https://techcrunch.com/wp-content/uploads/2024/03/lifespan_generación_ordering.mp3

https://techcrunch.com/wp-content/uploads/2024/03/lifespan_generación_talking.mp3

Y aquí hay uno de Livox:

https://techcrunch.com/wp-content/uploads/2024/03/livox_generación_english.mp3

En segundo lugar, los clones creados con Voice Engine tienen marcas de agua utilizando una técnica desarrollada por OpenAI que incorpora identificadores inaudibles en las grabaciones. (Otros proveedores, incluidos Resemble AI y Microsoft, emplean marcas de agua similares). Harris no prometió que no habrá formas de eludir la marca de agua, pero la describió como «resistente a manipulaciones».

«Si hay un clip de audio, es muy fácil para nosotros mirar ese clip y determinar que fue generado por nuestro sistema y el desarrollador que realmente creó esa generación», Harris dicho. “Hasta ahora, no es de código abierto; por ahora lo tenemos internamente. Tenemos curiosidad por ponerlo a disposición del público, pero obviamente, eso conlleva riesgos adicionales en términos de exposición y ruptura”.

En tercer lugar, OpenAI planea proporcionar a los miembros de su red de equipos rojos, un grupo contratado de expertos que ayudan a informar las estrategias de mitigación y evaluación de riesgos del modelo de IA de la compañía, acceso a Voice Engine para detectar usos maliciosos.

Algunos expertos argumentan que los equipos rojos de IA no son lo suficientemente exhaustivos y que corresponde a los proveedores desarrollar herramientas para defenderse de los daños que su IA podría causar. OpenAI no va tan lejos con Voice Engine, pero Harris afirma que el «principio principal» de la empresa es lanzar la tecnología de forma segura.

Liberación General

Dependiendo de cómo vaya la vista previa y la recepción pública de Voice Engine, OpenAI podría lanzar la herramienta a su base de desarrolladores más amplia, pero en la actualidad, la compañía se muestra reacia a comprometerse con algo concreto.

harris hizo Sin embargo, eche un vistazo a la hoja de ruta de Voice Engine, que revela que OpenAI está probando un mecanismo de seguridad que hace que los usuarios lean texto generado aleatoriamente como prueba de que están presentes y son conscientes de cómo se utiliza su voz. Esto podría darle a OpenAI la confianza que necesita para llevar Voice Engine a más personas, dijo Harris, o podría ser solo el comienzo.

«Lo que nos seguirá impulsando hacia adelante en términos de la tecnología de comparación de voz real realmente dependerá de lo que aprendamos del piloto, los problemas de seguridad que se descubran y las mitigaciones que tengamos implementadas», dijo. «No queremos que la gente se confunda entre voces artificiales y voces humanas reales».

Y en ese último punto podemos estar de acuerdo.

Source link-48

OpenAI frena el lanzamiento generalizado de tecnología de clonación de voz debido a preocupaciones sobre su uso indebido

John — Sat, 30 Mar 2024 10:55:02 +0000

La síntesis de voz ha recorrido un largo camino desde el juguete Speak & Spell de 1978, que alguna vez cautivó a la gente con su capacidad de última generación para leer palabras en voz alta usando una voz electrónica. Ahora, utilizando modelos de inteligencia artificial de aprendizaje profundo, el software puede crear no solo voces que suenan realistas, sino también imitar de manera convincente voces existentes utilizando pequeñas muestras de audio.

En ese sentido, OpenAI acaba de anunciar Voice Engine, un modelo de inteligencia artificial de texto a voz para crear voces sintéticas basadas en un segmento de audio grabado de 15 segundos. Ha proporcionado muestras de audio del Voice Engine en acción en su sitio web.

Una vez que se clona una voz, un usuario puede ingresar texto en Voice Engine y obtener un resultado de voz generado por IA. Pero OpenAI aún no está listo para lanzar ampliamente su tecnología. Inicialmente, la compañía planeó lanzar un programa piloto para que los desarrolladores se registraran en la API Voice Engine a principios de este mes. Pero después de considerar más a fondo las implicaciones éticas, la empresa decidió reducir sus ambiciones por ahora.

«En línea con nuestro enfoque hacia la seguridad de la IA y nuestros compromisos voluntarios, estamos eligiendo una vista previa, pero no lanzar ampliamente esta tecnología en este momento», escribe la compañía. «Esperamos que esta vista previa de Voice Engine destaque su potencial y también motive la necesidad de reforzar la resiliencia de la sociedad frente a los desafíos que plantean modelos generativos cada vez más convincentes».

La tecnología de clonación de voz en general no es particularmente nueva: hemos cubierto varios modelos de síntesis de voz con IA desde 2022 y la tecnología está activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI esté avanzando poco a poco hacia permitir que cualquiera use su marca particular de tecnología de voz es notable. Y en cierto modo, la reticencia de la empresa a publicarlo en su totalidad podría ser la historia más importante.

OpenAI dice que los beneficios de su tecnología de voz incluyen brindar asistencia de lectura a través de voces que suenan naturales, permitir un alcance global para los creadores al traducir contenido mientras se preservan los acentos nativos, apoyar a las personas no verbales con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después. condiciones que afectan el habla.

Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien podría clonarla efectivamente, y eso tiene implicaciones obvias para un posible uso indebido. Incluso si OpenAI nunca lanza ampliamente su motor de voz, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas en las que alguien imita la voz de un ser querido y llamadas automáticas de campañas electorales con voces clonadas de políticos como Joe Biden.

Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz se puede utilizar para acceder a cuentas bancarias que utilizan autenticación de voz (como el Voice ID de Chase), lo que llevó al senador Sherrod Brown (demócrata por Ohio), presidente del Senado de Estados Unidos. Comité de Banca, Vivienda y Asuntos Urbanos, enviará una carta a los directores ejecutivos de varios bancos importantes en mayo de 2023 para preguntar sobre las medidas de seguridad que están tomando los bancos para contrarrestar los riesgos impulsados por la IA.

Source link-49

El modelo de IA de clonación de voz de OpenAI solo necesita una muestra de 15 segundos para funcionar

John — Sat, 30 Mar 2024 00:28:58 +0000

OpenAI ofrece acceso limitado a una plataforma de generación de texto a voz que desarrolló llamada Voice Engine, que puede crear una voz sintética basada en un clip de 15 segundos de la voz de alguien. La voz generada por IA puede leer indicaciones de texto cuando se le ordena en el mismo idioma que el hablante o en varios otros idiomas. «Estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en varias industrias», OpenAI. dijo en su publicación de blog.

Las empresas con acceso incluyen la empresa de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, el fabricante de software de salud de primera línea Dimagi, el creador de aplicaciones de comunicación de inteligencia artificial Livox y el sistema de salud Lifespan.

En estos ejemplos publicados por OpenAI, puedes escuchar lo que Era del aprendizaje ha estado haciendo con la tecnología para generar contenido de voz en off preguionado, además de leer en voz alta “respuestas personalizadas en tiempo real” a los estudiantes escritas por GPT-4.

Primero, el audio de referencia en inglés:

Y aquí hay tres clips de audio generados por IA basados en esa muestra,

OpenAI dijo que comenzó a desarrollar Voice Engine a fines de 2022 y que la tecnología ya ha impulsado voces preestablecidas para la API de texto a voz y Función de lectura en voz alta de ChatGPT. En una entrevista con TechCrunch, Jeff Harris, miembro del equipo de productos de OpenAI para Voice Engine, dijo que el modelo fue entrenado en «una combinación de datos con licencia y disponibles públicamente». OpenAI dijo a la publicación que el modelo sólo estará disponible para unos 10 desarrolladores.

La generación de texto a audio con IA es un área de la IA generativa que continúa evolucionando. Si bien la mayoría se centra en sonidos instrumentales o naturales, menos se han centrado en la generación de voz, en parte debido a las preguntas citadas por OpenAI. Algunos nombres en el espacio incluyen empresas como Podcastle y ElevenLabs, que proporcionan tecnología de clonación de voz mediante IA y herramientas el Vergecast explorado el año pasado.

Según OpenAI, sus socios acordaron cumplir con sus políticas de uso que dicen que no utilizarán Voice Generation para hacerse pasar por personas u organizaciones sin su consentimiento. También requiere que los socios obtengan el “consentimiento explícito e informado” del hablante original, no creen formas para que los usuarios individuales creen sus propias voces y revelen a los oyentes que las voces son generadas por IA. OpenAI también agregó marca de agua a los clips de audio para rastrear su origen y monitorear activamente cómo se usa el audio.

OpenAI sugirió varios pasos que cree que podrían limitar los riesgos en torno a herramientas como estas, incluida la eliminación gradual de la autenticación basada en voz para acceder a cuentas bancarias, políticas para proteger el uso de las voces de las personas en la IA, una mayor educación sobre los deepfakes de IA y el desarrollo de sistemas de seguimiento. de contenido de IA.

Source link-37

El reinicio de Road House de Amazon es acusado de infracción de derechos de autor y clonación de voz mediante IA

John — Wed, 28 Feb 2024 02:24:05 +0000

El guionista de la película de acción de 1989. Casa del camino está demandando a MGM Studios y a su propietario Amazon Studios, acusándolos de infracción de derechos de autor sobre el próximo Casa del camino rehacer, informar el Los Ángeles Times y El reportero de Hollywood. La demanda, presentada el martes en el Tribunal del Distrito Central de Estados Unidos en Los Ángeles, también alega que Amazon Studios recurrió a la IA generativa para clonar las voces de los actores con el fin de terminar la Casa del camino rehacer durante Las huelgas de Hollywood del año pasado.que paralizó en gran medida la producción cinematográfica.

En la denuncia, el guionista R. Lance Hill supuestamente afirma que presentó una petición ante la Oficina de Derechos de Autor de EE. UU. en noviembre de 2021 para reclamar los derechos del guión (que tanto el original Casa del camino y en el que se basa el reinicio de Amazon Studios). En ese momento, Amazon habría poseído los derechos de Casa del camino debido al gigante tecnológico adquisición de la filmoteca de MGMpero el reclamo del gigante tecnológico sobre el trabajo expiraba en noviembre de 2023.

Pero según THR, el acuerdo original de Hill con United Artists (que aseguró los derechos del guión de 1986 antes de ser adquirido posteriormente por MGM Studios) se define como un “trabajo hecho por encargo”. El término, según la Oficina de Derechos de Autor de EE. UU., significa que la parte que contrató a un individuo para crear una obra es a la vez el propietario y titular de los derechos de autor de ese trabajo.

Hill alega que la cláusula de trabajo por contrato era meramente repetitiva, y que Amazon ignoró sus reclamos de derechos de autor y apresuró la producción de la nueva versión, incluso tomando “medidas extremas”, como el uso de IA generativa. La demanda busca una orden judicial para bloquear el estreno de la película, cuyo estreno está programado para la noche de estreno de SXSW el 8 de marzo y se transmitirá en Prime Video el 21 de marzo.

Amazon MGM Studios negó categóricamente el uso de IA para reemplazar o recrear las voces de los actores en declaraciones a El bordey la portavoz Jenna Klein nos dijo que «el estudio ordenó expresamente a los realizadores que NO usaran IA en esta película».

“Si en algún momento se utilizó IA, habría sido por los realizadores (mientras editaban los primeros cortes de la película)”

«Si en algún momento se hubiera utilizado IA, habría sido por los realizadores (mientras editaban los primeros cortes de la película) y no por el estudio, ya que controlaban la editorial», escribió Klein, añadiendo que los cineastas recibieron instrucciones de eliminar cualquier «IA o actores que no pertenecen a SAG AFTRA” al terminar la película.

Amazon también dijo que «numerosas acusaciones» en la demanda son «categóricamente falsas» y que la compañía no cree que sus derechos de autor hayan expirado efectivamente el Casa del Camino.

Source link-37

Palworld advierte sobre clonación de tienda de aplicaciones que podría poner en riesgo tus datos personales

John — Fri, 02 Feb 2024 11:51:19 +0000

Ha aparecido una versión móvil de Palworld en la App Store de Apple, que se dice que estará disponible próximamente, pero no es la auténtica oferta.

La aplicación, que puedes ver a continuación en las capturas de pantalla tomadas por Eurogamer, parece a primera vista estar afiliada al desarrollador de Palworld, Pocketpair, y utiliza las mismas imágenes promocionales que en PC y Xbox. Pero esta aplicación no tiene nada que ver con Pocketpair, sino que ha sido publicada por alguien conocido como Oleksandra Kryccun.

Pocketpair ahora ha dicho que está al tanto de la existencia de esta aplicación y advirtió a los jugadores que no se dejen engañar por su llegada a la App Store (la hemos verificado y no podemos verla en la tienda Google Play en este momento).

Noticiero: ¿Pokémon acabará con Palworld? Ver en YouTube

Escribiendo en X, PocketPair escribió que «no existía la aplicación Palworld para teléfonos».

«Las aplicaciones que utilizan nombres e imágenes de productos como ‘パルワールド’ y ‘Palworld’ aparecen en AppStore y Google Play, pero no están afiliadas a nuestra empresa de ninguna manera», escribió PocketPair, afirmando que el equipo informó el problema a tanto Apple como Google.

«Tenga en cuenta que la descarga de estas aplicaciones puede provocar la filtración de información personal almacenada en su teléfono inteligente o un fraude».

Credito de imagen: eurogamer

El propio Palworld ha ganado mucha atención, y algunos sugieren que el lanzamiento de Pocketpair es, a su manera, una imitación de Pokémon. El juego tiene varios modelos de Pal que son personajes Pokémon muy similares, y aparentemente hay más en camino.

Evidentemente, esta similitud no ha pasado desapercibida para The Pokémon Company, que ha emitido un raro comunicado dirigiéndose indirectamente a Palworld, tras afirmar que Pocketpair había copiado directamente sus diseños. «Tenemos la intención de investigar y tomar las medidas apropiadas para abordar cualquier acto que infrinja los derechos de propiedad intelectual relacionados con Pokémon», se lee en el comunicado.

Antes de esta declaración, el ex director legal de The Pokémon Company, Don McGowan, dijo que estaba «sorprendido» de que Palworld hubiera «llegado tan lejos».

Source link-11

La startup de clonación de voz ElevenLabs consigue 80 millones de dólares y alcanza el estatus de unicornio

John — Mon, 22 Jan 2024 09:12:25 +0000

Se gana mucho dinero con la clonación de voces.

Caso en cuestión: ElevenLabs, una startup que desarrolla herramientas basadas en inteligencia artificial para crear y editar voces sintéticas, anunció hoy que cerró una ronda Serie B de $ 80 millones codirigida por destacados inversores, incluidos Andreessen Horowitz, el ex director ejecutivo de GitHub, Nat Friedman, y el empresario Daniel Gross. .

La ronda, en la que también participaron Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital y Credo Ventures, eleva el total recaudado de ElevenLabs a 101 millones de dólares y valora la empresa en más de mil millones de dólares (frente a los ~100 millones de dólares del pasado mes de junio). El director ejecutivo Mati Staniszewski dice que el nuevo dinero se destinará al desarrollo de productos, la ampliación de la infraestructura y el equipo de ElevenLabs, la investigación de IA y «mejorar las medidas de seguridad para garantizar el desarrollo responsable y ético de la tecnología de IA».

«Recaudamos el nuevo dinero para consolidar la posición de ElevenLabs como líder mundial en investigación de inteligencia artificial de voz e implementación de productos», dijo Staniszewski a TechCrunch en una entrevista por correo electrónico.

Cofundada en 2022 por Piotr Dabkowski, un ex ingeniero de aprendizaje automático de Google, y Staniszewski, un ex estratega de implementación de Palantir, ElevenLabs se lanzó en versión beta hace aproximadamente un año. Staniszewski dice que él y Dabkowski, que creció en Polonia, se inspiraron para crear herramientas de clonación de voces en películas estadounidenses mal dobladas. La IA podría hacerlo mejor, pensaron.

Hoy en día, ElevenLabs es quizás mejor conocido por su aplicación de generación de voz basada en navegador que puede crear voces realistas con controles ajustables de entonación, emoción, cadencia y otras características vocales clave. De forma gratuita, los usuarios pueden ingresar texto y obtener una grabación de ese texto leída en voz alta por una de varias voces predeterminadas. Los clientes que pagan pueden cargar muestras de voz para crear nuevos estilos utilizando la clonación de voz de ElevenLabs.

ElevenLabs invierte cada vez más en versiones de su tecnología de generación de voz destinadas a crear audiolibros y doblar películas y programas de televisión, así como a generar voces de personajes para juegos y activaciones de marketing.

El año pasado, la compañía lanzó una herramienta de «voz a voz» que intenta preservar la voz, la prosodia y la entonación del hablante mientras elimina automáticamente el ruido de fondo y, en el caso de películas y programas de televisión, traduce y sincroniza la voz con el material original. En la hoja de ruta para las próximas semanas hay un nuevo flujo de trabajo de estudio de doblaje con herramientas para generar y editar transcripciones y traducciones y una aplicación móvil basada en suscripción que narra páginas web y texto utilizando voces de ElevenLabs.

Las innovaciones de ElevenLabs se han ganado los clientes emergentes de Paradox Interactive, el desarrollador de juegos cuyos proyectos recientes incluyen Cities: Skylines 2 y Stellaris, y The Washington Post, entre otras empresas editoriales, de medios y de entretenimiento. Staniszewski afirma que los usuarios de ElevenLab han generado el equivalente a más de 100 años de audio y que la plataforma está siendo utilizada por empleados del 41% de las empresas Fortune 500.

Pero la publicidad no ha sido del todo positiva.

El infame foro de mensajes 4chan, conocido por su contenido conspirativo, utilizó las herramientas de ElevenLabs para compartir mensajes de odio imitando a celebridades como la actriz Emma Watson. James Vincent, de The Verge, pudo utilizar ElevenLabs para clonar voces maliciosamente en cuestión de segundos, generando muestras que contenían de todo, desde amenazas de violencia hasta comentarios racistas y transfóbicos. Y en Vox, el periodista Joseph Cox documentó la generación de un clon lo suficientemente convincente como para engañar al sistema de autenticación de un banco.

En respuesta, ElevenLabs intentó erradicar a los usuarios que violaban repetidamente sus términos de servicio, que prohíben el abuso, y lanzó una herramienta para detectar el discurso creado por su plataforma. Este año, ElevenLabs planea mejorar la herramienta de detección para marcar audio de otros modelos de inteligencia artificial que generan voz y asociarse con «actores de distribución» anónimos para que la herramienta esté disponible en plataformas de terceros, dice Staniszewski.

ElevenLabs ofrece una variedad de voces diferentes, algunas sintéticas y otras clonadas de actores de doblaje.

ElevenLabs también ha enfrentado críticas de actores de doblaje que afirman que la compañía usa muestras de sus voces sin su consentimiento, muestras que podrían aprovecharse para promover contenido que no respaldan o difundir información errónea y desinformada. En un artículo reciente de Vice, las víctimas relatan cómo se utilizó ElevenLabs en campañas de acoso contra ellas, en un ejemplo para compartir información privada de un actor (la dirección de su casa) utilizando una voz clonada.

Luego está el elefante en la habitación: las plataformas de amenaza existencial como ElevenLabs representan para la industria de la actuación de voz.

Placa base escribe sobre cómo a los actores de doblaje se les pide cada vez más que cedan los derechos de sus voces para que los clientes puedan usar la IA para generar versiones sintéticas que eventualmente podrían reemplazarlas, a veces sin una compensación proporcional. El temor es que el trabajo de voz (particularmente el trabajo barato y de nivel básico) eventualmente sea reemplazado por voces generadas por IA, y que los actores no tengan ningún recurso.

Algunas plataformas están intentando lograr un equilibrio. A principios de este mes, Replica Studios, un competidor de ElevenLabs, firmó un acuerdo con SAG-AFTRA para crear y licenciar réplicas digitales de las voces de los miembros del sindicato de artistas de medios. En un comunicado de prensa, las organizaciones dijeron que el acuerdo establecía términos y condiciones “justos” y “éticos” para garantizar el consentimiento del artista, y los términos de negociación para el uso de la voz digital se duplican en nuevas obras.

Sin embargo, ni siquiera esto agradó a algunos actores de doblaje, incluidos los propios miembros de SAG-AFTRA.

La solución de ElevenLabs es un mercado de voces. Actualmente en alfa y listo para estar más disponible en las próximas semanas, el mercado permite a los usuarios crear una voz, verificarla y compartirla. Cuando otros usan una voz, los creadores originales reciben una compensación, dice Staniszewski.

«Los usuarios siempre conservan el control sobre la disponibilidad de su voz y los términos de compensación», añadió. «El mercado está diseñado como un paso hacia la armonización de los avances de la IA con las prácticas establecidas de la industria, al mismo tiempo que aporta un conjunto diverso de voces a la plataforma de ElevenLabs».

Sin embargo, los actores de doblaje pueden estar en desacuerdo con el hecho de que ElevenLabs no paga en efectivo, al menos no por el momento. La configuración actual hace que los creadores reciban crédito para los servicios premium de ElevenLabs (lo que algunos encuentran irónico, apuesto).

Quizás eso cambie en el futuro a medida que ElevenLabs, que ahora se encuentra entre las startups de voz sintética mejor financiadas, intente vencer a la competencia advenediza como Papercup, Deepdub, ElevenLabs, Acapela, Respeecher y Voice.ai, así como a las grandes empresas tecnológicas como como Amazon, Microsoft y Google. En cualquier caso, ElevenLabs, que planea aumentar su plantilla de 40 a 100 personas para fin de año, tiene la intención de quedarse (y causar sensación) en el mercado de voz sintética de rápido crecimiento.

Source link-48

El enfoque ético de Respeecher para la clonación de voz mediante IA asegura nueva financiación

John — Thu, 07 Dec 2023 00:01:14 +0000

La startup ucraniana de voz sintética Respeecher está teniendo éxito a pesar no sólo de las bombas que caen sobre su ciudad, sino también de una ola de publicidad que ha levantado competidores a veces controvertidos. Una nueva financiación de 1 millón de dólares debería ayudar a la empresa a añadir algunos estudios a sus clientes de medios y juegos.

Respeecher es quizás mejor conocido por ser elegido para replicar a James Earl Jones y su icónica voz de Darth Vader para un programa animado de Star Wars y luego a un Luke Skywalker más joven para The Mandalorian. Pero la compañía también trabajó con el desarrollador de juegos CD Projekt (famoso por Witcher y Cyberpunk) y recientemente cerró un acuerdo con Warner Music para recrear otra voz icónica: la cantante francesa Edith Piaf.

A diferencia de los motores de conversión de texto a voz, Respeecher utiliza modelos de voz para modificar el discurso de los actores, quienes hacen todo lo posible para recrear la voz o el personaje en cuestión. De esa manera no se genera simplemente, sino que se parece más a una voz protésica. También cambian el acento, lo que resulta útil para reducir un acento no deseado o ayudar a poner uno.

Las cuestiones éticas involucradas en la clonación de la voz de alguien son obvias, particularmente alguien muerto hace mucho tiempo que no puede dar su consentimiento de manera significativa. Y algunas empresas emergentes y servicios simplemente han dejado salir el gato de la bolsa, viéndolo como una batalla perdida en muchos sentidos. (Sin mencionar que limita el rango de clientela).

Respeecher ha hecho de la ética un pilar de su negocio en sus diversas verticales.

“El consentimiento se obtiene de quienes son titulares de los derechos; en el caso de actores fallecidos, podría ser patrimonio o familia”, dijo el director ejecutivo y cofundador Alex Serdiuk. “Hay muchos casos en los que están muy involucrados en el proceso y brindan retroalimentación valiosa para que la voz sea perfecta, ya que estos proyectos son un homenaje a sus familiares, su contribución y los personajes que construyeron”.

Más recientemente trabajaron con Calm para tener una voz basada en la voz de la vieja estrella de Hollywood Jimmy Stewart.

Para los vivos, el permiso y la compensación se resuelven desde el principio. Los actores de voz están empezando a ver estos modelos de voz como activos que controlar y monetizar, en lugar de (o quizás además de) ser una amenaza a su sustento. Respeecher está reuniendo una biblioteca de voces de actores que han optado por participar en el proceso, y la compañía también se ha unido a la Iniciativa de Autenticidad de Contenido de Adobe (por si sirve de algo).

Al no centrarse en escalar como loco durante un gran año en IA, es posible que Respeecher haya perdido algo de capital u oportunidades comerciales. Pero en este caso, la lentitud y la constancia pueden ser de gran ayuda, y además, el año pasado sucedieron muchas cosas en Kiev.

El equipo de Respeecher. Créditos de imagen: Respetor

“Como todas las empresas y nuevas empresas ucranianas, esta guerra nos enseñó lo que realmente significa ser resiliente”, dijo Serdiuk. Recaudar fondos nunca es fácil, y probablemente sería más fácil si Rusia no atacara nuestras ciudades con misiles o drones Shahid con regularidad. Después de todo esto, creo que ya casi no hay obstáculos que nuestro equipo no haya podido superar ni soluciones que no hayamos podido encontrar”.

Sin embargo, la compañía ha logrado perseguir una nueva vertical durante este tiempo caótico: voces sintéticas para personas que han perdido la capacidad de hablar por sí mismas. Hemos visto otras nuevas empresas y empresas establecidas ingresar a este espacio, que puede no ser tan lucrativo o llamativo pero puede cambiar vidas.

“Tenemos muchos proyectos con hospitales y con pacientes con ataxia o laringectomía. Uno de los pacientes de laringectomía con los que tuvimos la oportunidad de trabajar [is] Konrad Zieliński, estudiante de doctorado de la Universidad de Varsovia que había perdido la voz debido a una laringectomía. Nuestra tecnología le ayudó a comunicarse de forma más natural con su propia voz”, afirmó Serdiuk. Puede leer más sobre el caso de Konrad en esta publicación de blog.

Respeecher anunció hoy que había recaudado una ronda “pre-Serie A” de 1 millón de dólares, a la que contribuyeron el empresario Gary Vaynerchuk y los fondos ffVC Polonia, Bad Ideas, ICU y SID Venture Partners.

Source link-48