La startup de clonación de voz ElevenLabs consigue 80 millones de dólares y alcanza el estatus de unicornio


Se gana mucho dinero con la clonación de voces.

Caso en cuestión: ElevenLabs, una startup que desarrolla herramientas basadas en inteligencia artificial para crear y editar voces sintéticas, anunció hoy que cerró una ronda Serie B de $ 80 millones codirigida por destacados inversores, incluidos Andreessen Horowitz, el ex director ejecutivo de GitHub, Nat Friedman, y el empresario Daniel Gross. .

La ronda, en la que también participaron Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital y Credo Ventures, eleva el total recaudado de ElevenLabs a 101 millones de dólares y valora la empresa en más de mil millones de dólares (frente a los ~100 millones de dólares del pasado mes de junio). El director ejecutivo Mati Staniszewski dice que el nuevo dinero se destinará al desarrollo de productos, la ampliación de la infraestructura y el equipo de ElevenLabs, la investigación de IA y «mejorar las medidas de seguridad para garantizar el desarrollo responsable y ético de la tecnología de IA».

«Recaudamos el nuevo dinero para consolidar la posición de ElevenLabs como líder mundial en investigación de inteligencia artificial de voz e implementación de productos», dijo Staniszewski a TechCrunch en una entrevista por correo electrónico.

Cofundada en 2022 por Piotr Dabkowski, un ex ingeniero de aprendizaje automático de Google, y Staniszewski, un ex estratega de implementación de Palantir, ElevenLabs se lanzó en versión beta hace aproximadamente un año. Staniszewski dice que él y Dabkowski, que creció en Polonia, se inspiraron para crear herramientas de clonación de voces en películas estadounidenses mal dobladas. La IA podría hacerlo mejor, pensaron.

Hoy en día, ElevenLabs es quizás mejor conocido por su aplicación de generación de voz basada en navegador que puede crear voces realistas con controles ajustables de entonación, emoción, cadencia y otras características vocales clave. De forma gratuita, los usuarios pueden ingresar texto y obtener una grabación de ese texto leída en voz alta por una de varias voces predeterminadas. Los clientes que pagan pueden cargar muestras de voz para crear nuevos estilos utilizando la clonación de voz de ElevenLabs.

ElevenLabs invierte cada vez más en versiones de su tecnología de generación de voz destinadas a crear audiolibros y doblar películas y programas de televisión, así como a generar voces de personajes para juegos y activaciones de marketing.

El año pasado, la compañía lanzó una herramienta de «voz a voz» que intenta preservar la voz, la prosodia y la entonación del hablante mientras elimina automáticamente el ruido de fondo y, en el caso de películas y programas de televisión, traduce y sincroniza la voz con el material original. En la hoja de ruta para las próximas semanas hay un nuevo flujo de trabajo de estudio de doblaje con herramientas para generar y editar transcripciones y traducciones y una aplicación móvil basada en suscripción que narra páginas web y texto utilizando voces de ElevenLabs.

Las innovaciones de ElevenLabs se han ganado los clientes emergentes de Paradox Interactive, el desarrollador de juegos cuyos proyectos recientes incluyen Cities: Skylines 2 y Stellaris, y The Washington Post, entre otras empresas editoriales, de medios y de entretenimiento. Staniszewski afirma que los usuarios de ElevenLab han generado el equivalente a más de 100 años de audio y que la plataforma está siendo utilizada por empleados del 41% de las empresas Fortune 500.

Pero la publicidad no ha sido del todo positiva.

El infame foro de mensajes 4chan, conocido por su contenido conspirativo, utilizó las herramientas de ElevenLabs para compartir mensajes de odio imitando a celebridades como la actriz Emma Watson. James Vincent, de The Verge, pudo utilizar ElevenLabs para clonar voces maliciosamente en cuestión de segundos, generando muestras que contenían de todo, desde amenazas de violencia hasta comentarios racistas y transfóbicos. Y en Vox, el periodista Joseph Cox documentó la generación de un clon lo suficientemente convincente como para engañar al sistema de autenticación de un banco.

En respuesta, ElevenLabs intentó erradicar a los usuarios que violaban repetidamente sus términos de servicio, que prohíben el abuso, y lanzó una herramienta para detectar el discurso creado por su plataforma. Este año, ElevenLabs planea mejorar la herramienta de detección para marcar audio de otros modelos de inteligencia artificial que generan voz y asociarse con «actores de distribución» anónimos para que la herramienta esté disponible en plataformas de terceros, dice Staniszewski.

ElevenLabs ofrece una variedad de voces diferentes, algunas sintéticas y otras clonadas de actores de doblaje.

ElevenLabs también ha enfrentado críticas de actores de doblaje que afirman que la compañía usa muestras de sus voces sin su consentimiento, muestras que podrían aprovecharse para promover contenido que no respaldan o difundir información errónea y desinformada. En un artículo reciente de Vice, las víctimas relatan cómo se utilizó ElevenLabs en campañas de acoso contra ellas, en un ejemplo para compartir información privada de un actor (la dirección de su casa) utilizando una voz clonada.

Luego está el elefante en la habitación: las plataformas de amenaza existencial como ElevenLabs representan para la industria de la actuación de voz.

Placa base escribe sobre cómo a los actores de doblaje se les pide cada vez más que cedan los derechos de sus voces para que los clientes puedan usar la IA para generar versiones sintéticas que eventualmente podrían reemplazarlas, a veces sin una compensación proporcional. El temor es que el trabajo de voz (particularmente el trabajo barato y de nivel básico) eventualmente sea reemplazado por voces generadas por IA, y que los actores no tengan ningún recurso.

Algunas plataformas están intentando lograr un equilibrio. A principios de este mes, Replica Studios, un competidor de ElevenLabs, firmó un acuerdo con SAG-AFTRA para crear y licenciar réplicas digitales de las voces de los miembros del sindicato de artistas de medios. En un comunicado de prensa, las organizaciones dijeron que el acuerdo establecía términos y condiciones “justos” y “éticos” para garantizar el consentimiento del artista, y los términos de negociación para el uso de la voz digital se duplican en nuevas obras.

Sin embargo, ni siquiera esto agradó a algunos actores de doblaje, incluidos los propios miembros de SAG-AFTRA.

La solución de ElevenLabs es un mercado de voces. Actualmente en alfa y listo para estar más disponible en las próximas semanas, el mercado permite a los usuarios crear una voz, verificarla y compartirla. Cuando otros usan una voz, los creadores originales reciben una compensación, dice Staniszewski.

«Los usuarios siempre conservan el control sobre la disponibilidad de su voz y los términos de compensación», añadió. «El mercado está diseñado como un paso hacia la armonización de los avances de la IA con las prácticas establecidas de la industria, al mismo tiempo que aporta un conjunto diverso de voces a la plataforma de ElevenLabs».

Sin embargo, los actores de doblaje pueden estar en desacuerdo con el hecho de que ElevenLabs no paga en efectivo, al menos no por el momento. La configuración actual hace que los creadores reciban crédito para los servicios premium de ElevenLabs (lo que algunos encuentran irónico, apuesto).

Quizás eso cambie en el futuro a medida que ElevenLabs, que ahora se encuentra entre las startups de voz sintética mejor financiadas, intente vencer a la competencia advenediza como Papercup, Deepdub, ElevenLabs, Acapela, Respeecher y Voice.ai, así como a las grandes empresas tecnológicas como como Amazon, Microsoft y Google. En cualquier caso, ElevenLabs, que planea aumentar su plantilla de 40 a 100 personas para fin de año, tiene la intención de quedarse (y causar sensación) en el mercado de voz sintética de rápido crecimiento.



Source link-48