Un podcast de Embark Studios, creadores del próximo FPS The Finals, ha insinuado que el juego utilizará líneas de voz de IA en el futuro previsible. La explicación, sin embargo, ha dejado a algunos actores de doblaje, en el mejor de los casos, confundidos.
A Carl Strandberg y Andreas Almström, diseñadores de audio de The Finals, se les preguntó: «¿quién hizo las voces en off? Suenan realmente auténticas» (spoilers: no es una opinión que todos compartan). Respondieron: «Usamos IA con algunas excepciones, por lo que todas las voces de los concursantes, como los ladridos y los comentaristas de voz, son conversión de texto a voz por IA». Por lo demás, las diversas voces en off (gruñidos, ruidos de dolor, saltos sobre objetos) se realizan internamente.
«La razón por la que tomamos este camino es que la conversión de texto a voz con IA es finalmente extremadamente poderosa. Nos lleva lo suficientemente lejos en términos de calidad y nos permite ser extremadamente reactivos a nuevas ideas… si a un diseñador de juegos se le ocurre una nueva idea para un modo de juego, podemos tener una voz en off que lo represente en cuestión de horas, en lugar de meses».
Esa explicación, sin embargo, no concuerda realmente con la experiencia de los actores de doblaje que realmente trabajan en juegos. Uno de esos actores es Gianni Matragrano, a quien quizás reconozcas como Gabriel de Ultrakill, aunque ha trabajado para una amplia variedad de juegos, incluidos Genshin Impact, Gloomwood y Evil West.
Matragrano escribió en un Hilo de Twitter: «Estamos constantemente organizando sesiones de pedidos urgentes durante uno o dos días… Cuando necesites más, puedes reservar otra sesión. De hecho, lo hacemos muy fácil». Continúa revelando que tenía dudas al jugar la beta, pero estaba esperando confirmación: «Tenía mis sospechas pero no quería decir nada por si me equivocaba, o tal vez al menos era solo un marcador de posición. Pero ahora en una gran Beta Abierta con [150,000] jugadores simultáneos, esta es definitivamente solo su visión».
Entonces, ¿supongo que las Finales tendrán voces de IA…? pic.twitter.com/PIAbR43ZrT28 de octubre de 2023
El vídeo de arriba es un ejemplo publicado por el propio Matragrano y… sí, no es tan bueno. Escucho demasiado sobre uncany Valley como para aceptar esa tecnología «extremadamente poderosa» de la que se jactaban Strandberg y Almström. Agregaron la advertencia: «Si suena un poco extraño, estéticamente aún combina bastante bien con la fantasía del programa de juegos virtual». Depende de ti si estas líneas de voz te sumergen.
Zane Schacht, Otro actor de doblaje escribió: «¿Por qué diablos los dobladores de IA actúan como si contratar actores de doblaje fuera una especie de ritual arcano? He eliminado juegos enteros de audio en una sesión de dos horas. No es profundo».
Mientras tanto Pax Helgesen, que es a la vez diseñador de sonido senior y actor de doblaje, comentó: «Me gustaría alentar nuevamente a los desarrolladores a reconsiderar el uso de la voz en sus juegos como simplemente un «activo» en el proceso de desarrollo ágil». Continúa diciendo que sí, la IA puede desempeñar un papel importante en el desarrollo de un juego, pero «un actor que podría usar las herramientas de su oficio y experiencias para colaborar y hacer algo más grande de lo que los desarrolladores imaginaron».
Me inclino a estar de acuerdo aquí. En cierto sentido, la actuación y el diseño de sonido son dos disciplinas muy diferentes. Es similar a cómo los ‘artistas de IA’ son derribados en la plaza pública cuando comparten los resultados de sus indicaciones, ya que aquellos con mejor vista pueden ver la falta de composición e intención a una milla de distancia.
Puedes pedirle a un algoritmo que produzca algo, es cierto, pero el arte implica docenas de elecciones con propósito que una máquina no puede, por el momento, replicar. Actuar es similar. Una parte de mí se pregunta si Strandberg y Almström simplemente no saben lo suficiente sobre VA para entender cómo sus líneas generadas por ElevenLabs son discordantes para los jugadores que no se preocupan por los tiempos de desarrollo.
Lo que hace que esto sea aún más extraño es que ya existen usos interesantes y reflexivos de esta tecnología en los juegos. Hace un tiempo, se reveló que el doblaje polaco de Cyberpunk 2077 utilizó IA para proporcionar nuevas líneas para el paquete de expansión del juego, Phantom Liberty, después de que el actor de voz de cierto personaje muriera. CD Projekt hizo su debida diligencia. Contrató a un actor de doblaje para proporcionar las nuevas líneas (que serán modificadas con Respeecher), obtuvo el consentimiento de los familiares sobrevivientes del actor y lo hizo para preservar la interpretación original, sin IA.
Cuando se trata de Las Finales, me cuesta ver la intención creativa. Claro, la IA podría proporcionar resultados más rápidos, incluso si no son tan lentos como los desarrolladores pretenden, pero el resultado carece de personalidad. Un juego de disparos multijugador no tiene por qué proporcionar una narrativa profunda, claro, pero estás escuchando estos ladridos durante horas y horas. Siento que la entrega forzada e incómoda se volverá molesta y rápida.
Me comuniqué con Embark Studios para hacer comentarios y me dijeron por correo electrónico que el estudio utiliza una combinación de «audio de voz grabado y audio generado a través de TTS». [text to speech] herramientas en nuestros juegos, dependiendo del contexto», citando las conversaciones entre personajes como aquellas en las que es importante lograr que personas reales hablen entre sí. «TTS nos permite tener [voice acting] donde de otro modo no lo haríamos, por ejemplo, debido a la velocidad de implementación».
«En los casos en que utilizamos TTS en las Finales, siempre se basa en voces reales». Un punto a destacar aquí es que mayoría Los programas de voz de IA se basan en voces reales, de la misma manera que el arte de la IA se basa en arte real: así es como funciona la tecnología. «En la Beta Abierta, se basa en una combinación de actores de doblaje profesionales y voces temporales de empleados de Embark. Hacer juegos sin actores no es un objetivo final para Embark y la tecnología TTS ha introducido nuevas formas de trabajar juntos».
Embark Studios no comentó sobre la pregunta «meses versus semanas», aunque la implicación parece acercarse a lo que plantea la entrevista antes mencionada: TTS es parte de la visión de The Finals. Es probable que el juego utilice una combinación de trabajo de voz e inteligencia artificial incluso una vez que salga de la versión beta, a menos que la opinión pública influya en Embark Studios en sentido contrario.