Xavier ‘X’ Jernigan, la voz del DJ de Spotify, explica cómo es convertirse en una IA


En marzo, Spotify lanzó su primera función impulsada por IA con el debut de su AI DJ, una guía de audio inteligente con una voz convincentemente realista. Resultó que ese personaje de IA se basó en una persona real: el jefe de asociaciones culturales de Spotify, Xavier «X» Jernigan, quien tuvo el honor de convertirse en el primer modelo de voz para la función de IA.

TechCrunch se sentó con Jernigan para obtener más información sobre el proceso de capacitación de la IA y los planes futuros de Spotify para sus esfuerzos de AI DJ.

El nuevo AI DJ personaliza la experiencia de escuchar música para los oyentes, seleccionando una selección de música basada en sus intereses. También tiene comentarios hablados sobre cada canción, como un locutor de radio real.

Además del papel principal de Jernigan en Spotify, también es el presentador de varios podcasts de Spotify, incluidos «The Window», «Showstopper», así como el ahora desaparecido podcast «The Get Up». Entonces, está acostumbrado a que su voz sea escuchada por millones de oyentes. Aún así, tener su voz conmemorada como una IA es una experiencia única.

Spotify eligió a Jernigan para ser el primer modelo de voz porque su «voz y personalidad ya resonaron en muchos de nuestros oyentes», dijo Jernigan a TechCrunch. “[The company was] bastante seguro de que yo también resonaría de esta manera”.

El programa matutino de Spotify, «The Get Up», obtuvo casi 6 millones de oyentes y fue uno de los 10 mejores podcasts en Spotify antes de que terminara abruptamente en 2022, lo que demuestra la atracción de Jernigan.

Aún así, ser el modelo de voz para DJ fue difícil de entender al principio, admitió el presentador del podcast.

“Me propusieron ser este modelo de voz para DJ y me voló la cabeza cuando me lo explicaron”, nos dijo Jernigan. “Imagínese si está escuchando esto por primera vez, no tiene nada que mirar y yo estoy como, ‘Espera, ¿qué? Seré yo, pero no soy yo, y es texto y voz, pero sonará como yo, ¿y es IA?

“Para mí, fue una nueva experiencia trabajar con IA de esta manera. Me quedé impresionado”, agregó.

Spotify dice que su AI DJ se creó utilizando tecnologías Sonantic y OpenAI.

Sonantic es una startup de IA que Spotify adquirió el año pasado. La tecnología de la compañía fue responsable de crear voces realistas basadas en IA, incluida la que se usó para la voz de Val Kilmer en «Top Gun: Maverick».

Antes de la adquisición, Spotify pasó algunos años investigando la tecnología impulsada por IA y trabajó en la función de DJ «en alguna iteración», señaló Jernigan. Se negó a compartir exactamente cuánto tiempo tomó el proceso, pero dijo que la integración de la tecnología Sonantic «realmente lo puso en marcha».

Jernigan explicó el proceso de entrenamiento de la IA, que implicó entrar en un estudio, leer un guión y hablar en varias cadencias e inflexiones para transmitir diferentes emociones. Le dio a la IA ciertas palabras que solo él usa para que se sienta lo más auténtico posible.

“Usamos las palabras que digo… No digo ‘melodías’ para las canciones. Así no es como yo hablo”, dijo. “Yo digo, ‘hits’ o ‘bangers’. Entonces, escucharás a DJ decir ese tipo de palabras”, continuó Jernigan. “Incluso hicimos todo un proceso de, ¿cómo digo ‘hola’, cómo digo ‘hola’? Llevaba un cuaderno y simplemente escribía estas diferentes frases que eran algo que decía”.

Agregó que el equipo de Spotify se aseguró de mantener sus pausas y respiraciones naturales para que la voz de la IA realmente sonara como la de un humano.

Incluso la mamá de Jernigan dio su sello de aprobación a los resultados.

“[DJ] pasó la prueba de mamá. Se lo reproduje antes de que saliera, se lo expliqué y estoy tratando de que lo entienda”, dijo. “Ella escuchó todos mis podcasts, por lo que está acostumbrada a escuchar mi voz grabada y reproducida antes y dijo: ‘Eso suena exactamente como tú’. Mi mamá dijo que sonaba como yo, así que supe que estaba en lo cierto”.

Aunque ya existen voces realistas de IA, diríamos que el DJ de Spotify es el más tranquilo y el que suena más relajado en comparación con otros que hemos escuchado. Aunque la tecnología Duplex de Google puede sonar auténtica, no es necesariamente una voz agradable de escuchar cuando intenta vibrar con su lista de reproducción de verano.

“Para mí, al hacer la actuación desde el punto de vista de la actuación de voz, mi objetivo era conectarme con la gente y conversar con la gente y pensar en una persona. Entonces, cuando estaba entrenando a la IA, solo imaginé a una persona cuando estaba en el estudio, hablando con ellos y siendo su amigo”, agregó.

Además de hacer que la voz de la IA suene amigable para los oyentes, el diseño del propio DJ también se hizo para que se sintiera accesible.

El círculo verde animado que ven los usuarios cuando escuchan al DJ es un guiño al logotipo de Spotify y se mueve como una boca cuando habla la IA.

“Cuando se trataba del diseño, pensamos en toda la experiencia: cómo funciona, cómo suena, cómo se ve y cómo personalizarla para cada usuario”, dijo Emily Galloway, jefa de Diseño de Producto para Personalización en Spotify. TechCrunch. “Al principio del aspecto visual, exploramos algunas opciones que parecían más técnicas (imagina cosas como ondas de sonido). Sin embargo, esto no se sentía bien ya que queríamos humanizar la IA…”

“Queríamos que se viera y se sintiera único. De hecho, era tan único que se le otorgó una patente de diseño”, agregó Galloway.

Jernigan contribuyó a DJ de otras formas además de grabar su voz.

Para que la IA proporcione comentarios expertos sobre la música, Spotify creó una sala de escritores compuesta por curadores, expertos en cultura y expertos en música.

Jernigan tiene una amplia experiencia en música, por lo que también participó en la sala de escritores. Anteriormente trabajó para los mejores artistas como Diddy, Amy Winehouse y 2 Chainz, entre otros.

Y si bien Jernigan es el primer modelo de voz para DJ, existe la posibilidad de que los oyentes escuchen más voces en el futuro.

TechCrunch le preguntó a Jernigan si la empresa tenía planes de contratar modelos de voz que hablaran otros idiomas.

“Estén atentos”, insinuó.

AI DJ actualmente solo está disponible en inglés para suscriptores Premium en los EE. UU. y Canadá. A partir de febrero, la función de DJ todavía está en prueba beta.

“Tenemos un montón de características nuevas realmente geniales en todos los ámbitos”, dijo Jernigan. «Tenemos cosas realmente geniales que están saliendo».



Source link-48