AI Image Generator también puede producir música (con resultados de otro mundo)


Aparentemente, los generadores de imágenes de IA pueden hacer más que generar arte profesional. Un par de compañeros de banda están usando los mismos algoritmos para crear música.

El proyecto, llamado Riffusion, está utilizando la generación de texto a imagen de IA para producir espectrogramas, o representaciones visuales de música, que luego se pueden convertir en clips de audio.

La IA entrena algoritmos informáticos para reconocer imágenes de objetos y lugares, y los utiliza para replicar imágenes similares. Los programas que incluyen DALL-E 2, Midjourney y Stable Diffusion son tan expertos en la generación de imágenes que pueden intentar visualizar cualquier cosa que desee a través de varios estilos artísticos, basados ​​en un simple mensaje de texto.

La generación de imágenes inspiró al desarrollador de software Seth Forsgren y al especialista en robótica Hayk Martiros para ver si los mismos programas de inteligencia artificial podrían aplicarse al ámbito del audio. “Hayk y yo tocamos juntos en una pequeña banda, y comenzamos el proyecto simplemente porque amamos la música”, dice Forsgren a PCMag. “Al ver los increíbles resultados de Stable Diffusion para la generación de imágenes, nos preguntamos cómo sería usar un enfoque de difusión para crear música”.

(Crédito: rifa)

Para averiguarlo, los dos entrenaron el Stable Diffusion de código abierto en imágenes de espectrogramas emparejados con texto. Luego, el programa pudo producir espectrogramas de música basados ​​​​en un mensaje dado.

“Al principio no sabíamos si sería posible que la arquitectura del modelo Stable Diffusion creara una imagen de espectrograma con suficiente fidelidad para convertirla en audio, pero resulta que puede hacer eso y más”, dice Forgren. “En cada paso del camino nos ha impresionado cada vez más lo que es posible, y una idea lleva a la siguiente”.

El sitio de Riffusion generando una canción.

(Crédito: rifa)

Forsgren y Martiros publican sus resultados(Se abre en una nueva ventana) en el sitio web de Riffusion, que pretende ser un proyecto de pasatiempo. Pero lo más importante, los visitantes del sitio pueden conectar sus propios avisos de texto(Se abre en una nueva ventana)y Riffusion producirá un espectrograma de su solicitud, que se reproducirá en el sitio como un clip de audio.

Además, el programa puede crear nuevas variaciones del espectrograma a medida que lo escuchas. Aquí hay un ejemplo de Riffusion tratando de crear un «evangelio árabe».

Los resultados son sorprendentemente buenos. Disfrutamos de este fragmento de jazz, que se produjo con el mensaje: «línea de bajo funk con un solo de saxofón de jazz».

Riffusion también puede intentar replicar canciones, incluyendo K-Pop o un «rap de ira estilo Eminem».(Se abre en una nueva ventana)«sin la letra. En cambio, las melodías presentarán un galimatías melódico con un sonido humano que aún coincide con el tono general de la canción.

Recomendado por Nuestros Editores

Por ejemplo, a continuación hay una «balada de fantasía, voz femenina» que se transforma en una melodía de «estrella del pop adolescente». Para nosotros, la canción resultante suena humana y alienígena al mismo tiempo.

Forsgren dice que la letra del programa puede sonar «un poco de otro mundo». Otra limitación «es que el modelo aún no está diseñado para comprender la estructura de la canción de nivel superior, como si no intentara repetir coros ni nada por el estilo. Podrías imaginar construir un modelo abstracto encima de este para hacer eso».

Entonces, la tecnología no puede reemplazar la música creada por humanos. Pero el proyecto muestra que los algoritmos de imagen de IA pueden tener un gran potencial desbloqueado para otros fines, incluida la posibilidad de ofrecer algo de inspiración a los creadores de música. Forsgren y Martiros hicieron público Riffusion el jueves, y muchos usuarios ya están revisando su proyecto.

“Estamos viendo una gran cantidad de tráfico en el sitio web; ha sido un esfuerzo vertiginoso mantener suficientes GPU en funcionamiento para atender todas las solicitudes, pero estamos teniendo un día divertido”, dice Forsgren. Por lo tanto, el sitio de Riffusion puede tener dificultades para procesar su solicitud debido a la carga de tráfico. Sin embargo, los dos también publicaron el código de su proyecto en GitHub.(Se abre en una nueva ventana).

¡Obtenga nuestras mejores historias!

Matricularse en ¿Qué hay de nuevo ahora? para recibir nuestras mejores historias en su bandeja de entrada todas las mañanas.

Este boletín puede contener publicidad, ofertas o enlaces de afiliados. Suscribirse a un boletín informativo indica su consentimiento a nuestros Términos de uso y Política de privacidad. Puede darse de baja de los boletines en cualquier momento.





Source link-38