Los investigadores de Google han creado una IA que puede generar piezas musicales de minutos de duración a partir de indicaciones de texto, e incluso puede transformar una melodía silbada o tarareada en otros instrumentos, de forma similar a cómo sistemas como DALL-E generar imágenes a partir de indicaciones escritas (a través de TechCrunch). El modelo se llama MusicLM, y aunque no puedes jugar con él por ti mismo, la compañía tiene subí un montón de muestras que produjo utilizando el modelo.
Los ejemplos son impresionantes. Hay fragmentos de 30 segundos de lo que suenan como canciones reales creadas a partir de descripciones de párrafos largos que prescriben un género, ambiente e incluso instrumentos específicos, así como piezas de cinco minutos de duración generadas a partir de una o dos palabras como «techno melódico». ” Tal vez mi favorito sea una demostración del «modo historia», donde el modelo básicamente recibe un guión para transformarse entre indicaciones. Por ejemplo, este aviso:
canción electrónica reproducida en un videojuego (0:00-0:15)
canción de meditación tocada junto a un río (0:15-0:30)
fuego (0:30-0:45)
fuegos artificiales (0:45-0:60)
Resultó en el audio lo puedes escuchar aqui.
Puede que no sea para todos, pero pude ver que esto fue compuesto por un humano (también lo escuché en bucle docenas de veces mientras escribía este artículo). En el sitio de demostración también se incluyen ejemplos de lo que produce el modelo cuando se le pide que genere clips de 10 segundos de instrumentos como el violonchelo o las maracas (el último ejemplo es uno en el que el sistema hace un trabajo relativamente pobre), clips de ocho segundos de un cierto género, música que encajaría en una fuga de prisión, e incluso cómo sonaría un pianista principiante en comparación con uno avanzado. También incluye interpretaciones de frases como “club futurista” y “death metal de acordeón”.
MusicLM puede incluso simular voces humanas, y aunque parece obtener el tono y el sonido general de las voces correctamente, tienen una cualidad que definitivamente no funciona. La mejor manera en que puedo describirlo es que suenan granulados o estáticos. Esa cualidad no es tan clara en el ejemplo anterior, pero creo este lo ilustra bastante bien.
Eso, por cierto, es el resultado de pedirle que hiciera música para un gimnasio. Es posible que también haya notado que las letras no tienen sentido, pero de una manera que no necesariamente puede captar si no está prestando atención, como si estuviera escuchando a alguien. cantando en simlish o esa canción que debe sonar como inglés pero no lo es.
No pretenderé saber cómo Google logró estos resultados, pero es publicó un trabajo de investigación explicándolo en detalle si eres el tipo de persona que entendería esta figura: