2024 - La nueva IA de Google convierte texto en música

Los investigadores de Google han creado una IA que puede generar piezas musicales de minutos de duración a partir de indicaciones de texto, e incluso puede transformar una melodía silbada o tarareada en otros instrumentos, de forma similar a cómo sistemas como DALL-E generar imágenes a partir de indicaciones escritas (a través de TechCrunch). El modelo se llama MusicLM, y aunque no puedes jugar con él por ti mismo, la compañía tiene subí un montón de muestras que produjo utilizando el modelo.

Los ejemplos son impresionantes. Hay fragmentos de 30 segundos de lo que suenan como canciones reales creadas a partir de descripciones de párrafos largos que prescriben un género, ambiente e incluso instrumentos específicos, así como piezas de cinco minutos de duración generadas a partir de una o dos palabras como «techno melódico». ” Tal vez mi favorito sea una demostración del «modo historia», donde el modelo básicamente recibe un guión para transformarse entre indicaciones. Por ejemplo, este aviso:

canción electrónica reproducida en un videojuego (0:00-0:15)

canción de meditación tocada junto a un río (0:15-0:30)

fuego (0:30-0:45)

fuegos artificiales (0:45-0:60)

Resultó en el audio lo puedes escuchar aqui.

Puede que no sea para todos, pero pude ver que esto fue compuesto por un humano (también lo escuché en bucle docenas de veces mientras escribía este artículo). En el sitio de demostración también se incluyen ejemplos de lo que produce el modelo cuando se le pide que genere clips de 10 segundos de instrumentos como el violonchelo o las maracas (el último ejemplo es uno en el que el sistema hace un trabajo relativamente pobre), clips de ocho segundos de un cierto género, música que encajaría en una fuga de prisión, e incluso cómo sonaría un pianista principiante en comparación con uno avanzado. También incluye interpretaciones de frases como “club futurista” y “death metal de acordeón”.

MusicLM puede incluso simular voces humanas, y aunque parece obtener el tono y el sonido general de las voces correctamente, tienen una cualidad que definitivamente no funciona. La mejor manera en que puedo describirlo es que suenan granulados o estáticos. Esa cualidad no es tan clara en el ejemplo anterior, pero creo este lo ilustra bastante bien.

Eso, por cierto, es el resultado de pedirle que hiciera música para un gimnasio. Es posible que también haya notado que las letras no tienen sentido, pero de una manera que no necesariamente puede captar si no está prestando atención, como si estuviera escuchando a alguien. cantando en simlish o esa canción que debe sonar como inglés pero no lo es.

No pretenderé saber cómo Google logró estos resultados, pero es publicó un trabajo de investigación explicándolo en detalle si eres el tipo de persona que entendería esta figura:

AudioLM, otro proyecto de Google.

La música generada por IA tiene una larga historia que se remonta a décadas; hay sistemas que han sido acreditados con componer canciones popcopiando a Bach mejor que un humano en los 90y acompañamiento de presentaciones en vivo. Una versión reciente utiliza el motor de generación de imágenes AI StableDiffusion para convertir indicaciones de texto en espectrogramas que luego se convierten en música. El documento dice que MusicLM puede superar a otros sistemas en términos de su «calidad y adherencia a los subtítulos», así como el hecho de que puede recibir audio y copiar la melodía.

Esa última parte es quizás una de las mejores demostraciones que presentaron los investigadores. El sitio te permite reproducir el audio de entrada, donde alguien tararea o silba una melodía, luego te permite escuchar cómo el modelo la reproduce como un sintetizador electrónico principal, un cuarteto de cuerdas, un solo de guitarra, etc. De los ejemplos que escuché, maneja el tarea muy bien.

Al igual que con otras incursiones en este tipo de IA, Google está siendo significativamente más cauteloso con MusicLM que algunos de sus pares pueden estar con tecnología similar. “No tenemos planes de lanzar modelos en este momento”, concluye el documento, citando riesgos de “apropiación indebida potencial de contenido creativo” (léase: plagio) y apropiación o tergiversación cultural potencial.

Siempre es posible que la tecnología aparezca en uno de Los divertidos experimentos musicales de Google en algún momento, pero por ahora, las únicas personas que podrán hacer uso de la investigación son otras personas que construyan sistemas musicales de IA. Google dice que está lanzando públicamente un conjunto de datos con alrededor de 5500 pares de música y texto, lo que podría ayudar al entrenar y evaluar otras IA musicales.

Source link-37

Recógeme

Salto mundial en ‘Dark Matter’, ‘MasterChef’ multigeneracional, la escena musical de Camden, el ascenso y la caída de MoviePass

Historias Doctor-Lite de Doctor Who clasificadas

Lista de niveles de estratagemas de Helldivers 2

La nueva IA de Google convierte texto en música