Meta lanza herramientas de audio de IA de código abierto, AudioCraft


Meta

El miércoles, Meta anunció que está abriendo AudioCraft, un conjunto de herramientas generativas de inteligencia artificial para crear música y audio a partir de indicaciones de texto. Con las herramientas, los creadores de contenido pueden ingresar descripciones de texto simples para generar paisajes de audio complejos, componer melodías o incluso simular orquestas virtuales completas.

AudioCraft consta de tres componentes principales: AudioGen, una herramienta para generar varios efectos de audio y paisajes sonoros; MusicGen, que puede crear composiciones musicales y melodías a partir de descripciones; y EnCodec, un códec de compresión de audio basado en redes neuronales.

En particular, Meta dice que EnCodec, que cubrimos por primera vez en noviembre, se mejoró recientemente y permite «generar música de mayor calidad con menos artefactos». Además, AudioGen puede crear efectos de sonido de audio como el ladrido de un perro, la bocina de un automóvil o pasos en un piso de madera. Y MusicGen puede crear canciones de varios géneros desde cero, basándose en descripciones como «Pista de baile pop con melodías pegadizas, percusiones tropicales y ritmos alegres, perfecta para la playa».

Meta ha proporcionado varias muestras de audio en su sitio web para su evaluación. Los resultados parecen estar en línea con su etiquetado de última generación, pero podría decirse que no tienen la calidad suficiente para reemplazar la música o los efectos de audio comerciales producidos profesionalmente.

Meta señala que, si bien los modelos generativos de IA centrados en texto e imágenes fijas han recibido mucha atención (y son relativamente fáciles de experimentar en línea para las personas), el desarrollo de herramientas de audio generativo se ha quedado atrás. «Hay algo de trabajo por ahí, pero es muy complicado y no muy abierto, por lo que las personas no pueden jugar fácilmente con él», escriben. Pero esperan que el lanzamiento de AudioCraft bajo la licencia MIT contribuya a la comunidad en general al proporcionar herramientas accesibles para la experimentación musical y de audio.

«Los modelos están disponibles para fines de investigación y para mejorar la comprensión de la tecnología por parte de las personas. Estamos entusiasmados de brindar acceso a los investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez y ayudar a avanzar en el estado del arte». ”, dijo Meta.

Meta no es la primera empresa en experimentar con generadores de música y audio impulsados ​​por IA. Entre algunos de los intentos recientes más notables, OpenAI presentó su Jukebox en 2020, Google presentó MusicLM en enero y, en diciembre pasado, un equipo de investigación independiente creó una plataforma de generación de texto a música llamada Riffusion utilizando una base de difusión estable.

Ninguno de estos proyectos de audio generativo ha llamado tanto la atención como los modelos de síntesis de imágenes, pero eso no significa que el proceso de desarrollo no sea menos complicado, como señala Meta en su sitio web:

La generación de audio de alta fidelidad de cualquier tipo requiere el modelado de señales y patrones complejos en diferentes escalas. Podría decirse que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos. La generación de música coherente con IA a menudo se ha abordado mediante el uso de representaciones simbólicas como MIDI o rollos de piano. Sin embargo, estos enfoques son incapaces de captar completamente los matices expresivos y los elementos estilísticos que se encuentran en la música. Apalancamiento de anticipos más recientes aprendizaje de representación de audio autosupervisado y una serie de modelos jerárquicos o en cascada para generar música, alimentando el audio sin procesar en un sistema complejo para capturar estructuras de largo alcance en la señal mientras genera audio de calidad. Pero sabíamos que se podía hacer más en este campo.

En medio de la controversia sobre el material de capacitación no revelado y potencialmente poco ético utilizado para crear modelos de síntesis de imágenes como Stable Diffusion, DALL-E y Midjourney, es notable que Meta diga que MusicGen fue capacitado en «20,000 horas de música propiedad de Meta o con licencia específica para este objetivo.» A primera vista, parece un movimiento en una dirección más ética que puede complacer a algunos críticos de la IA generativa.

Será interesante ver cómo los desarrolladores de código abierto eligen integrar estos modelos de meta audio en su trabajo. Puede resultar en algunas herramientas de audio generativo interesantes y fáciles de usar en un futuro próximo. Por ahora, los más conocedores de código entre nosotros pueden encontrar pesos de modelo y código para las tres herramientas de AudioCraft en GitHub.



Source link-49