\n<\/aside>\n<\/p>\n
El mi\u00e9rcoles, Meta anunci\u00f3 que est\u00e1 abriendo AudioCraft, un conjunto de herramientas generativas de inteligencia artificial para crear m\u00fasica y audio a partir de indicaciones de texto. Con las herramientas, los creadores de contenido pueden ingresar descripciones de texto simples para generar paisajes de audio complejos, componer melod\u00edas o incluso simular orquestas virtuales completas.<\/p>\n
AudioCraft consta de tres componentes principales: AudioGen, una herramienta para generar varios efectos de audio y paisajes sonoros; MusicGen, que puede crear composiciones musicales y melod\u00edas a partir de descripciones; y EnCodec, un c\u00f3dec de compresi\u00f3n de audio basado en redes neuronales.<\/p>\n
En particular, Meta dice que EnCodec, que cubrimos por primera vez en noviembre, se mejor\u00f3 recientemente y permite \u00abgenerar m\u00fasica de mayor calidad con menos artefactos\u00bb. Adem\u00e1s, AudioGen puede crear efectos de sonido de audio como el ladrido de un perro, la bocina de un autom\u00f3vil o pasos en un piso de madera. Y MusicGen puede crear canciones de varios g\u00e9neros desde cero, bas\u00e1ndose en descripciones como \u00abPista de baile pop con melod\u00edas pegadizas, percusiones tropicales y ritmos alegres, perfecta para la playa\u00bb.<\/p>\n
Meta ha proporcionado varias muestras de audio en su sitio web para su evaluaci\u00f3n. Los resultados parecen estar en l\u00ednea con su etiquetado de \u00faltima generaci\u00f3n, pero podr\u00eda decirse que no tienen la calidad suficiente para reemplazar la m\u00fasica o los efectos de audio comerciales producidos profesionalmente.<\/p>\n
Meta se\u00f1ala que, si bien los modelos generativos de IA centrados en texto e im\u00e1genes fijas han recibido mucha atenci\u00f3n (y son relativamente f\u00e1ciles de experimentar en l\u00ednea para las personas), el desarrollo de herramientas de audio generativo se ha quedado atr\u00e1s. \u00abHay algo de trabajo por ah\u00ed, pero es muy complicado y no muy abierto, por lo que las personas no pueden jugar f\u00e1cilmente con \u00e9l\u00bb, escriben. Pero esperan que el lanzamiento de AudioCraft bajo la licencia MIT contribuya a la comunidad en general al proporcionar herramientas accesibles para la experimentaci\u00f3n musical y de audio.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\n\u00abLos modelos est\u00e1n disponibles para fines de investigaci\u00f3n y para mejorar la comprensi\u00f3n de la tecnolog\u00eda por parte de las personas. Estamos entusiasmados de brindar acceso a los investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez y ayudar a avanzar en el estado del arte\u00bb. \u201d, dijo Meta.<\/p>\n
Meta no es la primera empresa en experimentar con generadores de m\u00fasica y audio impulsados \u200b\u200bpor IA. Entre algunos de los intentos recientes m\u00e1s notables, OpenAI present\u00f3 su Jukebox en 2020, Google present\u00f3 MusicLM en enero y, en diciembre pasado, un equipo de investigaci\u00f3n independiente cre\u00f3 una plataforma de generaci\u00f3n de texto a m\u00fasica llamada Riffusion utilizando una base de difusi\u00f3n estable.<\/p>\n
Ninguno de estos proyectos de audio generativo ha llamado tanto la atenci\u00f3n como los modelos de s\u00edntesis de im\u00e1genes, pero eso no significa que el proceso de desarrollo no sea menos complicado, como se\u00f1ala Meta en su sitio web:<\/p>\n
\nLa generaci\u00f3n de audio de alta fidelidad de cualquier tipo requiere el modelado de se\u00f1ales y patrones complejos en diferentes escalas. Podr\u00eda decirse que la m\u00fasica es el tipo de audio m\u00e1s dif\u00edcil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con m\u00faltiples instrumentos. La generaci\u00f3n de m\u00fasica coherente con IA a menudo se ha abordado mediante el uso de representaciones simb\u00f3licas como MIDI o rollos de piano. Sin embargo, estos enfoques son incapaces de captar completamente los matices expresivos y los elementos estil\u00edsticos que se encuentran en la m\u00fasica. Apalancamiento de anticipos m\u00e1s recientes aprendizaje de representaci\u00f3n de audio autosupervisado<\/u> y una serie de modelos jer\u00e1rquicos o en cascada para generar m\u00fasica, alimentando el audio sin procesar en un sistema complejo para capturar estructuras de largo alcance en la se\u00f1al mientras genera audio de calidad. Pero sab\u00edamos que se pod\u00eda hacer m\u00e1s en este campo.<\/p>\n<\/blockquote>\n
En medio de la controversia sobre el material de capacitaci\u00f3n no revelado y potencialmente poco \u00e9tico utilizado para crear modelos de s\u00edntesis de im\u00e1genes como Stable Diffusion, DALL-E y Midjourney, es notable que Meta diga que MusicGen fue capacitado en \u00ab20,000 horas de m\u00fasica propiedad de Meta o con licencia espec\u00edfica para este objetivo.\u00bb A primera vista, parece un movimiento en una direcci\u00f3n m\u00e1s \u00e9tica que puede complacer a algunos cr\u00edticos de la IA generativa.<\/p>\n
Ser\u00e1 interesante ver c\u00f3mo los desarrolladores de c\u00f3digo abierto eligen integrar estos modelos de meta audio en su trabajo. Puede resultar en algunas herramientas de audio generativo interesantes y f\u00e1ciles de usar en un futuro pr\u00f3ximo. Por ahora, los m\u00e1s conocedores de c\u00f3digo entre nosotros pueden encontrar pesos de modelo y c\u00f3digo para las tres herramientas de AudioCraft en GitHub.<\/p>\n<\/p><\/div>\n
\nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Meta El mi\u00e9rcoles, Meta anunci\u00f3 que est\u00e1 abriendo AudioCraft, un conjunto de herramientas generativas de inteligencia artificial para crear m\u00fasica y audio a partir de indicaciones de texto. Con las…<\/p>\n","protected":false},"author":1,"featured_media":756716,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[1454,5394,100393,8674,15887,1639,9842],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/756715"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=756715"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/756715\/revisions"}],"predecessor-version":[{"id":756717,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/756715\/revisions\/756717"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/756716"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=756715"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=756715"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=756715"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}