\n<\/aside>\n<\/p>\n
Imag\u00ednese escribir \u00abm\u00fasica de introducci\u00f3n dram\u00e1tica\u00bb y escuchar una sinfon\u00eda alt\u00edsima o escribir \u00abpasos espeluznantes\u00bb y obtener efectos de sonido de alta calidad. Esa es la promesa de Stable Audio, un modelo de IA de texto a audio anunciado el mi\u00e9rcoles por Stability AI que puede sintetizar m\u00fasica o sonidos est\u00e9reo de 44,1 kHz a partir de descripciones escritas. En poco tiempo, una tecnolog\u00eda similar puede desafiar a los m\u00fasicos en sus trabajos.<\/p>\n
Si recuerdas, Stability AI es la empresa que ayud\u00f3 a financiar la creaci\u00f3n de Stable Diffusion, un modelo de s\u00edntesis de im\u00e1genes por difusi\u00f3n latente lanzado en agosto de 2022. No contenta con limitarse a generar im\u00e1genes, la empresa se expandi\u00f3 al audio respaldando a Harmonai. un laboratorio de inteligencia artificial que lanz\u00f3 el generador de m\u00fasica Dance Diffusion en septiembre.<\/p>\n
Ahora Stability y Harmonai quieren irrumpir en la producci\u00f3n comercial de audio con IA con Stable Audio. A juzgar por las muestras de producci\u00f3n, parece una mejora significativa en la calidad del audio con respecto a los generadores de audio de IA anteriores que hemos visto.<\/p>\n
En su p\u00e1gina promocional, Stability proporciona ejemplos del modelo de IA en acci\u00f3n con indicaciones como \u00abm\u00fasica de tr\u00e1iler \u00e9pica, intensa percusi\u00f3n tribal y metales\u00bb y \u00ablofi hip hop beat mel\u00f3dico chillhop 85 bpm\u00bb. Tambi\u00e9n ofrece muestras de efectos de sonido generados con Stable Audio, como un piloto de aerol\u00ednea hablando por un intercomunicador y personas hablando en un restaurante concurrido.<\/p>\n
Para entrenar su modelo, Stability se asoci\u00f3 con el proveedor de m\u00fasica AudioSparx y obtuvo la licencia de un conjunto de datos \u00abque consta de m\u00e1s de 800.000 archivos de audio que contienen m\u00fasica, efectos de sonido y temas de un solo instrumento, as\u00ed como los metadatos de texto correspondientes\u00bb. Despu\u00e9s de introducir 19.500 horas de audio en el modelo, Stable Audio sabe c\u00f3mo imitar ciertos sonidos que ha escuchado cuando se le ordena porque los sonidos se han asociado con descripciones textuales de ellos dentro de su red neuronal.<\/p>\n\nAgrandar
\/<\/span> Un diagrama de bloques de la arquitectura Stable Audio proporcionada por Stability AI.<\/div>\nEstabilidad IA<\/p>\n<\/figcaption><\/figure>\n
Stable Audio contiene varias partes que funcionan juntas para crear audio personalizado r\u00e1pidamente. Una parte reduce el archivo de audio de una manera que mantiene sus caracter\u00edsticas importantes y elimina el ruido innecesario. Esto hace que el sistema sea m\u00e1s r\u00e1pido para ense\u00f1ar y crear nuevo audio. Otra parte utiliza texto (descripciones de metadatos de la m\u00fasica y los sonidos) para ayudar a guiar qu\u00e9 tipo de audio se genera.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nPara acelerar las cosas, la arquitectura Stable Audio opera en una representaci\u00f3n de audio comprimida y muy simplificada para reducir el tiempo de inferencia (la cantidad de tiempo que tarda un modelo de aprendizaje autom\u00e1tico en generar una salida una vez que se le ha dado una entrada). Seg\u00fan Stability AI, Stable Audio puede reproducir 95 segundos de audio est\u00e9reo de 16 bits a una frecuencia de muestreo de 44,1 kHz (a menudo llamada \u00abcalidad de CD\u00bb porque coincide con las especificaciones t\u00e9cnicas del formato de CD) en menos de un segundo en una Nvidia A100. GPU. La A100 es una GPU de centro de datos robusta dise\u00f1ada para uso de IA y es mucho m\u00e1s capaz que una GPU de juegos de escritorio t\u00edpica.<\/p>\n
Si bien el audio generado puede cumplir con las especificaciones del CD en profundidad de bits y frecuencia de muestreo, vale la pena se\u00f1alar que la calidad de percepci\u00f3n real de la m\u00fasica que produce Stable Audio puede variar enormemente, particularmente porque el audio se genera a partir de una representaci\u00f3n comprimida en el conjunto de datos.<\/p>\n
Como mencionamos, Stable Audio no es el primer generador de m\u00fasica basado en t\u00e9cnicas de difusi\u00f3n latente. En diciembre pasado, cubrimos Riffusion, una versi\u00f3n para aficionados de una versi\u00f3n de audio de Stable Diffusion, aunque sus generaciones resultantes estaban lejos de las muestras de Stable Audio en calidad. En enero, Google lanz\u00f3 MusicLM, un generador de m\u00fasica con inteligencia artificial para audio de 24 kHz, y Meta lanz\u00f3 un conjunto de herramientas de audio de c\u00f3digo abierto (incluido un generador de texto a m\u00fasica) llamado AudioCraft en agosto. Ahora, con audio est\u00e9reo de 44,1 kHz, Stable Diffusion est\u00e1 subiendo la apuesta.<\/p>\n
Stability dice que Stable Audio estar\u00e1 disponible en un nivel gratuito y en un plan Pro mensual de $12. Con la opci\u00f3n gratuita, los usuarios pueden generar hasta 20 pistas por mes, cada una con una duraci\u00f3n m\u00e1xima de 20 segundos. El plan Pro ampl\u00eda estos l\u00edmites, permitiendo 500 generaciones de pistas por mes y duraciones de hasta 90 segundos. Se espera que las futuras versiones de Stability incluyan modelos de c\u00f3digo abierto basados \u200b\u200ben la arquitectura Stable Audio, as\u00ed como c\u00f3digo de capacitaci\u00f3n para aquellos interesados \u200b\u200ben desarrollar modelos de generaci\u00f3n de audio.<\/p>\n
Tal como est\u00e1n las cosas, parece que podr\u00edamos estar al borde de la m\u00fasica generada por IA con calidad de producci\u00f3n con Stable Audio, considerando su fidelidad de audio. \u00bfEstar\u00e1n contentos los m\u00fasicos si son reemplazados por modelos de IA? Probablemente no, si la historia nos ha mostrado algo sobre las protestas de la IA en el campo de las artes visuales. Por ahora, un ser humano puede superar f\u00e1cilmente cualquier cosa que la IA pueda generar, pero puede que ese no sea el caso por mucho tiempo. De cualquier manera, el audio generado por IA puede convertirse en otra herramienta m\u00e1s en la caja de herramientas de producci\u00f3n de audio de un profesional.<\/p>\n<\/p><\/div>\n
\nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Imag\u00ednese escribir \u00abm\u00fasica de introducci\u00f3n dram\u00e1tica\u00bb y escuchar una sinfon\u00eda alt\u00edsima o escribir \u00abpasos espeluznantes\u00bb y obtener efectos de sonido de alta calidad. Esa es la promesa de Stable Audio,…<\/p>\n","protected":false},"author":1,"featured_media":810934,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[6,5394,439,10972,133,148,8361,11574,2435,3090,12211,440],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/810933"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=810933"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/810933\/revisions"}],"predecessor-version":[{"id":810935,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/810933\/revisions\/810935"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/810934"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=810933"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=810933"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=810933"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}