{"id":878407,"date":"2023-11-10T05:05:16","date_gmt":"2023-11-10T05:05:16","guid":{"rendered":"https:\/\/magazineoffice.com\/la-supercomputadora-eos-de-nvidia-acaba-de-batir-su-propio-record-de-referencia-en-entrenamiento-de-ia\/"},"modified":"2023-11-10T05:05:20","modified_gmt":"2023-11-10T05:05:20","slug":"la-supercomputadora-eos-de-nvidia-acaba-de-batir-su-propio-record-de-referencia-en-entrenamiento-de-ia","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/la-supercomputadora-eos-de-nvidia-acaba-de-batir-su-propio-record-de-referencia-en-entrenamiento-de-ia\/","title":{"rendered":"La supercomputadora Eos de NVIDIA acaba de batir su propio r\u00e9cord de referencia en entrenamiento de IA"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p>Dependiendo del hardware que est\u00e9 utilizando, entrenar un modelo de lenguaje grande de cualquier tama\u00f1o significativo puede tardar semanas, meses e incluso a\u00f1os en completarse.  Esa no es forma de hacer negocios: nadie tiene la electricidad ni el tiempo para esperar tanto tiempo.  El mi\u00e9rcoles, NVIDIA present\u00f3 la versi\u00f3n m\u00e1s reciente de su supercomputadora Eos, impulsada por m\u00e1s de 10,000 GPU H100 Tensor Core y capaz de entrenar un modelo GPT-3 de 175 mil millones de par\u00e1metros en mil millones de tokens en menos de cuatro minutos.  Esto es tres veces m\u00e1s r\u00e1pido que el punto de referencia anterior del est\u00e1ndar industrial MLPerf AI, que NVIDIA estableci\u00f3 hace apenas seis meses.<\/p>\n<p>Eos representa una enorme cantidad de c\u00f3mputo.  Aprovecha 10.752 GPU conectadas mediante la red Infiniband de NVIDIA (moviendo un petabyte de datos por segundo) y 860 terabytes de memoria de alto ancho de banda (ancho de banda agregado de 36 PB\/s y 1,1 PB interconectados) para ofrecer <em>40 exaflops<\/em> de la potencia de procesamiento de la IA.  Toda la arquitectura de la nube se compone de 1.344 nodos: servidores individuales a los que las empresas pueden alquilar el acceso por alrededor de 37.000 d\u00f3lares al mes para ampliar sus capacidades de inteligencia artificial sin tener que construir su propia infraestructura.<\/p>\n<p>En total, NVIDIA estableci\u00f3 seis r\u00e9cords en nueve pruebas de referencia: la muesca de 3,9 minutos para GPT-3, una marca de 2,5 minutos para entrenar un modelo de difusi\u00f3n estable utilizando 1.024 GPU Hopper.<strong>, <\/strong>un minuto incluso para entrenar DLRM, 55,2 segundos para RetinaNet, 46 segundos para 3D U-Net y el modelo BERT-Large requiri\u00f3 solo 7,2 segundos para entrenar.<\/p>\n<p>NVIDIA se apresur\u00f3 a notar que la versi\u00f3n de 175 mil millones de par\u00e1metros de GPT-3 utilizada en la evaluaci\u00f3n comparativa no es la iteraci\u00f3n de tama\u00f1o completo del modelo (tampoco lo fue el modelo de Difusi\u00f3n Estable).  El GPT-3 m\u00e1s grande ofrece alrededor de 3,7 billones de par\u00e1metros y es demasiado grande y dif\u00edcil de manejar para usarlo como prueba de evaluaci\u00f3n comparativa.  Por ejemplo, se necesitar\u00edan 18 meses para entrenarlo en el antiguo sistema A100 con 512 GPU; aunque Eos solo necesita ocho d\u00edas.<\/p>\n<p>Entonces, NVIDIA y MLCommons, que administra el est\u00e1ndar MLPerf, aprovechan una versi\u00f3n m\u00e1s compacta que utiliza mil millones de tokens (la unidad de datos con el denominador m\u00e1s peque\u00f1o que entienden los sistemas de IA generativa).  Esta prueba utiliza una versi\u00f3n GPT-3 con la misma cantidad de interruptores potenciales para activar (que el tama\u00f1o completo (esos 175 mil millones de par\u00e1metros), solo un conjunto de datos mucho m\u00e1s manejable para usar en \u00e9l (mil millones de tokens frente a 3,7 billones).<\/p>\n<p>La impresionante mejora en el rendimiento, por supuesto, se debe al hecho de que esta reciente ronda de pruebas emple\u00f3 10,752 GPU H100 en comparaci\u00f3n con las 3,584 GPU Hopper que la compa\u00f1\u00eda utiliz\u00f3 en las pruebas comparativas de junio.  Sin embargo, NVIDIA explica que a pesar de triplicar la cantidad de GPU, logr\u00f3 mantener un rendimiento escalado 2,8 veces mayor (una tasa de eficiencia del 93 por ciento) mediante el uso generoso de optimizaci\u00f3n de software.<\/p>\n<p>\u00abEscalar es algo maravilloso\u00bb, dijo Salvator. \u00abPero con escalar, est\u00e1s hablando de m\u00e1s infraestructura, lo que tambi\u00e9n puede significar cosas como m\u00e1s costos. Un aumento escalado eficientemente significa que los usuarios est\u00e1n \u00abhaciendo el mejor uso de su infraestructura\u00bb. para que b\u00e1sicamente puedas hacer tu trabajo tan r\u00e1pido [as possible] y obtener el m\u00e1ximo valor de la inversi\u00f3n que ha realizado su organizaci\u00f3n.\u00bb<\/p>\n<p>El fabricante de chips no estuvo solo en sus esfuerzos de desarrollo.  El equipo Azure de Microsoft present\u00f3 un sistema similar de 10,752 GPU H100 para esta ronda de evaluaci\u00f3n comparativa y logr\u00f3 resultados dentro del dos por ciento de los de NVIDIA.<\/p>\n<p>\u00ab[The Azure team have] hemos podido lograr un rendimiento que est\u00e1 a la par con la supercomputadora Eos\u00bb, dijo a los periodistas Dave Salvator, director de productos de computaci\u00f3n acelerada de NVIDIA, durante una sesi\u00f3n informativa previa el martes. Es m\u00e1s, \u00abest\u00e1n usando Infiniband, pero esta es una instancia disponible comercialmente.  Este no es un sistema de laboratorio pr\u00edstino del que los clientes reales nunca ver\u00e1n sus beneficios.  Esta es la instancia real que Azure pone a disposici\u00f3n de sus clientes\u00bb.<\/p>\n<p>NVIDIA planea aplicar estas capacidades inform\u00e1ticas ampliadas a una variedad de tareas, incluido el trabajo continuo de la compa\u00f1\u00eda en el desarrollo de modelos fundamentales, dise\u00f1o de GPU asistido por IA, renderizado neuronal, IA generativa multimodal y sistemas de conducci\u00f3n aut\u00f3noma.<\/p>\n<p>\u00abCualquier buen punto de referencia que busque mantener su relevancia en el mercado tiene que actualizar continuamente las cargas de trabajo que lanzar\u00e1 al hardware para reflejar mejor el mercado al que busca servir\u00bb, dijo Salvator, se\u00f1alando que MLCommons ha agregado recientemente un punto de referencia adicional para probar el rendimiento del modelo. en tareas de Difusi\u00f3n Estable.  \u00ab\u00c9sta es otra \u00e1rea apasionante de la IA generativa en la que estamos viendo que se crean todo tipo de cosas\u00bb, desde la programaci\u00f3n de c\u00f3digos hasta el descubrimiento de cadenas de prote\u00ednas.<\/p>\n<p>Estos puntos de referencia son importantes porque, como se\u00f1ala Salvator, el estado actual del marketing de IA generativa puede parecer un \u00absalvaje oeste\u00bb.  La falta de supervisi\u00f3n y regulaci\u00f3n estrictas significa que \u00aba veces vemos ciertas afirmaciones sobre el rendimiento de la IA en las que no est\u00e1s muy seguro de todos los par\u00e1metros que intervinieron para generar esas afirmaciones en particular\u00bb.  MLPerf proporciona la seguridad profesional de que los n\u00fameros de referencia que las empresas generan utilizando sus pruebas \u00abfueron revisados, examinados y, en algunos casos, incluso cuestionados o cuestionados por otros miembros del consorcio\u00bb, dijo Salvator.  \u00abEs ese tipo de proceso de revisi\u00f3n por pares lo que realmente aporta credibilidad a estos resultados\u00bb.<\/p>\n<p>NVIDIA se ha centrado constantemente en sus capacidades y aplicaciones de IA en los \u00faltimos meses.  \u00abEstamos en el momento del iPhone para la IA\u00bb, dijo el director ejecutivo Jensen Huang durante su discurso de apertura en el GTC en marzo.  En ese momento, la compa\u00f1\u00eda anunci\u00f3 su sistema en la nube DGX, que divide la potencia de procesamiento de la supercomputadora, espec\u00edficamente mediante ocho chips H100 o A100 que ejecutan 60 GB de VRAM (640 de memoria en total).  La compa\u00f1\u00eda ampli\u00f3 su cartera de supercomputaci\u00f3n con el lanzamiento del DGX GH200 en Computex en mayo.<\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-47<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dependiendo del hardware que est\u00e9 utilizando, entrenar un modelo de lenguaje grande de cualquier tama\u00f1o significativo puede tardar semanas, meses e incluso a\u00f1os en completarse. Esa no es forma de&hellip;<\/p>\n","protected":false},"author":1,"featured_media":878408,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21981],"tags":[941,32858,1223,22491,843,1069,186,1943,22540],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/878407"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=878407"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/878407\/revisions"}],"predecessor-version":[{"id":878409,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/878407\/revisions\/878409"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/878408"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=878407"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=878407"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=878407"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}