Nvidia presenta la GPU Blackwell B200, el ‘chip más potente del mundo’ para IA


El imprescindible chip H100 AI de Nvidia lo logró una empresa multimillonariauno que puede valer la pena más que Alphabet y Amazony los competidores han sido luchando para ponerse al día. Pero tal vez Nvidia esté a punto de ampliar su liderazgo, con la nueva GPU Blackwell B200 y el “superchip” GB200.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Nvidia

Nvidia dice que la nueva GPU B200 ofrece hasta 20 petaflops de caballos de fuerza del FP4 de sus 208 mil millones de transistores. Además, dice, un GB200 que combina dos de esas GPU con una sola CPU Grace puede ofrecer 30 veces más rendimiento para cargas de trabajo de inferencia LLM y, al mismo tiempo, ser potencialmente sustancialmente más eficiente. «Reduce el costo y el consumo de energía hasta 25 veces» en comparación con un H100, dice Nvidia.

Para entrenar un modelo de 1,8 billones de parámetros se habrían necesitado anteriormente 8.000 GPU Hopper y 15 megavatios de potencia, afirma Nvidia. Hoy, el CEO de Nvidia dice que 2.000 GPU Blackwell pueden hacerlo consumiendo sólo cuatro megavatios.

En un punto de referencia GPT-3 LLM con 175 mil millones de parámetros, Nvidia dice que el GB200 tiene un rendimiento algo más modesto siete veces el de un H100, y Nvidia dice que ofrece cuatro veces la velocidad de entrenamiento.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Nvidia

Nvidia dijo a los periodistas que una de las mejoras clave es un motor transformador de segunda generación que duplica la computación, el ancho de banda y el tamaño del modelo mediante el uso de cuatro bits para cada neurona en lugar de ocho (de ahí los 20 petaflops del FP4 que mencioné anteriormente). Una segunda diferencia clave solo surge cuando se conecta una gran cantidad de estas GPU: un conmutador NVLink de próxima generación que permite que 576 GPU se comuniquen entre sí, con 1,8 terabytes por segundo de ancho de banda bidireccional.

Eso requirió que Nvidia construyera un chip conmutador de red completamente nuevo, uno con 50 mil millones de transistores y parte de su propia computación integrada: 3,6 teraflops de FP8, dice Nvidia.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Nvidia

Anteriormente, dice Nvidia, un grupo de sólo 16 GPU dedicaba el 60 por ciento de su tiempo a comunicarse entre sí y sólo el 40 por ciento a la computación.

Nvidia cuenta con que las empresas compren grandes cantidades de estas GPU, por supuesto, y las está empaquetando en diseños más grandes, como el GB200 NVL72, que conecta 36 CPU y 72 GPU en un único bastidor refrigerado por líquido para un total de 720 petaflops de Rendimiento de entrenamiento de IA o 1.440 petaflops (también conocido como 1,4 exaflops) de inferencia. Tiene casi dos millas de cables en su interior, con 5.000 cables individuales.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Nvidia

Cada bandeja del bastidor contiene dos chips GB200 o dos conmutadores NVLink, con 18 de los primeros y nueve de los últimos por bastidor. En total, Nvidia dice que uno de estos bastidores puede admitir un modelo de 27 billones de parámetros. Se rumorea que GPT-4 tiene alrededor de un modelo de parámetros de 1,7 billones.

La compañía dice que Amazon, Google, Microsoft y Oracle ya están planeando ofrecer los racks NVL72 en sus ofertas de servicios en la nube, aunque no está claro cuántos están comprando.

Y, por supuesto, Nvidia también se complace en ofrecer a las empresas el resto de la solución. Aquí está el DGX Superpod para DGX GB200, que combina ocho sistemas en uno para un total de 288 CPU, 576 GPU, 240 TB de memoria y 11,5 exaflops de computación FP4.

Nvidia dice que sus sistemas pueden escalar a decenas de miles de superchips GB200, conectados con redes de 800 Gbps con su nuevo Quantum-X800 InfiniBand (para hasta 144 conexiones) o Ethernet Spectrum-X800 (para hasta 64 conexiones).

No esperamos escuchar nada sobre las nuevas GPU para juegos hoy, ya que esta noticia surge de la Conferencia de tecnología GPU de Nvidia, que generalmente se centra casi por completo en la computación GPU y la inteligencia artificial, no en los juegos. Pero la arquitectura de la GPU Blackwell probablemente también impulse una futura línea de la serie RTX 50 de tarjetas gráficas de escritorio.



Source link-37