Cerebras, la compañía que construye el chip más grande del mundo, el Wafer Scale Engine 2 (WSE-2), presentó hoy su supercomputadora Andromeda. Andromeda combina 16 de los chips WSE-2 del tamaño de una oblea en un clúster con 13,5 millones de núcleos optimizados para IA que, según la empresa, ofrece hasta 1 Exaflop de potencia informática de IA, o 120 Petaflops de precisión media de 16 bits.
Los chips están alojados en dieciséis sistemas CS-2. Cada chip ofrece hasta 12,1 TB/s de ancho de banda interno (96,8 Terabits) a los núcleos de IA, pero los datos se envían a los procesadores CS-2 a través de una red de 100 GbE distribuida en 124 nodos de servidor en 16 bastidores. En total, esos servidores funcionan con 284 procesadores EPYC Milan de tercera generación que manejan 64 núcleos cada uno, con un total de 18,176 núcleos.
Todo el sistema consume 500 KW, que es una cantidad de energía drásticamente menor que las supercomputadoras aceleradas por GPU algo comparables. Sin embargo, escalar una carga de trabajo a través de estas supercomputadoras paralelas masivas ha sido durante mucho tiempo uno de los principales inhibidores: en algún momento, la escala tiende a fallar, por lo que agregar más hardware da como resultado un punto de rendimiento que disminuye rápidamente.
Sin embargo, Cerebras dice que su implementación escala casi linealmente con modelos de lenguaje grande de clase GPT, como GPT-3, GPT-J y GPT-NeoX. Andromeda también puede procesar modelos de 2500 millones y 25000 millones de parámetros que los clústeres de GPU estándar simplemente no pueden manejar debido a limitaciones de memoria.
Como recordatorio, el Cerebras WSE-2 es el procesador de un solo chip más grande del mundo. Cada chip de 7 nm está diseñado específicamente para hacer frente a cargas de trabajo de IA con 850 000 núcleos específicos de IA repartidos en 46 225 mm2 de silicio empaquetado con 2,6 billones de transistores. El chip tiene 40 GB de memoria SRAM en el chip, 20 petabytes de ancho de banda de memoria y 220 petabits de ancho de banda de estructura agregado. Cada WSE-2 consume 15kW de potencia.
El escalado de la carga de trabajo está por debajo de la media en la mayoría de los sistemas grandes, lo que lleva a un punto de retorno decreciente, a menudo debido a limitaciones de código, memoria, estructura y/o red. Sin embargo, Cerebras ha demostrado que sus sistemas CS-2 escalan casi linealmente a través del paralelismo de datos sin cambios en el código subyacente: la supercomputadora Andromeda de la compañía comenzó a procesar cargas de trabajo a los diez minutos de estar completamente conectada.
Los dieciséis CS-2 utilizan la interconexión MemoryX y Swarm-X de la empresa para simplificar y orquestar la división del modelo entre los sistemas. Este enfoque almacena los parámetros del modelo fuera del chip en un gabinete MemoryX mientras mantiene el modelo en el chip, lo que permite que un solo sistema calcule modelos de IA más grandes que antes y combata los problemas típicos de latencia y ancho de banda de la memoria que a menudo restringen la escalabilidad con grupos de procesadores. Cerebras dice que esto permite que el sistema se escale casi linealmente en hasta 192 sistemas CS-2.
Andromeda se implementa en el centro de datos de Colovore en Santa Clara, California. La compañía ha abierto Andromeda tanto a clientes como a investigadores académicos, incluido el Laboratorio Nacional de Argonne, que afirma que ya colocó todo el genoma de COVID-19 en una ventana de secuencia y ejecutó la carga de trabajo en hasta 16 nodos con «lineal casi perfecto». escalada.» Ese proyecto es ahora finalista del prestigioso Premio Especial ACM Gordon Bell. Otros usuarios incluyen JaperAI y la Universidad de Cambridge. Puede obtener más información sobre el sistema aquí.