(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\nCerebras, la compa\u00f1\u00eda que construye el chip m\u00e1s grande del mundo, el Wafer Scale Engine 2 (WSE-2), present\u00f3 hoy su supercomputadora Andromeda. Andromeda combina 16 de los chips WSE-2 del tama\u00f1o de una oblea en un cl\u00faster con 13,5 millones de n\u00facleos optimizados para IA que, seg\u00fan la empresa, ofrece hasta 1 Exaflop de potencia inform\u00e1tica de IA, o 120 Petaflops de precisi\u00f3n media de 16 bits. <\/p>\n
Los chips est\u00e1n alojados en diecis\u00e9is sistemas CS-2. Cada chip ofrece hasta 12,1 TB\/s de ancho de banda interno (96,8 Terabits) a los n\u00facleos de IA, pero los datos se env\u00edan a los procesadores CS-2 a trav\u00e9s de una red de 100 GbE distribuida en 124 nodos de servidor en 16 bastidores. En total, esos servidores funcionan con 284 procesadores EPYC Milan de tercera generaci\u00f3n que manejan 64 n\u00facleos cada uno, con un total de 18,176 n\u00facleos. <\/p>\n\nTodo el sistema consume 500 KW, que es una cantidad de energ\u00eda dr\u00e1sticamente menor que las supercomputadoras aceleradas por GPU algo comparables. Sin embargo, escalar una carga de trabajo a trav\u00e9s de estas supercomputadoras paralelas masivas ha sido durante mucho tiempo uno de los principales inhibidores: en alg\u00fan momento, la escala tiende a fallar, por lo que agregar m\u00e1s hardware da como resultado un punto de rendimiento que disminuye r\u00e1pidamente. <\/p>\n
Sin embargo, Cerebras dice que su implementaci\u00f3n escala casi linealmente con modelos de lenguaje grande de clase GPT, como GPT-3, GPT-J y GPT-NeoX. Andromeda tambi\u00e9n puede procesar modelos de 2500 millones y 25000 millones de par\u00e1metros que los cl\u00fasteres de GPU est\u00e1ndar simplemente no pueden manejar debido a limitaciones de memoria. <\/p>\n
\n
\n
Imagen 1 de 3<\/p>\n
\n
\n
\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Cerebras)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Cerebras)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Cerebras)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\nComo recordatorio, el Cerebras WSE-2 es el procesador de un solo chip m\u00e1s grande del mundo. Cada chip de 7 nm est\u00e1 dise\u00f1ado espec\u00edficamente para hacer frente a cargas de trabajo de IA con 850 000 n\u00facleos espec\u00edficos de IA repartidos en 46 225 mm2 de silicio empaquetado con 2,6 billones de transistores. El chip tiene 40 GB de memoria SRAM en el chip, 20 petabytes de ancho de banda de memoria y 220 petabits de ancho de banda de estructura agregado. Cada WSE-2 consume 15kW de potencia. <\/p>\n
\n
\n
Imagen 1 de 2<\/p>\n
\n
\n
\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\nEl escalado de la carga de trabajo est\u00e1 por debajo de la media en la mayor\u00eda de los sistemas grandes, lo que lleva a un punto de retorno decreciente, a menudo debido a limitaciones de c\u00f3digo, memoria, estructura y\/o red. Sin embargo, Cerebras ha demostrado que sus sistemas CS-2 escalan casi linealmente a trav\u00e9s del paralelismo de datos sin cambios en el c\u00f3digo subyacente: la supercomputadora Andromeda de la compa\u00f1\u00eda comenz\u00f3 a procesar cargas de trabajo a los diez minutos de estar completamente conectada. <\/p>\n
Los diecis\u00e9is CS-2 utilizan la interconexi\u00f3n MemoryX y Swarm-X de la empresa para simplificar y orquestar la divisi\u00f3n del modelo entre los sistemas. Este enfoque almacena los par\u00e1metros del modelo fuera del chip en un gabinete MemoryX mientras mantiene el modelo en el chip, lo que permite que un solo sistema calcule modelos de IA m\u00e1s grandes que antes y combata los problemas t\u00edpicos de latencia y ancho de banda de la memoria que a menudo restringen la escalabilidad con grupos de procesadores. Cerebras dice que esto permite que el sistema se escale casi linealmente en hasta 192 sistemas CS-2. <\/p>\n
Andromeda se implementa en el centro de datos de Colovore en Santa Clara, California. La compa\u00f1\u00eda ha abierto Andromeda tanto a clientes como a investigadores acad\u00e9micos, incluido el Laboratorio Nacional de Argonne, que afirma que ya coloc\u00f3 todo el genoma de COVID-19 en una ventana de secuencia y ejecut\u00f3 la carga de trabajo en hasta 16 nodos con \u00ablineal casi perfecto\u00bb. escalada.\u00bb Ese proyecto es ahora finalista del prestigioso Premio Especial ACM Gordon Bell. Otros usuarios incluyen JaperAI y la Universidad de Cambridge. Puede obtener m\u00e1s informaci\u00f3n sobre el sistema aqu\u00ed. <\/p>\n
\n
\n
Imagen 1 de 20<\/p>\n
\n
\n
\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n
\n
\n
\n
\n\n
\n
\n
<\/div>\n<\/div>\n<\/div>\n<\/div>
(Cr\u00e9dito de la imagen: Hardware de Tom)<\/span><\/figcaption><\/figure>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n