Amazon Web Services (AWS) ha lanzado instancias EC2 que, según dice, están optimizadas específicamente para la formación de aprendizaje profundo.
Las nuevas instancias Amazon EC2 Trn1 funcionan con chips AWS Trainium, un chip ML de segunda generación diseñado por AWS, que sigue a sus chips AWS Inferentia.
El gigante de la nube afirma que estas nuevas instancias son adecuadas para el entrenamiento distribuido a gran escala de modelos complejos de aprendizaje profundo, como el procesamiento del lenguaje natural y el reconocimiento de imágenes.
¿Qué obtienen los usuarios?
Las instancias Trn1 están disponibles en dos configuraciones y funcionan con hasta 16 chips AWS Trainium con 128 vCPU.
Aparentemente, las instancias ofrecen hasta 512 GB de memoria de gran ancho de banda y entregan hasta 3,4 petaFLOPS de potencia de cómputo TF32/FP16/BF16 y cuentan con una interconexión NeuronLink entre chips. NeuronLink ayuda a evitar cuellos de botella en la comunicación al escalar cargas de trabajo en múltiples chips Trainium.
Además, Amazon dice que las instancias Trn1 son las primeras instancias EC2 que habilitan hasta 800 Gbps de ancho de banda de red de Elastic Fabric Adapter (EFA) para comunicaciones de red de alto rendimiento. Y las instancias Trn1 vienen con hasta 8 TB de almacenamiento SSD NVMe local para un acceso ultrarrápido a grandes conjuntos de datos.
AWS también dijo que sus chips Trainium incluyen motores escalares, vectoriales y tensoriales específicos que están diseñados específicamente para algoritmos de aprendizaje profundo.
Otras características nuevas de los chips Trainium incluyen soporte para una amplia gama de tipos de datos, incluidos FP32, TF32, BF16, FP16 y UINT8, redondeo estocástico, así como operadores personalizados escritos en C++ y formas dinámicas de tensor.
AWS Trainium comparte el mismo SDK de AWS Neuron que AWS Inferentia, lo que podría facilitar la transición a AWS Trainium.
¿Dónde puedo registrarme?
Puede lanzar instancias Trn1 hoy en determinadas regiones, como AWS EE. UU. Este (Norte de Virginia) y EE. UU. Oeste (Oregón).
Estas instancias Trn1 se pueden implementar mediante AMI de aprendizaje profundo de AWS, y las imágenes de contenedores están disponibles a través de servicios administrados como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS) y AWS ParallelCluster.
Para obtener más información, puede dirigirse a la página de instancias Trn1 de Amazon EC2. (se abre en una pestaña nueva).