Google anuncia sus chips aceleradores de IA e hipercomputadora de IA Cloud TPU v5p de próxima generación


Google ha anunciado el acelerador de IA flexible y escalable «más potente» de la compañía, denominado Cloud TPU v5p junto con un nuevo modelo de hipercomputadora de IA.

Google planea tomar las riendas del tren de la IA a través de su nuevo chip TPV v5p en la nube y soluciones de hipercomputadora de IA

Con el rápido progreso de los mercados de IA, las empresas están avanzando hacia sus soluciones cuando se trata de proporcionar potencia informática a los desarrollos en curso. Empresas como Microsoft con su Maia 100 AI Accelerator y Amazon con su Trainium2 pretenden sobresalir entre sí cuando se trata de hardware de rendimiento optimizado para abordar cargas de trabajo de IA, y Google de hecho se ha sumado a la lista.

Ahora Google ha presentado varios elementos interesantes, como su nuevo modelo Gemini para la industria de la inteligencia artificial, pero nuestra cobertura se centrará más en el lado del hardware. Cloud TPU v5p es la TPU (Unidad de procesamiento de tensor de nube) más capaz y rentable de Google hasta la fecha. Cada módulo TPU v5p consta de la friolera de 8960 chips interconectados utilizando la conexión entre chips de mayor ancho de banda a 4800 Gbps por chip, lo que garantiza velocidades de transferencia rápidas y un rendimiento óptimo. Google no parece detenerse, ya que las próximas cifras del salto generacional te sorprenderán.

Fuente de la imagen: Google Cloud

En comparación con el TPU v4, el v5p recién lanzado viene con dos veces más FLOPS (operaciones de punto flotante por segundo) y tres veces más ancho de banda de memoria alta, lo cual es sorprendente si se considera en el dominio de la inteligencia artificial.

Además, en cuanto al entrenamiento de modelos, el TPU v5p muestra un salto generacional de 2,8 veces en las velocidades de entrenamiento LLM. Google también ha creado espacio para exprimir más potencia informática, ya que el TPU v5p es «4 veces más escalable que el TPU v4 en términos de FLOP totales disponibles por pod».

1_próxima-generación_ai_workloads-max-2000x2000
2_próxima-generación_ai_workloads-max-2000x2000

Resumiendo cosas para el chip AI Google Cloud TPU v5p:

  • 2 veces más fracasos en comparación con TPU v4 (459 TFLOP Bf16 / 918 TOP INT8)
  • 3 veces más capacidad de memoria en comparación con TPU v4 (95 GB HBM)
  • Formación LLM 2,8 veces más rápida
  • Entrenamiento de modelos densos con incrustación 1,9 veces más rápido
  • 2,25 veces más ancho de banda en comparación con TPU v4 (2765 GB/s frente a 1228 GB/s)
  • Ancho de banda de interconexión de interchip 2X versus TPU v4 (4800 Gbps versus 2400 Gbps)

Google ha reconocido el aparente éxito a la hora de tener los mejores recursos de hardware y software a bordo, por lo que la empresa cuenta con una hipercomputadora de IA, que es un «conjunto» de elementos diseñados para trabajar en cooperación para permitir cargas de trabajo de IA modernas. Google ha integrado computación con rendimiento optimizado, almacenamiento óptimo y refrigeración líquida para aprovechar todas las inmensas capacidades y generar un rendimiento que de hecho es una maravilla de la industria en sí.

Fuente de la imagen: Google Cloud

En cuanto al software, Google ha intensificado el uso de software abierto para ajustar sus cargas de trabajo de IA y garantizar el mejor rendimiento de su hardware. A continuación se muestra un resumen de los recursos de software recién agregados en AI Hypercomputer:

  • Un amplio soporte para marcos de aprendizaje automático populares, como JAX, TensorFlow y PyTorch, está disponible desde el primer momento. Tanto JAX como PyTorch funcionan con el compilador OpenXLA para crear LLM sofisticados. XLA sirve como columna vertebral fundamental, permitiendo la creación de modelos complejos de múltiples capas (entrenamiento e inferencia de Llama 2 en Cloud TPU con PyTorch/XLA). Optimiza las arquitecturas distribuidas en una amplia gama de plataformas de hardware, lo que garantiza un desarrollo de modelos eficiente y fácil de usar para diversos casos de uso de IA (AssemblyAI aprovecha JAX/XLA y Cloud TPU para el habla de IA a gran escala).
  • El software abierto y exclusivo Multislice Training y Multihost Inferencing, respectivamente, hace que escalar, entrenar y atender cargas de trabajo sea fluido y sencillo. Los desarrolladores pueden escalar a decenas de miles de chips para soportar cargas de trabajo de IA exigentes.
  • Integración profunda con Google Kubernetes Engine (GKE) y Google Compute Engine, para brindar administración eficiente de recursos, entornos de operaciones consistentes, escalado automático, aprovisionamiento automático de grupos de nodos, puntos de verificación automáticos, reanudación automática y recuperación oportuna de fallas.

El enfoque revolucionario de Google hacia la inteligencia artificial es bastante evidente con su nuevo conjunto de elementos de hardware y software, todos listos para romper las barreras que limitan la industria. Será interesante ver cómo las nuevas unidades de procesamiento Cloud TPU v5p, junto con la hipercomputadora AI, ayudan en los desarrollos en curso, pero una cosa es segura: seguramente aumentarán la competencia.

Fuente de noticias: Google Cloud

Comparte esta historia

Facebook

Gorjeo



Source link-29