La escasez de chips Nvidia deja a las empresas emergentes de inteligencia artificial luchando por la potencia informática


Proveedores de computación en la nube son muy conscientes de que sus clientes están luchando por conseguir capacidad. La creciente demanda ha “tomado un poco por sorpresa a la industria”, dice Chetan Kapoor, director de gestión de productos de AWS.

El tiempo necesario para adquirir e instalar nuevas GPU en sus centros de datos ha dejado atrás a los gigantes de la nube, y los acuerdos específicos de mayor demanda también añaden estrés. Mientras que la mayoría de las aplicaciones pueden operar desde procesadores distribuidos libremente por todo el mundo, el entrenamiento de programas de IA generativa ha tendido a funcionar mejor cuando las GPU están físicamente agrupadas muy juntas, a veces con 10.000 chips a la vez. Eso vincula la disponibilidad como nunca antes.

Kapoor dice que el cliente típico de IA generativa de AWS accede a cientos de GPU. «Si hay una solicitud de un cliente en particular que necesita 1.000 GPU mañana, nos llevará algún tiempo colocarlas», afirma Kapoor. «Pero si son flexibles, podemos solucionarlo».

AWS ha sugerido a los clientes que adopten servicios personalizados más caros a través de su oferta Bedrock, donde las necesidades de chips se incluyen en la oferta sin que los clientes tengan que preocuparse. O los clientes podrían probar los chips de IA exclusivos de AWS, Trainium e Inferentia, que han registrado un aumento no especificado en su adopción, afirma Kapoor. Actualizar los programas para que funcionen con esos chips en lugar de las opciones de Nvidia ha sido tradicionalmente una tarea ardua, aunque Kapoor dice que pasar a Trainium ahora requiere tan solo cambiar dos líneas de código de software en algunos casos.

Los desafíos también abundan en otros lugares. Google Cloud no ha podido satisfacer la demanda de su equivalente GPU local, conocido como TPU, según un empleado no autorizado a hablar con los medios. Un portavoz no respondió a una solicitud de comentarios. La unidad de nube Azure de Microsoft ha ofrecido reembolsos a los clientes que no utilizan las GPU que reservaron, informó Information en abril. Microsoft se negó a comentar.

Las empresas de la nube preferirían que los clientes reservaran capacidad con meses o años de anticipación para que esos proveedores puedan planificar mejor sus propias compras e instalaciones de GPU. Pero las nuevas empresas, que generalmente tienen un mínimo de efectivo y necesidades intermitentes a medida que clasifican sus productos, se han mostrado reacias a comprometerse y prefieren planes de compra sobre la marcha. Esto ha llevado a un aumento en el negocio de proveedores de nube alternativos, como Lambda Labs y CoreWeave, que han obtenido entre todos casi 500 millones de dólares de inversores este año. Astria, la startup generadora de imágenes, se encuentra entre sus clientes.

AWS no está precisamente contento con perder frente a nuevos participantes en el mercado, por lo que está considerando opciones adicionales. «Estamos pensando en diferentes soluciones a corto y largo plazo para brindar la experiencia que nuestros clientes buscan», dice Kapoor, sin dar más detalles.

La escasez de proveedores de nube está afectando a sus clientes, que incluyen algunos grandes nombres de la tecnología. La plataforma de redes sociales Pinterest está ampliando su uso de la IA para servir mejor a los usuarios y anunciantes, según el director de tecnología Jeremy King. La empresa está considerando utilizar los nuevos chips de Amazon. «Necesitamos más GPU, como todo el mundo», afirma King. «La escasez de chips es real».



Source link-46