Después de que las empresas chinas perdieran el acceso a las GPU de cómputo A100 y H100 de vanguardia de Nvidia, que se pueden usar para entrenar varios modelos de IA, tuvieron que encontrar formas de entrenarlos sin usar el hardware más avanzado. Para compensar la falta de GPU potentes, los desarrolladores de modelos de IA chinos están simplificando sus programas para reducir los requisitos y utilizando todo el hardware informático que pueden obtener en combinación, informa el Wall Street Journal.
Nvidia no puede vender sus GPU de cómputo A100 y H100 a entidades chinas como Alibaba o Baidu sin obtener una licencia de exportación del Departamento de Comercio de los EE. UU. (y casi con toda seguridad se denegaría cualquier solicitud). Por lo tanto, Nvidia ha desarrollado procesadores A800 y H800 que ofrecen un rendimiento reducido y vienen con capacidades NVLink para discapacitados, lo que limita la capacidad de construir sistemas multi-GPU de alto rendimiento que tradicionalmente se requieren para entrenar modelos de IA a gran escala.
Por ejemplo, el modelo de lenguaje a gran escala detrás de ChatGPT de OpenAI requiere de 5000 a 10 000 GPU A100 de Nvidia para entrenarse, según estimaciones de los analistas de UBS, informa el WSJ. Dado que los desarrolladores chinos no tienen acceso a los A100, usan A800 y H800 menos capaces en combinación para lograr algo similar al rendimiento de las GPU de mayor rendimiento de Nvidia, según Yang You, profesor de la Universidad Nacional de Singapur y fundador de HPC. -Tecnología de IA. En abril, Tencent presentó un nuevo clúster de computación utilizando los H800 de Nvidia para el entrenamiento de modelos de IA a gran escala. Este enfoque puede ser costoso, ya que las empresas chinas podrían necesitar tres veces más H800 que sus contrapartes estadounidenses requerirían H100 para obtener resultados similares.
Debido a los altos costos y la incapacidad de obtener físicamente todas las GPU que necesitan, las empresas chinas han diseñado métodos para entrenar modelos de IA a gran escala en diferentes tipos de chips, algo que las empresas con sede en EE. UU. rara vez hacen debido a desafíos técnicos y problemas de confiabilidad. Por ejemplo, empresas como Alibaba, Baidu y Huawei han explorado el uso de combinaciones de A100, V100 y P100 de Nvidia y Ascend de Huawei, según artículos de investigación revisados por WSJ.
Aunque hay numerosas empresas en China que desarrollan procesadores para cargas de trabajo de IA, su hardware no es compatible con plataformas de software sólidas como CUDA de Nvidia, por lo que, según se informa, las máquinas basadas en dichos chips son «propensas a aplastarse».
Además, las empresas chinas también han sido más agresivas en la combinación de varias técnicas de software para reducir los requisitos computacionales del entrenamiento de modelos de IA a gran escala, un enfoque que aún tiene que ganar terreno a nivel mundial. A pesar de los desafíos y los refinamientos en curso, los investigadores chinos han tenido cierto éxito en estos métodos.
En un artículo reciente, los investigadores de Huawei demostraron entrenar su modelo de lenguaje grande de última generación, PanGu-Σ, utilizando solo procesadores Ascend y sin GPU de cómputo Nvidia. Si bien hubo algunas deficiencias, el modelo logró un rendimiento de vanguardia en algunas tareas del idioma chino, como comprensión de lectura y pruebas de gramática.
Los analistas advierten que los investigadores chinos enfrentarán mayores dificultades sin acceso al nuevo chip H100 de Nvidia, que incluye una función adicional para mejorar el rendimiento, particularmente útil para entrenar modelos similares a ChatGPT. Mientras tanto, un artículo publicado el año pasado por Baidu y Peng Cheng Laboratory demostró que los investigadores estaban entrenando grandes modelos de lenguaje utilizando un método que podría hacer que la característica adicional fuera irrelevante.
«Si funciona bien, pueden eludir las sanciones de manera efectiva», habría dicho Dylan Patel, analista jefe de SemiAnalysis.