El pionero del motor de búsqueda de China presenta un modelo de lenguaje grande de código abierto para competir con OpenAI


En febrero, el fundador de Sogou, Wang Xiaochuan, dijo en Weibo que “China necesita su propia OpenAI”. El empresario chino ahora está cada vez más cerca de su sueño cuando su nueva empresa Baichuan Intelligence lanzó hoy su modelo de lenguaje grande de próxima generación Baichuan-13B.

Baichuan se promociona como uno de los desarrolladores de LLM más prometedores de China, gracias al pasado histórico de su fundador como un prodigio de la informática de la Universidad de Tsinghua y la fundación del proveedor de motores de búsqueda Sogou, que luego fue adquirido por Tencent.

Wang renunció a Sogou a fines de 2021. Mientras ChatGPT arrasaba en el mundo, el empresario lanzó Baichuan en abril y rápidamente se embolsó $ 50 millones en financiamiento de un grupo de inversionistas ángeles.

Al igual que otros LLM locales de China, Baichuan, un modelo de 13 000 millones de parámetros basado en la arquitectura Transformer (que también respalda a GPT), se entrena con datos en chino e inglés. (Los parámetros se refieren a las variables que utiliza el modelo para generar y analizar texto). El modelo es de código abierto y está optimizado para aplicaciones comerciales, según su página de GitHub.

Baichuan-13 está entrenado en 1,4 billones de tokens. En comparación, Meta Llama utiliza 1 billón de tokens en su modelo de 13 mil millones de parámetros. Wang dijo anteriormente en un entrevista que su puesta en marcha estaba en camino de lanzar un modelo a gran escala comparable al GPT-3.5 de OpenAI para fines de este año.

Habiendo comenzado hace solo tres meses, Baichuan ya ha alcanzado una notable velocidad de desarrollo. A fines de abril, el equipo había crecido a 50 personas y, en junio, lanzó su primer LLM, el modelo de preentrenamiento Baichuan-7B que cuenta con 7 mil millones de parámetros.

Ahora, el modelo fundamental Baichuan-13B está disponible de forma gratuita para académicos y desarrolladores que hayan recibido la aprobación oficial para usarlo con fines comerciales. Es importante destacar que, en la era de las sanciones de los chips de IA de EE. UU. a China, el modelo ofrece variaciones que pueden ejecutarse en hardware de nivel de consumidor, incluidas las tarjetas gráficas 3090 de Nvidia.

Otras firmas chinas que han invertido mucho en grandes modelos de idiomas incluyen al gigante de los motores de búsqueda Baidu; Zhipu.ai, una escisión de la Universidad de Tsinghua dirigida por el profesor Tang Jie; así como el instituto de investigación IDEA dirigido por Harry Shum, quien cofundó Microsoft Research Asia.

Los grandes modelos de idiomas de China están emergiendo rápidamente a medida que el país se prepara para implementar algunas de las regulaciones de IA más estrictas del mundo. Como informó el Financial Times, se espera que China elabore regulaciones para la IA generativa con un enfoque particular en el contenido, lo que indica un mayor control que las reglas introducidas en abril. Es posible que las empresas también necesiten obtener una licencia antes de lanzar modelos de idiomas grandes, lo que podría ralentizar los esfuerzos de China para competir con EE. UU. en la industria naciente.



Source link-48