Clibrain se suma a la carrera de IA generativa con Lince, un LLM optimizado para español


Ya existe una larga lista de modelos de lenguaje grande (LLM), desde GPT-4 de OpenAI hasta PaLM2 de Google y LLaMA de Meta, por nombrar tres de los ejemplos más destacados. La diferenciación entre los LLM está determinada por factores que incluyen la arquitectura central del modelo, los datos de entrenamiento utilizados, las ponderaciones del modelo aplicadas y cualquier ajuste fino para contextos/propósitos específicos, así como el costo de desarrollo (y el presupuesto relativo del creador del modelo para derrochar sobre esos costos), todo lo cual puede influir en el rendimiento de este tipo de IA generativa en respuesta a la consulta de lenguaje natural de un usuario.

La cuestión es que es poco probable que esta larga lista de LLM deje de crecer en el corto plazo, dada la cantidad de variables con las que los fabricantes de IA pueden jugar y los contextos en los que se apoyan para tratar de obtener el mejor rendimiento de la IA generativa conversacional para un caso de uso dado.

Otro factor que influye en los resultados es cuánto se ha centrado el desarrollo de LLM en el idioma inglés, con menos atención prestada a los modelos de capacitación en otros idiomas (por lo general, es más barato/más fácil obtener datos del idioma inglés para la capacitación). Esto significa que es probable que los LLM se desempeñen mejor en respuesta a consultas en inglés que en otros idiomas. Entonces, los modelos capacitados en idiomas distintos del inglés, posiblemente, presentan una oportunidad bastante notable para seguir construyendo esa lista.

Con ese fin, conozca a Lince Zero: un LLM adaptado a la instrucción en español, lanzado la semana pasada por la startup de IA con sede en Madrid Clibrain, que reconoce que ha detectado una brecha para unirse a la carrera de IA generativa mediante el desarrollo de modelos optimizados para hispanohablantes.

Señala que el español no solo es uno de los idiomas más hablados a nivel mundial, sino que cuenta con una variedad considerable, en términos de dialectos y variantes, ya que se habla en unos 20 países que abarcan varios continentes (y contextos culturales), lo que sugiere que enturbia el agua para el rendimiento. de los modelos convencionales que no se centran tan exhaustivamente en español.

Uno de esos grandes, ChatGPT de OpenAI, maneja español. Al igual que otros. Pero Clibrain sostiene que su enfoque completo en el idioma permitirá que su próximo modelo fundamental, además de una serie de modelos entrenados en dominios que planea desarrollar sobre el grande, podrá analizar y comprender más matices lingüísticos en español que el LLM promedio, gracias. al entrenamiento en un corpus dedicado de datos en español.

El lanzamiento de Lince Zero es el primer paso en su ambiciosa hoja de ruta. Este LLM es basado en gran medida en tecnologías de código abierto existentes, por lo que aún no puede presumir de su propio modelo fundamental. Pero dice que llegará pronto.

Co-fundadores de Clibrain. Créditos de imagen: librain

La cofundadora y directora ejecutiva, Elena González-Blanco, aporta una formación académica en investigación lingüística y poesía a la startup, combinada con un enfoque profesional en IA (o I A como se traduce en español), incluidos los años dedicados a trabajar en iteraciones anteriores de tecnología de procesamiento de lenguaje natural (NLP) y acumular experiencia en la industria en insurtech y fintech (en empresas como Indra y Banco Santander).

Pero ella señala sus años de investigación lingüística como una contribución particularmente clave al proyecto, al permitir que Clibrain obtenga datos de capacitación únicos para alimentar sus ambiciones de creación de modelos ahora.

Contar con la calidad lingüística

“Tenemos un corpus [of training data] que es único”, dice ella. “Soy lingüista tengo, digamos, 15 años de investigación en cuanto a historia de la lengua, lengua española… muchos contactos que aún no han sido utilizados para la formación. Así que tenemos un corpus único [as a differentiator].”

«Creemos que hay una oportunidad súper interesante para nosotros porque es cierto que están sucediendo muchas cosas en el mundo de la IA, pero el mercado de habla hispana está completamente en un segundo nivel», también le dice a TechCrunch. “La calidad de lo que estamos construyendo, lingüísticamente, es significativamente diferente. Entonces el punto no es [to build] un modelo enorme, pero un modelo de muy alta calidad”.

El lanzamiento del modelo debut de Clibrain, que se llama modelo Lince Zero (y se lanza bajo una licencia de código abierto), es una prueba de parámetros 7BN de un modelo más poderoso (fundacional) (parámetros 40BN) que tiene en proceso, que simplemente será llamado Lince (una palabra que significa lince en inglés; también conocido como una referencia al icónico pero rara vez vislumbrado gato salvaje de España).

Como puede ver en los números de parámetros, estos LLM están lejos de competir por ser los modelos más grandes del bloque. Pero, como argumenta González-Blanco, la convicción de Clibrain es que el tamaño del modelo, per se, no será la característica principal cuando se trata de generar una ventaja de rendimiento en torno a una mejor comprensión del español, sino que contará la atención de calidad a los detalles lingüísticos (y, espera, darle una ventaja en los mercados españoles). Entonces, esencialmente, está anticipando que habrá un grupo de usuarios de habla hispana dispuestos a sacrificar un poco las capacidades (y/o potencia) de IA generativa de vanguardia por un mayor nivel de comprensión lingüística nativa.

Y en ese frente, es justo decir que las cosas que se pierden en la traducción pueden generar mucha fricción irritante. Por lo tanto, suponiendo que Lince realmente pueda brindar, y mantener, una ventaja lingüística para las consultas en español, podría ser útil para (al menos) una parte de los cerca de 500 millones de hablantes nativos de español en todo el mundo que podrían terminar usando este tipo de IA. herramientas.

Por supuesto, no es el primero en ver el valor de optimizar para un idioma específico. Actualmente, existen varios LLM optimizados para idiomas distintos del inglés, como el modelo de idioma chino de Baidu, Ernie. O esta familia de modelos LLM que se está ajustando para alemán. El gigante tecnológico surcoreano Naver también está trabajando en modelos generativos de IA entrenados en coreano. Y es una apuesta segura que veremos más LLM dirigidos a comunidades de personas que no hablan inglés, al menos para los idiomas más hablados.

Clibrain tampoco es el primer modelo de IA conversacional que se centra en el español: el proyecto MarIA del Barcelona Supercomputing Center, que se lanzó en 2021, afirmó ser el primer sistema de IA «masivo» en español. Pero Clibrain argumenta que superó a MarIA y reunió el modelo tecnológicamente más “avanzado” enfocado en el mercado de habla hispana hasta la fecha.

Según González-Blanco, el rendimiento de Lince Zero es equivalente a GPT-3, mientras que ella dice que el rendimiento de MarIA es equivalente a GPT-2. (Aunque la evaluación comparativa del desempeño lingüístico de los LLM es un negocio de vanguardia en sí mismo. Sin embargo, en ese frente, Clibrain alienta a los hispanohablantes a verificar lo que está construido y comenzar a generar comentarios).

A diferencia de Lince Zero, el próximo modelo de Lince (con toda la grasa) no será de código abierto. En cambio, el modelo patentado estará disponible a través de API para los clientes que pagan y desean conectarse a un modelo que ha sido entrenado en un corpus de datos en español. La startup también ofrecerá acceso mediante la incorporación del modelo en un trío de aplicaciones de comunicación y productividad que también ofrece (llamadas CliChat, CliCall y CliBot).

El desarrollo también continuará y tiene la intención de ofrecer más modelos patentados en el futuro, incluidos modelos multimodales que pueden responder a imágenes y audio, no solo a texto. Por lo tanto, hay mucho en su hoja de ruta de productos para mantener ocupado al equipo.

Si bien Clibrain se basó en una serie de tecnologías de código abierto para construir Lince Zero (la documentación en su tarjeta modelo Hugging Face estipula que se basa en Falcon-7B, ajustado con una combinación de conjuntos de datos de Alpaca y Dolly, traducido al español y «aumentado» a 80k ejemplos) afirma que no solo está usando arquitecturas existentes, promocionando su propio talento de ingeniería senior en IA.

La puesta en marcha se fundó en abril, por lo que solo tiene alrededor de tres meses, lo que parece subrayar el ritmo vertiginoso del desarrollo en el campo de la IA generativa en estos días, con tantas bibliotecas ricas de código abierto para aprovechar y calcular los costos para el entrenamiento del modelo. habiéndose reducido considerablemente en comparación con los últimos años. Pero no estaba comenzando exactamente desde cero, ya que se escindió de otra de las empresas emergentes de González-Blanco (una entidad de préstamo respaldada por automóviles llamada Clidrive).

Ella explica que habían estado experimentando con IA internamente en ese negocio, pero decidieron que el tamaño de la oportunidad de desarrollar un LLM ajustado para los mercados españoles ameritaba abrir una startup por separado, y aquí están todos: A equipo multidisciplinario de cerca de 30 empleados con un laboratorio de I + D centrado en la IA generativa como núcleo.

“Fue muy fácil para nosotros construir ese grupo de investigación y centrarnos en lo que ya habíamos estado haciendo”, agrega González-Blanco.

Los otros (cuatro) cofundadores son Pablo Fernández (presidente), Pablo Molina (CTO), Paul Martz (CPO) y David Villalón (CAIO).

Los cofundadores han estado impulsando el desarrollo hasta el momento, utilizando fondos obtenidos de salidas de startups anteriores. Lo que significa que, tal vez de manera inusual en estos tiempos alimentados por la IA con grandes cantidades de efectivo de los inversores que se redirigen para apuntar a empresarios centrados en la IA, Clibrain aún no tiene una lista de inversores considerable ni un fondo de guerra profundo.

González-Blanco dice que querían centrarse en desarrollar modelos básicos y llevar sus primeros productos al mercado, en lugar de en la recaudación de fondos externa. Pero agrega que pueden buscar recaudar una ronda de inversión mayor que la que los fundadores pudieron realizar por sí mismos a medida que continúan avanzando con la hoja de ruta del producto Lince.



Source link-48