El olvido selectivo puede ayudar a la IA a aprender mejor


la versión original de esta historia apareció en Revista Quanta.

Un equipo de informáticos ha creado un tipo de modelo de aprendizaje automático más ágil y flexible. El truco: debe olvidar periódicamente lo que sabe. Y si bien este nuevo enfoque no desplazará los enormes modelos que sustentan las aplicaciones más grandes, podría revelar más sobre cómo estos programas entienden el lenguaje.

La nueva investigación marca “un avance significativo en este campo”, dijo Jea Kwon, ingeniera de inteligencia artificial en el Instituto de Ciencias Básicas de Corea del Sur.

Los motores de lenguaje de IA que se utilizan hoy en día funcionan en su mayoría con redes neuronales artificiales. Cada «neurona» de la red es una función matemática que recibe señales de otras neuronas similares, ejecuta algunos cálculos y envía señales a través de múltiples capas de neuronas. Inicialmente el flujo de información es más o menos aleatorio, pero a través del entrenamiento, el flujo de información entre neuronas mejora a medida que la red se adapta a los datos del entrenamiento. Si un investigador de IA quiere crear un modelo bilingüe, por ejemplo, entrenaría el modelo con una gran pila de texto de ambos idiomas, lo que ajustaría las conexiones entre las neuronas de tal manera que relacionara el texto en un idioma con equivalente. palabras en el otro.

Pero este proceso de formación requiere mucha potencia informática. Si el modelo no funciona muy bien, o si las necesidades del usuario cambian posteriormente, es complicado adaptarlo. «Supongamos que tiene un modelo que tiene 100 idiomas, pero imagina que un idioma que desea no está cubierto», dijo Mikel Artetxe, coautor de la nueva investigación y fundador de la startup de inteligencia artificial Reka. «Se podría empezar de cero, pero no es lo ideal».

Artetxe y sus compañeros han intentado sortear estas limitaciones. Hace unos años, Artetxe y otros entrenaron una red neuronal en un idioma y luego borraron lo que sabía sobre los componentes básicos de las palabras, llamados tokens. Estos se almacenan en la primera capa de la red neuronal, llamada capa de incrustación. Dejaron todas las demás capas del modelo en paz. Después de borrar los tokens del primer idioma, volvieron a entrenar el modelo en el segundo idioma, lo que llenó la capa de incrustación con nuevos tokens de ese idioma.

Aunque el modelo contenía información que no coincidía, el reentrenamiento funcionó: el modelo pudo aprender y procesar el nuevo lenguaje. Los investigadores supusieron que mientras la capa de incrustación almacenaba información específica de las palabras utilizadas en el idioma, los niveles más profundos de la red almacenaban información más abstracta sobre los conceptos detrás de los idiomas humanos, lo que luego ayudaba al modelo a aprender el segundo idioma.

“Vivimos en el mismo mundo. Conceptualizamos las mismas cosas con diferentes palabras” en diferentes idiomas, dijo Yihong Chen, autor principal del artículo reciente. “Es por eso que el modelo tiene el mismo razonamiento de alto nivel. Una manzana es algo dulce y jugoso, en lugar de sólo una palabra”.



Source link-46