¿Cómo sería una IA si la criaras como a una niña?


ChatGPT, posiblemente el chatbot más famoso de todos los tiempos, aprendió sus habilidades de conversación, a veces casi humanas, analizando cantidades absurdas de datos de texto: millones de libros, artículos, páginas de Wikipedia y todo lo demás que sus creadores podían encontrar navegando por Internet.

Pero ¿qué pasaría si una IA avanzada pudiera aprender como lo hace un niño pequeño, sin leer 80 millones de libros ni mirar 97 millones de gatos? Recién está dando sus primeros pasos explorando un mundo nuevo e increíble bajo la paciente guía de mamá y papá. Un equipo de investigadores de la Universidad de Nueva York lo intentó y funcionó.

Recuerdos de la infancia

“Lo más importante de lo que habla este proyecto es este clásico debate sobre crianza versus naturaleza. ¿Qué está integrado en el niño y qué puede adquirir a través de la experiencia en el mundo? dice Wai Keen Vong, investigador del Centro de Ciencia de Datos de la Universidad de Nueva York. Para averiguarlo, Vong y su equipo impulsaron un algoritmo de IA hasta el equivalente más cercano posible a la primera infancia humana. Lo hicieron alimentándolo con una base de datos llamada SAYCam-S, que está llena de imágenes de video en primera persona tomadas por una cámara atada a un bebé llamado Sam, grabado mientras Sam hacía las cosas habituales de un bebé entre el sexto y el mes 25 de su vida. .

«Para nuestro trabajo utilizamos un algoritmo de aprendizaje multimodal, que procesaba información visual: fotogramas de la cámara y discurso dirigido por el niño», explica Vong. El algoritmo se denominó Vista del niño para el aprendizaje contrastivo (CVCL); Funcionó mediante el uso de un codificador visual y un codificador de lenguaje para traducir imágenes y palabras en vectores descriptivos. Luego, una red neuronal analizó estas ecuaciones para encontrar patrones y finalmente aprendió a asociar las imágenes correctas con las palabras correctas. (Era un algoritmo de aprendizaje multimodal genérico, nada revolucionario).

Basándose en sólo 61 de las horas de vigilia de Sam (aproximadamente el 1 por ciento de la experiencia del niño), la IA aprendió a reconocer arena, papel, rompecabezas, autos y pelotas en imágenes. Funcionó a la par con los algoritmos estándar de reconocimiento de imágenes que aprendieron de la forma habitual, a través de millones de ejemplos. Pero no podía entender las manos, ni las habitaciones, ni las cestas. Algunas cosas simplemente no encajaron aquí.

Presentaciones de diapositivas imperfectas

El problema era que la IA no percibía las experiencias de Sam como lo hacía Sam. Debido a que el algoritmo tenía acceso a cuadros individuales anotados con voz transcrita, los vio más como una presentación de diapositivas muy larga y no como una experiencia continua. «Esto provocó artefactos de aprendizaje», dice Vong.

Por ejemplo, tuvo problemas con la palabra «manos» porque aparecían manos en la mayoría de los fotogramas. Además, los padres usaban la palabra “manos” con mayor frecuencia cuando Sam estaba en la playa. Entonces, la IA confundió “manos” con “arena”, explica Vong. Lo mismo se aplica a la palabra «habitación». Sam pasaba la mayor parte del tiempo en casa y sus padres no les recordaban constantemente que estaban en una habitación.

Luego, hubo una cuestión de frecuencia de palabras. A Sam le gustaba jugar con pelotas, por eso escuchó la palabra “pelota” muchas veces. Sin embargo, rara vez escuchó la palabra «canasta».

La IA tampoco entendió la idea del movimiento. «Las palabras asociadas con movimientos como» empujar «, » tirar «, » girar «, todos los verbos tienen un elemento temporal», dice Vong. “Esto es algo en lo que estamos trabajando activamente, aprendiendo de los videos. Ya sabemos que utilizar vídeos en lugar de fotogramas fijos conduce a una mejor comprensión de las cosas que se desarrollan con el tiempo”, añade. La próxima versión debería tener resuelto el aprendizaje de experiencias continuas.

Clases de conducir

Obviamente, enseñar a las IA a reconocer bolas en imágenes ya se ha hecho antes. Entonces, ¿por qué el trabajo del equipo de Vong es tan importante que llegó a Science, y no a una publicación de segundo nivel específica de IA? La respuesta es su potencial para sentar las bases de futuros avances.

Es la primera demostración de que la IA puede aprender eficazmente a partir de una experiencia individualizada y limitada. Es la diferencia entre recopilar una base de datos monstruosa de ejemplos de conducción de cientos de miles de Teslas para enseñarle a una IA a conducir un automóvil y registrar un solo Tesla para recibir algunas lecciones con un instructor de manejo. Este último es más sencillo, más rápido e infinitamente más económico.

Todavía estamos lejos de enseñar a las máquinas de la misma manera que enseñamos a los humanos. “El modelo que utilizamos fue pasivo; no fue diseñado para producir acciones o proporcionar respuestas por sí solo”, dice Vong.

Aún así, incluso este sistema tiene muchas vías de mejora: usar una base de datos de más del 1 por ciento del tiempo del niño, o agregar información además de texto e imágenes (sonido, olor, tacto, carga emocional, etc., podrían incluirse potencialmente). «Pero todo esto se puede hacer ampliando la IA que ya tenemos y no empezando desde cero», afirma Vong.

Lo que sugiere que somos mucho menos especiales de lo que pensábamos. “Ya sea conduciendo o aprendiendo idiomas, los humanos son mucho más eficientes en cuanto a muestras que las IA. Gran parte de nuestro trabajo es descubrir qué nos hace tan eficientes en el uso de muestras y cómo utilizarlo para construir máquinas más inteligentes”, afirma Vong.

Jacek Krywko es un escritor de ciencia y tecnología que vive en Olsztyn, Polonia. Cubre la exploración espacial y la investigación de inteligencia artificial.



Source link-49