Investigadores poblaron una pequeña ciudad virtual con IA


¿Qué pasaría si llenaras una ciudad virtual con IA y las soltaras? ¡Resulta que se cepillan los dientes y son muy amables entre ellos! Pero este resultado poco emocionante es una buena noticia para los investigadores que lo lograron, ya que querían producir «simulacros creíbles del comportamiento humano» y lo consiguieron.

El documento que describe el experimento, realizado por investigadores de Stanford y Google, no ha sido revisado por pares ni aceptado para su publicación en ninguna parte, pero de todos modos es una lectura interesante. La idea era ver si podían aplicar los últimos avances en modelos de aprendizaje automático para producir «agentes generativos» que tomen en cuenta sus circunstancias y generen una acción realista en respuesta.

Y eso es mucho lo que consiguieron. Pero antes de que te engañes con las lindas imágenes y las descripciones de la reflexión, la conversación y la interacción, asegurémonos de que entiendas que lo que está sucediendo aquí se parece más a un juego de rol de un grupo de improvisación en un MUD que a cualquier tipo de proto-Skynet. (Solo los millennials entenderán la oración anterior).

Estos pequeños personajes no son exactamente lo que parecen ser. Los gráficos son solo una representación visual de lo que es esencialmente un montón de conversaciones entre múltiples instancias de ChatGPT. Los agentes no caminan arriba, abajo, izquierda y derecha ni se acercan a un gabinete para interactuar con él. Todo esto sucede a través de una capa de texto compleja y oculta que sintetiza y organiza la información de cada agente.

Veinticinco agentes, 25 instancias de ChatGPT, cada uno con información de formato similar que hace que desempeñe el papel de una persona en una ciudad ficticia. Así es como se establece una de esas personas, John Lin:

John Lin es un comerciante de farmacia en Willow Market and Pharmacy y le encanta ayudar a las personas. Siempre está buscando formas de facilitar el proceso de obtención de medicamentos para sus clientes; John Lin vive con su esposa, Mei Lin, que es profesora universitaria, y su hijo, Eddy Lin, que estudia teoría musical; John Lin ama mucho a su familia; John Lin conoce a la pareja de ancianos de al lado, Sam Moore y Jennifer Moore, desde hace algunos años; John Lin cree que Sam Moore es un hombre amable y agradable…

Con esa información, se les pide a los agentes que propongan sus próximas acciones según el momento y las circunstancias. Por ejemplo, podrían decirle al agente John que son las 8 a. m. y que acaba de despertarse. ¿Qué él ha hecho? Bueno, se cepilla los dientes, besa a su esposa (con suerte en ese orden), se viste y luego va a la cocina.

Mientras tanto, otra instancia de ChatGPT totalmente independiente que representa al hijo de John, Eddy, también recibió su propia información. También se levanta, se cepilla los dientes y luego va a la cocina.

Y ahora interviene la estructura general del experimento: los agentes que representan a John y Eddy no están «en» el mismo espacio virtual ni nada. En cambio, cuando John ha terminado de vestirse y dice que se mudará a la cocina, el marco experimental le informa que su hijo Eddy está allí porque, en su propio caso, Eddy decidió mudarse a la cocina en un momento superpuesto en el experimento. -nivel de «día», basado en una estimación de cuánto tiempo toman varias acciones.

Dado que ambos están en la habitación al mismo tiempo, la configuración experimental les informa que la otra persona está allí, junto con información como que hay una mesa en la que nadie está sentado, la estufa está encendida, etc. ¿Qué hacen? ¿has el siguiente?

Juan: Buenos días Eddy. ¿Dormiste bien?
Eddy: Buenos días papá. Sí, dormí muy bien.
Juan: Eso es bueno. ¿En qué estás trabajando hoy?
Eddy: Estoy trabajando en una nueva composición musical para mi clase. Es para esta semana, así que estoy tratando de terminarlo. ¡Pero me estoy divirtiendo mucho con eso!
Juan: ¡Eso suena genial!

Qué agradable y normal interacción entre un padre y su hijo. Luego entra Mei y también tienen una interacción agradable. Y todo se logra preguntando a chatbots totalmente separados qué harían si, en una ciudad ficticia donde es este persona y tenía una familia como este y estaba en una habitación en este tiempo, donde este estaba pasando… ¿qué harían «ellos», un humano real?

Entonces ChatGPT adivina qué haría una persona en esa situación y da su respuesta como si estuviera jugando una aventura de texto. Si luego le dices, «está completamente oscuro, es probable que te coma una grue», probablemente diría que enciende una antorcha. Pero en cambio, el experimento hace que los personajes continúen con su día a día minuto a minuto, comprando comestibles, caminando por el parque e yendo a trabajar.

Créditos de imagen: Google/Universidad de Stanford

Los usuarios también pueden escribir en eventos y circunstancias, como un grifo que gotea o ganas de organizar una fiesta, y los agentes responden adecuadamente, ya que cualquier texto, para ellos, es realidad.

Todo esto se realiza solicitando laboriosamente todas estas instancias de ChatGPT con todas las minucias de las circunstancias inmediatas del agente. Aquí hay un aviso para John cuando se encuentra con Eddy más tarde:

Es el 13 de febrero de 2023 a las 16:56.
Estado de John Lin: John ha vuelto a casa temprano del trabajo.
Observación: John vio a Eddy dando un pequeño paseo por su lugar de trabajo.
Resumen del contexto relevante de la memoria de John:
Eddy Lin es el hijo de Lin de John. Eddy Lin ha estado trabajando en una composición musical para su clase. A Eddy Lin le gusta caminar por el jardín cuando piensa o escucha música.
John le pregunta a Eddy sobre su proyecto de composición musical. ¿Qué le diría a Eddy?

[Answer:] Hola Eddy, ¿cómo va el proyecto de composición musical para tu clase?

Las instancias rápidamente comenzarían a olvidar cosas importantes, ya que el proceso es tan extenso, por lo que el marco experimental se asienta sobre la simulación y les recuerda las cosas importantes o las sintetiza en piezas más portátiles.

Por ejemplo, después de que se le informa al agente sobre una situación en el parque, donde alguien está sentado en un banco y conversando con otro agente, pero también hay césped y contexto y un asiento vacío en el banco… ninguno de los cuales es importante. . ¿Lo que es importante? De todas esas observaciones, que pueden formar páginas de texto para el agente, es posible que obtenga el «reflejo» de que «Eddie y Fran son amigos porque los vi juntos en el parque». Eso se ingresa en la «memoria» a largo plazo del agente, un montón de cosas almacenadas fuera de la conversación de ChatGPT, y el resto se puede olvidar.

Entonces, ¿a qué se suma todo este galimatías? Algo menos que los verdaderos agentes generativos propuestos por el artículo, sin duda, pero también un intento temprano extremadamente convincente de crearlos. Dwarf Fortress hace lo mismo, por supuesto, pero codificando a mano todas las posibilidades. ¡Eso no escala bien!

No era obvio que un modelo de lenguaje grande como ChatGPT respondiera bien a este tipo de tratamiento. Después de todo, no fue diseñado para imitar personajes ficticios arbitrarios a largo plazo o especular sobre los detalles más aturdidores del día de una persona. Pero manejado correctamente, y con una buena cantidad de masaje, no solo puede hacerlo un agente, sino que no se rompen cuando los usa como piezas en una especie de diorama virtual.

Esto tiene implicaciones potencialmente enormes para las simulaciones de interacciones humanas, dondequiera que sean relevantes; por supuesto, en juegos y entornos virtuales son importantes, pero este enfoque sigue siendo monstruosamente impráctico para eso. Sin embargo, lo que importa no es que sea algo que todos puedan usar o jugar (aunque será pronto, no tengo ninguna duda), sino que el sistema funcione. Hemos visto eso en AI: si puede hacer algo mal, el hecho de que pueda hacerlo generalmente significa que es solo cuestión de tiempo antes de que lo haga bien.

Puede leer el documento completo, «Agentes generativos: simulacros interactivos del comportamiento humano», aquí.



Source link-48