El creador de juegos Genie de Google es lo que sucede cuando la IA mira 30.000 horas de videojuegos


Agrandar / Un collage de algunos de los «entornos interactivos» generados por Genie a partir de imágenes estáticas o mensajes de texto.

En este punto, cualquiera que siga la IA generativa está acostumbrado a herramientas que pueden generar contenido pasivo y consumible en forma de texto, imágenes, vídeo y audio. El modelo Genie recientemente presentado por Google DeepMind (para «entorno interactivo generativo») hace algo completamente diferente: convierte imágenes en «entornos interactivos y jugables que se pueden crear, explorar y explorar fácilmente».

La página de anuncios Genie de DeepMind muestra muchos GIF de muestra de juegos simples de estilo plataforma generados a partir de imágenes iniciales estáticas (bocetos de niños, fotografías del mundo real, etc.) o incluso mensajes de texto pasados ​​a través de ImageGen2. Si bien esos GIF de aspecto elegante pasan por alto algunas de las principales limitaciones actuales que se analizan en el artículo de investigación completo, los investigadores de IA todavía están entusiasmados con cómo el «modelado mundial fundamental» generalizable de Genie podría ayudar a potenciar el aprendizaje automático en el futuro.

Bajo el capó

Si bien la producción de Genie parece similar a primera vista a lo que podría provenir de un motor de juego 2D básico, el modelo en realidad no dibuja sprites ni codifica un juego de plataformas jugable de la misma manera que lo haría un desarrollador de juegos humano. En cambio, el sistema trata su imagen (o imágenes) inicial como fotogramas de un vídeo y genera una mejor estimación de cómo debería verse el siguiente fotograma (o fotogramas) cuando se le proporciona una entrada específica.

Para establecer ese modelo, Genie comenzó con 200.000 horas de vídeos públicos de juegos en Internet, que se filtraron hasta 30.000 horas de vídeo estandarizado de «cientos de juegos 2D». Luego, los cuadros individuales de esos videos se tokenizaron en un modelo de 200 millones de parámetros con el que un algoritmo de aprendizaje automático podría funcionar fácilmente.

Una imagen como esta, generada mediante un mensaje de texto en un generador de imágenes, puede servir como punto de partida para la construcción del mundo de Genie.
Agrandar / Una imagen como esta, generada mediante un mensaje de texto en un generador de imágenes, puede servir como punto de partida para la construcción del mundo de Genie.

Una muestra de movimiento interactivo habilitado por Genie en la imagen inicial de arriba (haga clic en "agrandar" si el GIF no se anima).
Agrandar / Una muestra de movimiento interactivo habilitado por Genie en la imagen inicial de arriba (haga clic en «ampliar» si el GIF no se anima).

A partir de aquí, el sistema generó un «modelo de acción latente» para predecir qué tipo de «acciones» interactivas (es decir, presionar botones) podrían generar de manera factible y consistente el tipo de cambios cuadro por cuadro observados en todos esos tokens. El sistema limita las entradas potenciales a un «espacio de acción latente» de ocho entradas posibles (por ejemplo, cuatro direcciones del pad direccional más diagonales) en un esfuerzo por «permitir la jugabilidad humana» (lo cual tiene sentido, ya que los videos en los que se entrenó eran todos jugables por humanos).

Una vez establecido el modelo de acción latente, Genie genera un «modelo dinámico» que puede tomar cualquier número de fotogramas arbitrarios y acciones latentes y generar una suposición fundamentada sobre cómo debería verse el siguiente fotograma dada cualquier entrada potencial. Este modelo final termina con 10,7 mil millones de parámetros entrenados en 942 mil millones de tokens, aunque los resultados de Genie sugieren que modelos aún más grandes generarían mejores resultados.

Trabajos anteriores sobre la generación de modelos interactivos similares utilizando IA generativa se han basado en el uso de «etiquetas de acción reales» o descripciones de texto de datos de entrenamiento para ayudar a guiar sus algoritmos de aprendizaje automático. Genie se diferencia de ese trabajo en su capacidad de «entrenar sin acciones ni anotaciones de texto», infiriendo las acciones latentes detrás de un video usando nada más que esas horas de fotogramas de video tokenizados.

«La capacidad de generalizar a niveles tan significativos [out-of-distribution] «Los aportes subrayan la solidez de nuestro enfoque y el valor de la capacitación en datos a gran escala, lo que no habría sido factible con acciones reales como aporte», escribió el equipo de Genie en su artículo de investigación.



Source link-49