Ocho empleados de Google inventaron la IA moderna. Aquí está la historia interna


Las últimas dos semanas antes de la fecha límite fueron frenéticas. Aunque oficialmente algunos miembros del equipo todavía tenían escritorios en el edificio 1945, trabajaron principalmente en 1965 porque tenía una mejor máquina de café expreso en la micrococina. “La gente no dormía”, dice Gómez, quien, como pasante, vivía en un constante frenesí de depuración y también produjo visualizaciones y diagramas para el artículo. Es común en este tipo de proyectos realizar ablaciones: sacar cosas para ver si lo que queda es suficiente para realizar el trabajo.

“Había todas las combinaciones posibles de trucos y módulos: cuál ayuda y cuál no. Arranquémoslo. Reemplacémoslo con esto”, dice Gómez. “¿Por qué el modelo se comporta de esta manera contraria a la intuición? Oh, es porque no nos acordamos de ponernos el enmascaramiento correctamente. ¿Funciona todavía? Bien, pasa al siguiente. Todos estos componentes de lo que ahora llamamos el transformador fueron el resultado de esta prueba y error iterativo de ritmo extremadamente alto”. Las ablaciones, con la ayuda de las implementaciones de Shazeer, produjeron «algo minimalista», dice Jones. «Noam es un mago».

Vaswani recuerda haberse quedado dormido en el sofá de la oficina una noche mientras el equipo escribía el artículo. Mientras miraba las cortinas que separaban el sofá del resto de la habitación, le llamó la atención el patrón de la tela, que le parecía sinapsis y neuronas. Gómez estaba allí y Vaswani le dijo que lo que estaban trabajando trascendería la traducción automática. «En última instancia, al igual que con el cerebro humano, es necesario unir todas estas modalidades (habla, audio, visión) bajo una sola arquitectura», dice. «Tenía el fuerte presentimiento de que estábamos ante algo más general».

Sin embargo, en las altas esferas de Google el trabajo fue visto como otro interesante proyecto de IA. Pregunté a varias personas de Transformers si sus jefes alguna vez los convocaron para recibir actualizaciones sobre el proyecto. No tanto. Pero «comprendimos que esto era potencialmente un gran problema», dice Uszkoreit. «Y eso hizo que nos obsesionáramos con una de las oraciones del artículo hacia el final, donde comentamos sobre trabajos futuros».

Esa frase anticipó lo que podría venir después: la aplicación de modelos transformadores básicamente a todas las formas de expresión humana. «Estamos entusiasmados con el futuro de los modelos basados ​​en la atención», escribieron. «Planeamos extender el transformador a problemas que involucran modalidades de entrada y salida distintas al texto» e investigar «imágenes, audio y video».

Un par de noches antes de la fecha límite, Uszkoreit se dio cuenta de que necesitaban un título. Jones señaló que el equipo había llegado a un rechazo radical de las mejores prácticas aceptadas, en particular los LSTM, para una técnica: la atención. Los Beatles, recordó Jones, habían titulado una canción «All You Need Is Love». ¿Por qué no llamar al periódico “Lo único que necesitas es atención”?

¿Los Beatles?

«Soy británico», dice Jones. “Literalmente, me llevó cinco segundos pensarlo. No pensé que lo usarían”.

Continuaron recopilando resultados de sus experimentos hasta la fecha límite. “Las cifras inglés-francés llegaron como cinco minutos antes de que enviáramos el artículo”, dice Parmar. “Estaba sentado en la micrococina en 1965, registrando ese último número”. Cuando apenas habían transcurrido dos minutos, expulsaron el partido.



Source link-46