{"id":918834,"date":"2023-12-08T15:22:12","date_gmt":"2023-12-08T15:22:12","guid":{"rendered":"https:\/\/magazineoffice.com\/la-mejor-demostracion-de-gemini-de-google-fue-falsificada\/"},"modified":"2023-12-08T15:22:16","modified_gmt":"2023-12-08T15:22:16","slug":"la-mejor-demostracion-de-gemini-de-google-fue-falsificada","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/la-mejor-demostracion-de-gemini-de-google-fue-falsificada\/","title":{"rendered":"La mejor demostraci\u00f3n de Gemini de Google fue falsificada"},"content":{"rendered":"


\n<\/p>\n

\n

El nuevo modelo Gemini AI de Google est\u00e1 recibiendo una recepci\u00f3n mixta despu\u00e9s de su gran debut ayer, pero los usuarios pueden tener menos confianza en la tecnolog\u00eda o la integridad de la compa\u00f1\u00eda despu\u00e9s de descubrir que la demostraci\u00f3n m\u00e1s impresionante de Gemini era pr\u00e1cticamente falsa.<\/p>\n

Un v\u00eddeo llamado \u00abPr\u00e1ctica con Gemini: Interactuar con IA multimodal\u00bb alcanz\u00f3 un mill\u00f3n de visitas durante el \u00faltimo d\u00eda, y no es dif\u00edcil ver por qu\u00e9. La impresionante demostraci\u00f3n \u201cdestaca algunas de nuestras interacciones favoritas con Gemini\u201d y muestra c\u00f3mo el modelo multimodal (es decir, comprende y combina el lenguaje y la comprensi\u00f3n visual) puede ser flexible y responder a una variedad de entradas.<\/p>\n

Para empezar, narra la evoluci\u00f3n de un boceto de un pato desde un garabato hasta un dibujo completo, que dice que es un color poco realista, luego muestra sorpresa (\u201c\u00a1Qu\u00e9 diablos!\u201d) al ver un pato azul de juguete. Luego responde a varias preguntas de voz sobre ese juguete, luego la demostraci\u00f3n pasa a otros movimientos de alarde, como rastrear una pelota en un juego de cambio de taza, reconocer gestos de marionetas de sombras, reordenar bocetos de planetas, etc.<\/p>\n

Todo responde muy bien, aunque el v\u00eddeo advierte que \u00abla latencia se ha reducido y las salidas de Gemini se han acortado\u00bb. As\u00ed que se saltan una vacilaci\u00f3n aqu\u00ed y una respuesta demasiado larga all\u00e1, entendido. En definitiva, fue una demostraci\u00f3n de fuerza bastante alucinante en el \u00e1mbito de la comprensi\u00f3n multimodal. Mi propio escepticismo sobre que Google pudiera ofrecer un contendiente se vio afectado cuando vi la pr\u00e1ctica.<\/p>\n

S\u00f3lo un problema: el v\u00eddeo no es real. \u201cCreamos la demostraci\u00f3n capturando im\u00e1genes para probar las capacidades de Gemini en una amplia gama de desaf\u00edos. Luego le solicitamos a Gemini que usara fotogramas de im\u00e1genes fijas del metraje y le solicitamos mediante texto.<\/span><\/span>(Parmy Olsen en Bloomberg fue el primero en informar<\/a> la discrepancia.)<\/p>\n

Entonces, aunque podr\u00eda hacer las cosas que Google muestra en el video, no las hizo, y tal vez no pudo, hacerlas en vivo y en la forma que implicaban. En realidad, se trataba de una serie de indicaciones de texto cuidadosamente ajustadas con im\u00e1genes fijas, claramente seleccionadas y acortadas para tergiversar c\u00f3mo es realmente la interacci\u00f3n. Puedes ver algunas de las indicaciones y respuestas reales en una publicaci\u00f3n de blog relacionada, que, para ser justos, est\u00e1 vinculada en la descripci\u00f3n del video, aunque debajo de \u00ab…m\u00e1s\u00bb.<\/p>\n

Por un lado, G\u00e9minis realmente parece haber generado las respuestas que se muestran en el v\u00eddeo. \u00bfY qui\u00e9n quiere ver algunos comandos de limpieza, como decirle al modelo que vac\u00ede su cach\u00e9? Pero los espectadores se enga\u00f1an acerca de la velocidad, la precisi\u00f3n y el modo fundamental de interacci\u00f3n con el modelo.<\/p>\n

Por ejemplo, en el minuto 2:45 del v\u00eddeo, se muestra una mano haciendo en silencio una serie de gestos. G\u00e9minis responde r\u00e1pidamente \u201c\u00a1S\u00e9 lo que est\u00e1s haciendo! \u00a1Est\u00e1s jugando a piedra, papel y tijera!<\/p>\n

\n

Cr\u00e9ditos de imagen:<\/strong> Google YouTube<\/p>\n<\/div>\n

Pero lo primero que aparece en la documentaci\u00f3n de la capacidad es c\u00f3mo el modelo no razona bas\u00e1ndose en ver gestos individuales. Se le deben mostrar los tres gestos a la vez y se le debe indicar: \u201c\u00bfQu\u00e9 crees que estoy haciendo? Pista: es un juego\u201d. Responde: \u00abEst\u00e1s jugando piedra, papel y tijera\u00bb.<\/p>\n

\"\"<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

A pesar de la similitud, no parecen la misma interacci\u00f3n. Se sienten como interacciones fundamentalmente diferentes, una es una evaluaci\u00f3n intuitiva y sin palabras que captura una idea abstracta sobre la marcha, otra es una interacci\u00f3n dise\u00f1ada y fuertemente insinuada que demuestra tanto limitaciones como capacidades. G\u00e9minis hizo lo segundo, no lo primero. La \u201cinteracci\u00f3n\u201d que se muestra en el video no sucedi\u00f3.<\/p>\n

Posteriormente, se colocan en la superficie tres notas adhesivas con garabatos del Sol, Saturno y la Tierra. \u00ab\u00bfEs este el orden correcto?\u00bb G\u00e9minis dice que no, va Sol, Tierra, Saturno. \u00a1Correcto! Pero en el mensaje real (nuevamente escrito), la pregunta es \u201c\u00bfEs este el orden correcto? Considera la distancia al sol y explica tu razonamiento\u201d.<\/p>\n

\"\"<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

\u00bfG\u00e9minis lo hizo bien? \u00bfO se equivoc\u00f3 y necesit\u00f3 un poco de ayuda para producir una respuesta que pudieran incluir en un v\u00eddeo? \u00bfReconoci\u00f3 siquiera los planetas o tambi\u00e9n necesitaba ayuda all\u00ed?<\/p>\n

En el v\u00eddeo, una bola de papel se intercambia debajo de una taza, que el modelo detecta y rastrea de forma instant\u00e1nea y aparentemente intuitiva. En el post no s\u00f3lo hay que explicar la actividad, sino que hay que entrenar al modelo (si es de forma r\u00e1pida y usando lenguaje natural) para realizarla. Etc\u00e9tera.<\/p>\n

Estos ejemplos pueden parecerle triviales o no. Despu\u00e9s de todo, reconocer los gestos con las manos como un juego tan r\u00e1pidamente es realmente impresionante para un modelo multimodal. \u00a1Tambi\u00e9n lo es decidir si una pel\u00edcula a medio terminar es un pato o no! Aunque ahora, dado que la publicaci\u00f3n del blog carece de una explicaci\u00f3n para la secuencia del pato, tambi\u00e9n estoy empezando a dudar de la veracidad de esa interacci\u00f3n.<\/p>\n

Ahora bien, si el video hubiera dicho al principio: \u00abEsta es una representaci\u00f3n estilizada de las interacciones que nuestros investigadores probaron\u00bb, nadie se habr\u00eda inmutado; esperamos que videos como este sean mitad objetivos y mitad aspiracionales.<\/p>\n

Pero el video se llama \u201cPr\u00e1ctica con G\u00e9minis\u201d y cuando dicen que muestra \u201cnuestras interacciones favoritas\u201d, est\u00e1 impl\u00edcito que las interacciones que vemos son aquellos<\/em> interacciones. Ellos no eran. A veces estaban m\u00e1s involucrados; a veces eran totalmente diferentes; a veces no parece que hayan sucedido en absoluto. Ni siquiera nos dicen qu\u00e9 modelo es: \u00bfel Gemini Pro que la gente puede usar ahora o (m\u00e1s probablemente) la versi\u00f3n Ultra cuyo lanzamiento est\u00e1 previsto para el pr\u00f3ximo a\u00f1o?<\/p>\n

\u00bfDeber\u00edamos haber asumido que Google s\u00f3lo nos estaba dando un v\u00eddeo de muestra cuando lo describieron como lo hicieron? Quiz\u00e1s entonces deber\u00edamos suponer todo<\/em> Las capacidades en las demostraciones de IA de Google se est\u00e1n exagerando para lograr un efecto. Escribo en el titular que este v\u00eddeo fue \u201cfalso\u201d. Al principio no estaba seguro de si este lenguaje duro estaba justificado (ciertamente Google no; un portavoz me pidi\u00f3 que lo cambiara). Pero a pesar de incluir algunas partes reales, el v\u00eddeo simplemente no refleja la realidad. Es falso.<\/p>\n

Google dice que el v\u00eddeo \u00abmuestra resultados reales de Gemini\u00bb, lo cual es cierto, y que \u00abhicimos algunas ediciones en la demostraci\u00f3n (hemos sido sinceros y transparentes al respecto)\u00bb, lo cual no lo es. No es una demostraci\u00f3n (en realidad no) y el v\u00eddeo muestra interacciones muy diferentes de las creadas para informarlo.<\/p>\n

Actualizar<\/strong>: En un publicaci\u00f3n en redes sociales<\/a> Realizado despu\u00e9s de la publicaci\u00f3n de este art\u00edculo, el vicepresidente de investigaci\u00f3n de Google DeepMind, Oriol Vinyals, mostr\u00f3 un poco m\u00e1s de c\u00f3mo \u201cse utiliz\u00f3 Gemini para crear\u201d el v\u00eddeo. \u201cEl v\u00eddeo ilustra las experiencias de usuario multimodal creadas con Gemini. podr\u00eda<\/strong> parece. Lo hicimos para inspirar a los desarrolladores\u201d. (El \u00e9nfasis es m\u00edo.) Curiosamente, muestra una secuencia previa que le permite a G\u00e9minis responder la pregunta sobre los planetas sin que el Sol lo indique (aunque s\u00ed le dice a G\u00e9minis que es un experto en planetas y que debe considerar la secuencia de objetos representados).<\/p>\n

Quiz\u00e1s me comer\u00e9 el cuervo cuando, la pr\u00f3xima semana, AI Studio con Gemini Pro est\u00e9 disponible para experimentar. Y Gemini bien podr\u00eda convertirse en una poderosa plataforma de inteligencia artificial que realmente rivalice con OpenAI y otras. Pero lo que Google ha hecho aqu\u00ed es envenenar el pozo. \u00bfC\u00f3mo puede alguien confiar en la empresa cuando afirma que su modelo hace algo ahora? Ya cojeaban detr\u00e1s de la competencia. Es posible que Google se haya disparado en el otro pie.<\/p>\n<\/p><\/div>\n