{"id":918834,"date":"2023-12-08T15:22:12","date_gmt":"2023-12-08T15:22:12","guid":{"rendered":"https:\/\/magazineoffice.com\/la-mejor-demostracion-de-gemini-de-google-fue-falsificada\/"},"modified":"2023-12-08T15:22:16","modified_gmt":"2023-12-08T15:22:16","slug":"la-mejor-demostracion-de-gemini-de-google-fue-falsificada","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/la-mejor-demostracion-de-gemini-de-google-fue-falsificada\/","title":{"rendered":"La mejor demostraci\u00f3n de Gemini de Google fue falsificada"},"content":{"rendered":"
\n<\/p>\n
El nuevo modelo Gemini AI de Google est\u00e1 recibiendo una recepci\u00f3n mixta despu\u00e9s de su gran debut ayer, pero los usuarios pueden tener menos confianza en la tecnolog\u00eda o la integridad de la compa\u00f1\u00eda despu\u00e9s de descubrir que la demostraci\u00f3n m\u00e1s impresionante de Gemini era pr\u00e1cticamente falsa.<\/p>\n
Un v\u00eddeo llamado \u00abPr\u00e1ctica con Gemini: Interactuar con IA multimodal\u00bb alcanz\u00f3 un mill\u00f3n de visitas durante el \u00faltimo d\u00eda, y no es dif\u00edcil ver por qu\u00e9. La impresionante demostraci\u00f3n \u201cdestaca algunas de nuestras interacciones favoritas con Gemini\u201d y muestra c\u00f3mo el modelo multimodal (es decir, comprende y combina el lenguaje y la comprensi\u00f3n visual) puede ser flexible y responder a una variedad de entradas.<\/p>\n
Para empezar, narra la evoluci\u00f3n de un boceto de un pato desde un garabato hasta un dibujo completo, que dice que es un color poco realista, luego muestra sorpresa (\u201c\u00a1Qu\u00e9 diablos!\u201d) al ver un pato azul de juguete. Luego responde a varias preguntas de voz sobre ese juguete, luego la demostraci\u00f3n pasa a otros movimientos de alarde, como rastrear una pelota en un juego de cambio de taza, reconocer gestos de marionetas de sombras, reordenar bocetos de planetas, etc.<\/p>\n
Todo responde muy bien, aunque el v\u00eddeo advierte que \u00abla latencia se ha reducido y las salidas de Gemini se han acortado\u00bb. As\u00ed que se saltan una vacilaci\u00f3n aqu\u00ed y una respuesta demasiado larga all\u00e1, entendido. En definitiva, fue una demostraci\u00f3n de fuerza bastante alucinante en el \u00e1mbito de la comprensi\u00f3n multimodal. Mi propio escepticismo sobre que Google pudiera ofrecer un contendiente se vio afectado cuando vi la pr\u00e1ctica.<\/p>\n
S\u00f3lo un problema: el v\u00eddeo no es real. \u201cCreamos la demostraci\u00f3n capturando im\u00e1genes para probar las capacidades de Gemini en una amplia gama de desaf\u00edos. Luego le solicitamos a Gemini que usara fotogramas de im\u00e1genes fijas del metraje y le solicitamos mediante texto.<\/span><\/span>(Parmy Olsen en Bloomberg fue el primero en informar<\/a> la discrepancia.)<\/p>\n Entonces, aunque podr\u00eda hacer las cosas que Google muestra en el video, no las hizo, y tal vez no pudo, hacerlas en vivo y en la forma que implicaban. En realidad, se trataba de una serie de indicaciones de texto cuidadosamente ajustadas con im\u00e1genes fijas, claramente seleccionadas y acortadas para tergiversar c\u00f3mo es realmente la interacci\u00f3n. Puedes ver algunas de las indicaciones y respuestas reales en una publicaci\u00f3n de blog relacionada, que, para ser justos, est\u00e1 vinculada en la descripci\u00f3n del video, aunque debajo de \u00ab…m\u00e1s\u00bb.<\/p>\n Por un lado, G\u00e9minis realmente parece haber generado las respuestas que se muestran en el v\u00eddeo. \u00bfY qui\u00e9n quiere ver algunos comandos de limpieza, como decirle al modelo que vac\u00ede su cach\u00e9? Pero los espectadores se enga\u00f1an acerca de la velocidad, la precisi\u00f3n y el modo fundamental de interacci\u00f3n con el modelo.<\/p>\n Por ejemplo, en el minuto 2:45 del v\u00eddeo, se muestra una mano haciendo en silencio una serie de gestos. G\u00e9minis responde r\u00e1pidamente \u201c\u00a1S\u00e9 lo que est\u00e1s haciendo! \u00a1Est\u00e1s jugando a piedra, papel y tijera!<\/p>\n