Google anunció Gemini esta semana. Gemini competirá con ChatGPT y es una IA multimodal, lo que significa que puede interactuar con texto, imágenes, audio, vídeo y código. El entusiasmo en torno a Géminis fue alto después E/S de Googlepero ahora estamos empezando a vislumbrar detrás de la cortina del modelo de IA, y no es bonito.
Si bien Gemini se muestra prometedor, todos debemos moderar las expectativas sobre la nueva herramienta porque el video práctico que compartió Google es falso. Puede parecer una palabra fuerte, pero Parmy Olson de Bloomberg mostró cómo el vídeo de Google no representa cómo funcionará Gemini en el mundo real.
Antes de entrar en cómo Google hizo el video, quiero aclarar que el clip no es enteramente una invención. Google usó Gemini para identificar objetos y descubrir qué estaba pasando en las imágenes. Sin embargo, lo que Google no hizo fue crear un video práctico genuino que muestre la experiencia real que tendrá al usar Gemin.
Cuando ve un vídeo práctico de un producto, espera contenido que refleje el uso en el mundo real. Por ejemplo, si un crítico de YouTube hizo una prueba práctica con un nuevo visor de realidad virtual, querrás que ese video muestre el juego real, cómo se ve el campo de visión y qué tan bien funcionan los controles. De manera similar, una práctica con un teléfono debería mostrar cómo funciona realmente el teléfono, no acelerado y enganchado.
Se podría argumentar que la mayoría, si no todas, las demostraciones de productos están recortadas y no muestran ningún defecto de los productos que destacan. Pero como dicen, dos errores no hacen un bien.
Cómo Google falsificó su experiencia práctica con Gemini
En el vídeo, un usuario realiza una variedad de tareas, como intentar esconder una pelota en un vaso, dibujar un pato y jugar con un mapa. A lo largo del clip, Gemini narra lo que sucede en tiempo real, averiguando todo sobre la marcha. Sin embargo, lo que no se ve en el vídeo es que Google utilizó mensajes de texto y proporcionó contexto para realizar la demostración de Gemini.
Google le dio indicaciones a Gemini basándose en fotogramas de imágenes fijas del contenido capturado. Luego, la empresa impulsó el modelo de IA con texto. Luego se añadió la narración epílogo.
De hecho, las indicaciones que se muestran en el vídeo ni siquiera son las que se le dieron a Gemin. El video hace que parezca que Gemini ve tres tazas colocadas sobre una mesa e inmediatamente determina que el usuario está intentando jugar. En realidad, Google enseñó a Gemini a jugar. Luego puso a prueba a Gemini sobre su capacidad para seguir instrucciones muy específicas. Incluso en esas circunstancias, Géminis no es perfecto en esta tarea.
» Por supuesto, no siempre resolverá bien este desafío. A veces, el movimiento falso (en el que intercambias dos vasos vacíos) parece hacer que te tropieces, pero a veces también lo hace. Pero indicaciones simples como esta hacen que sea realmente divertido probar rápidamente Gemini», explicó Google.
Es bastante apropiado que el vídeo práctico de Google para Gemini haya utilizado un truco conocido por los juegos de manos.
Google defiende su vídeo falso de Gemini
Realmente feliz de ver el interés en torno a nuestro video “Práctica con Géminis”. En nuestro blog de desarrolladores de ayer, desglosamos cómo se utilizó Gemini para crearlo. https://t.co/50gjMkaVc0 Le dimos a Gemini secuencias de diferentes modalidades (imagen y texto en este caso) y le hicimos responder… pic.twitter.com/Beba5M5dHP7 de diciembre de 2023
El vicepresidente de investigación y aprendizaje profundo de Google, Oriol Vinyals, defendió el vídeo en X.
«Todas las indicaciones y resultados del usuario en el video son reales, abreviados para mayor brevedad. El video ilustra las experiencias de usuario multimodal creadas con Gemini. podría verse como. Lo hicimos para inspirar a los desarrolladores», dijo Vinyals (énfasis añadido).
Me sorprende tener que decir esto. Cómo «podría verse» algo no es un vídeo práctico.
Google enlazó a un posición del blogt en su video que describe cómo la empresa creó el contenido. Esa publicación de blog no oculta el hecho de que Google utilizó varias indicaciones y señales para que Gemini reaccionara como lo hizo. Pero un enlace a una publicación de blog debajo de la sección «…más» de la descripción de un video no es lo mismo que explicar lo que sucede en el video. Ciertamente no corrige el uso incorrecto de la frase «práctica».
Sólo necesitamos un poco más de transparencia.
Entiendo por qué Google hizo lo que hizo. Amazon intentó mostrar el Echo Show 8 a principios de este año con una demostración real en vivo y no salió bien. Llamar al dispositivo diciendo «hola Alexa» generó respuestas lentas. El rendimiento tampoco fue excelente, lo que dejó al dispositivo con poca luz.
Pero yo diría que si una verdadera demostración en vivo de un producto hace que ese producto se vea mal, la gente debería saberlo. Si el avance de un juego se ve increíble y el juego es terrible, la gente se enojaría porque la engañaran. No veo en qué se diferencia el vídeo práctico de Google.