{"id":1012026,"date":"2024-02-16T13:01:25","date_gmt":"2024-02-16T13:01:25","guid":{"rendered":"https:\/\/magazineoffice.com\/el-nuevo-modelo-gemini-de-google-puede-analizar-un-video-de-una-hora-de-duracion-pero-pocas-personas-pueden-utilizarlo\/"},"modified":"2024-02-16T13:01:28","modified_gmt":"2024-02-16T13:01:28","slug":"el-nuevo-modelo-gemini-de-google-puede-analizar-un-video-de-una-hora-de-duracion-pero-pocas-personas-pueden-utilizarlo","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/el-nuevo-modelo-gemini-de-google-puede-analizar-un-video-de-una-hora-de-duracion-pero-pocas-personas-pueden-utilizarlo\/","title":{"rendered":"El nuevo modelo Gemini de Google puede analizar un v\u00eddeo de una hora de duraci\u00f3n, pero pocas personas pueden utilizarlo"},"content":{"rendered":"


\n<\/p>\n

\n

En octubre pasado, un art\u00edculo de investigaci\u00f3n publicado por un cient\u00edfico de datos de Google, el CTO de Databricks Matei Zaharia y el profesor de UC Berkeley, Pieter Abbeel, postul\u00f3 una forma de permitir que los modelos GenAI, es decir, modelos similares a GPT-4 y ChatGPT de OpenAI, ingieran mucho m\u00e1s datos de lo que antes era posible. En el estudio, los coautores demostraron que, al eliminar un importante cuello de botella de memoria para los modelos de IA, podr\u00edan permitir que los modelos procesen millones de palabras en lugar de cientos de miles, el m\u00e1ximo de los modelos m\u00e1s capaces en ese momento.<\/p>\n

Al parecer, la investigaci\u00f3n en IA avanza r\u00e1pidamente.<\/p>\n

Hoy, Google anunci\u00f3 el lanzamiento de Gemini 1.5 Pro, el miembro m\u00e1s nuevo de su familia Gemini de modelos GenAI. Dise\u00f1ado para ser un reemplazo directo de Gemini 1.0 Pro (que anteriormente se llamaba \u00abGemini Pro 1.0\u00bb por razones que s\u00f3lo conoce el laber\u00edntico brazo de marketing de Google), Gemini 1.5 Pro ha mejorado en varias \u00e1reas en comparaci\u00f3n con su predecesor, quiz\u00e1s en la mayor\u00eda. significativamente en la cantidad de datos que puede procesar.<\/p>\n

Gemini 1.5 Pro puede admitir ~700.000 palabras o ~30.000 l\u00edneas de c\u00f3digo: 35 veces la cantidad que Gemini 1.0 Pro puede manejar. Y, dado que el modelo es multimodal, no se limita al texto. Gemini 1.5 Pro puede absorber hasta 11 horas de audio o una hora de v\u00eddeo en una variedad de idiomas diferentes.<\/p>\n

\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

Para ser claros, ese es un l\u00edmite superior.<\/p>\n

La versi\u00f3n de Gemini 1.5 Pro disponible para la mayor\u00eda de los desarrolladores y clientes a partir de hoy (en una vista previa limitada) solo puede procesar ~100 000 palabras a la vez. Google caracteriza el Gemini 1.5 Pro con gran entrada de datos como \u201cexperimental\u201d, permitiendo que solo los desarrolladores aprobados como parte de una vista previa privada lo prueben a trav\u00e9s de la herramienta de desarrollo GenAI AI Studio de la compa\u00f1\u00eda. Varios clientes que utilizan la plataforma Vertex AI de Google tambi\u00e9n tienen acceso al Gemini 1.5 Pro de gran capacidad de entrada de datos, pero no todos.<\/p>\n

A\u00fan as\u00ed, el vicepresidente de investigaci\u00f3n de Google DeepMind, Oriol Vinyals, lo anunci\u00f3 como un logro.<\/p>\n

\u201cCuando interact\u00faas con [GenAI] En los modelos, la informaci\u00f3n que ingresa y genera se convierte en el contexto, y cuanto m\u00e1s largas y complejas sean sus preguntas e interacciones, m\u00e1s largo ser\u00e1 el contexto con el que el modelo debe poder lidiar\u201d, dijo Vinyals durante una rueda de prensa. \u00abHemos desbloqueado el contexto largo de una manera bastante masiva\u00bb.<\/p>\n

Gran contexto<\/h2>\n

El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar resultados (por ejemplo, texto adicional). Una pregunta sencilla: \u00ab\u00bfQui\u00e9n gan\u00f3 las elecciones presidenciales de Estados Unidos de 2020?\u00bb \u2013 puede servir como contexto, al igual que el gui\u00f3n de una pel\u00edcula, un correo electr\u00f3nico o un libro electr\u00f3nico.<\/p>\n

Los modelos con ventanas de contexto peque\u00f1as tienden a \u201colvidar\u201d el contenido incluso de conversaciones muy recientes, lo que los lleva a desviarse del tema, a menudo de manera problem\u00e1tica. Esto no es necesariamente as\u00ed con modelos con contextos grandes. Como ventaja adicional, los modelos de contexto amplio pueden captar mejor el flujo narrativo de datos que reciben y generar respuestas contextualmente m\u00e1s ricas (al menos hipot\u00e9ticamente).<\/p>\n

Ha habido otros intentos (y experimentos) de modelos con ventanas de contexto at\u00edpicamente grandes.<\/p>\n

La startup de IA Magic afirm\u00f3 el verano pasado haber desarrollado un modelo de lenguaje grande (LLM) con una ventana de contexto de 5 millones de tokens. Dos art\u00edculos del a\u00f1o pasado detallan arquitecturas de modelos aparentemente capaces de escalar a un mill\u00f3n de tokens, y m\u00e1s. (\u00abLos tokens\u00bb son fragmentos subdivididos de datos sin procesar, como las s\u00edlabas \u00abfan\u00bb, \u00abtas\u00bb y \u00abtic\u00bb en la palabra \u00abfant\u00e1stico\u00bb). Y recientemente, un grupo de cient\u00edficos provenientes de Meta, MIT y Carnegie Mellon desarrollaron un t\u00e9cnica que, seg\u00fan dicen, elimina por completo la restricci\u00f3n sobre el tama\u00f1o de la ventana de contexto del modelo.<\/p>\n

Pero Google es el primero en hacer disponible comercialmente un modelo con una ventana contextual de este tama\u00f1o, superando la ventana contextual de 200.000 tokens del l\u00edder anterior Anthropic, si una vista previa privada cuenta como disponible comercialmente.<\/p>\n

\"Google<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

La ventana de contexto m\u00e1xima de Gemini 1.5 Pro es de 1 mill\u00f3n de tokens, y la versi\u00f3n del modelo m\u00e1s disponible tiene una ventana de contexto de 128.000 tokens, la misma que el GPT-4 Turbo de OpenAI.<\/p>\n

Entonces, \u00bfqu\u00e9 se puede lograr con una ventana contextual de 1 mill\u00f3n de tokens? Google promete muchas cosas, como analizar una biblioteca de c\u00f3digos completa, \u201crazonar\u201d documentos extensos como contratos, mantener largas conversaciones con un chatbot y analizar y comparar contenido en videos.<\/p>\n

Durante la sesi\u00f3n informativa, Google mostr\u00f3 dos demostraciones pregrabadas de Gemini 1.5 Pro con la ventana contextual de 1 mill\u00f3n de tokens habilitada.<\/p>\n

En el primero, el demostrador le pidi\u00f3 a Gemini 1.5 Pro que buscara en la transcripci\u00f3n de la transmisi\u00f3n del aterrizaje lunar del Apolo 11, que tiene alrededor de 402 p\u00e1ginas, citas que contengan chistes, y luego encontrara una escena en la transmisi\u00f3n que se pareciera a un boceto a l\u00e1piz. . En el segundo, el manifestante le dijo a la modelo que buscara escenas de \u201cSherlock Jr.\u201d, la pel\u00edcula de Buster Keaton, bas\u00e1ndose en descripciones y otro boceto.<\/p>\n

\"Google<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

Gemini 1.5 Pro complet\u00f3 con \u00e9xito todas las tareas que se le solicitaron, pero no particularmente r\u00e1pido. Cada uno tard\u00f3 entre 20 segundos y un minuto en procesarse, mucho m\u00e1s que, por ejemplo, la consulta ChatGPT promedio.<\/p>\n

\"Google<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

Vinyals dice que la latencia mejorar\u00e1 a medida que se optimice el modelo. La compa\u00f1\u00eda ya est\u00e1 probando una versi\u00f3n de Gemini 1.5 Pro con un 10 millones de fichas<\/em> ventana de contexto.<\/p>\n

\u201cEl aspecto de latencia [is something] \u00abEstamos… trabajando para optimizarlo; esto todav\u00eda se encuentra en una etapa experimental, en una etapa de investigaci\u00f3n\u00bb, dijo. \u00abAs\u00ed que estos problemas, dir\u00eda yo, est\u00e1n presentes como en cualquier otro modelo\u00bb.<\/p>\n

Yo no estoy tan seguro de que la latencia pobre sea atractiva para muchas personas, y mucho menos para los clientes que pagan. Tener que esperar minutos a la vez para buscar en un video no suena agradable ni muy escalable en el corto plazo. Y me preocupa c\u00f3mo se manifiesta la latencia en otras aplicaciones, como las conversaciones de chatbot y el an\u00e1lisis de bases de c\u00f3digo. Vinyals no lo dijo, lo que no infunde mucha confianza.<\/p>\n

Mi colega m\u00e1s optimista Fr\u00e9d\u00e9ric Lardinois se\u00f1al\u00f3 que la en general<\/em> El ahorro de tiempo podr\u00eda hacer que valga la pena jugar con el pulgar. Pero creo que depender\u00e1 mucho del caso de uso. \u00bfPara seleccionar los puntos de la trama de un programa? Talvez no. \u00bfPero encontrar la captura de pantalla correcta de una escena de pel\u00edcula que s\u00f3lo recuerdas vagamente? Tal vez.<\/p>\n

Otras mejoras<\/h2>\n

M\u00e1s all\u00e1 de la ventana de contexto ampliada, Gemini 1.5 Pro trae a la mesa otras mejoras de calidad de vida.<\/p>\n

Google afirma que, en t\u00e9rminos de calidad, Gemini 1.5 Pro es \u00abcomparable\u00bb a la versi\u00f3n actual de Gemini Ultra, el modelo insignia GenAI de Google, gracias a una nueva arquitectura compuesta por modelos \u00abexpertos\u00bb especializados m\u00e1s peque\u00f1os. Gemini 1.5 Pro esencialmente divide las tareas en m\u00faltiples subtareas y luego las delega a los modelos expertos apropiados, decidiendo qu\u00e9 tarea delegar en funci\u00f3n de sus propias predicciones.<\/p>\n

El MoE no es novedoso: de alguna forma existe desde hace a\u00f1os. Pero su eficiencia y flexibilidad lo han convertido en una opci\u00f3n cada vez m\u00e1s popular entre los proveedores de modelos (ver: el modelo que impulsa los servicios de traducci\u00f3n de idiomas de Microsoft).<\/p>\n

Ahora bien, \u201ccalidad comparable\u201d es una descripci\u00f3n un tanto confusa. La calidad en lo que respecta a los modelos GenAI, especialmente los multimodales, es dif\u00edcil de cuantificar, y a\u00fan m\u00e1s cuando los modelos est\u00e1n ocultos detr\u00e1s de vistas previas privadas que excluyen a la prensa. Por si sirve de algo, Google afirma que Gemini 1.5 Pro funciona a un \u00abnivel muy similar\u00bb en comparaci\u00f3n con Ultra en los puntos de referencia que utiliza la compa\u00f1\u00eda para desarrollar LLM mientras <\/span>superando a Gemini 1.0 Pro en el 87% de ellos puntos de referencia. (<\/span>Tendr\u00e9 en cuenta que superar a Gemini 1.0 Pro es un list\u00f3n bajo).<\/p>\n

El precio es un gran signo de interrogaci\u00f3n.<\/p>\n

Durante la vista previa privada, Gemini 1.5 Pro con la ventana contextual de 1 mill\u00f3n de tokens ser\u00e1 de uso gratuito, dice Google. Pero la empresa planea introducir niveles de precios en el futuro cercano que comienzan en la ventana de contexto est\u00e1ndar de 128,000 y escalan hasta 1 mill\u00f3n de tokens. <\/span><\/p>\n

Tengo que imaginar que la ventana de contexto m\u00e1s amplia no ser\u00e1 barata, y Google no disip\u00f3 los temores al optar por no revelar los precios durante la sesi\u00f3n informativa. Si el precio est\u00e1 en l\u00ednea con el de Anthropic, podr\u00eda costar $8 por mill\u00f3n de tokens r\u00e1pidos y $24 por mill\u00f3n de tokens generados. Pero tal vez sea menor; \u00a1Han sucedido cosas m\u00e1s extra\u00f1as! Tendremos que esperar y ver.<\/span><\/p>\n

Tambi\u00e9n me pregunto qu\u00e9 implicaciones tendr\u00e1 para el resto de modelos de la familia Gemini, principalmente el Gemini Ultra. \u00bfPodemos esperar actualizaciones del modelo Ultra m\u00e1s o menos alineadas con las actualizaciones Pro? \u00bfO siempre habr\u00e1, como ocurre ahora, un per\u00edodo inc\u00f3modo en el que los modelos Pro disponibles sean superiores en rendimiento a los modelos Ultra, que Google todav\u00eda comercializa como los mejores de su cartera Gemini?<\/p>\n

Si te sientes caritativo, atribuyelo a tus problemas iniciales. Si no es as\u00ed, ll\u00e1malo como es: muy confuso.<\/p>\n<\/p><\/div>\n


\n
Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

En octubre pasado, un art\u00edculo de investigaci\u00f3n publicado por un cient\u00edfico de datos de Google, el CTO de Databricks Matei Zaharia y el profesor de UC Berkeley, Pieter Abbeel, postul\u00f3…<\/p>\n","protected":false},"author":1,"featured_media":922231,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[21922,14852,34839,3672,2036,1488,104,519,2514,3544,495,2964,73,104006,542],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1012026"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1012026"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1012026\/revisions"}],"predecessor-version":[{"id":1012027,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1012026\/revisions\/1012027"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/922231"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1012026"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1012026"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1012026"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}