{"id":956380,"date":"2024-01-08T16:45:42","date_gmt":"2024-01-08T16:45:42","guid":{"rendered":"https:\/\/magazineoffice.com\/google-gemini-todo-lo-que-necesitas-saber-sobre-la-nueva-plataforma-de-ia-generativa\/"},"modified":"2024-01-08T16:45:45","modified_gmt":"2024-01-08T16:45:45","slug":"google-gemini-todo-lo-que-necesitas-saber-sobre-la-nueva-plataforma-de-ia-generativa","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/google-gemini-todo-lo-que-necesitas-saber-sobre-la-nueva-plataforma-de-ia-generativa\/","title":{"rendered":"Google Gemini: todo lo que necesitas saber sobre la nueva plataforma de IA generativa"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p id=\"speakable-summary\">Google est\u00e1 intentando causar sensaci\u00f3n con Gemini, una nueva plataforma de IA generativa que recientemente hizo su gran debut.  Pero si bien G\u00e9minis parece prometedor en algunos aspectos, se queda corto en otros.  Entonces, \u00bfqu\u00e9 es G\u00e9minis?  \u00bfC\u00f3mo puedes utilizarlo?  \u00bfY c\u00f3mo se compara con la competencia?<\/p>\n<p>Para que sea m\u00e1s f\u00e1cil mantenerse al d\u00eda con los \u00faltimos desarrollos de Gemini, hemos elaborado esta pr\u00e1ctica gu\u00eda, que mantendremos actualizada a medida que se lancen nuevos modelos y funciones de Gemini.<\/p>\n<h2>\u00bfQu\u00e9 es G\u00e9minis?<\/h2>\n<p id=\"speakable-summary\">Gemini es la familia de modelos de IA generativa de pr\u00f3xima generaci\u00f3n, prometida desde hace mucho tiempo por Google, desarrollada por los laboratorios de investigaci\u00f3n de IA de Google, DeepMind y Google Research.  Viene en tres sabores:<\/p>\n<ul>\n<li><strong>G\u00e9minis Ultra<\/strong>el modelo insignia de Gemini<\/li>\n<li><strong>G\u00e9minis profesional<\/strong>un modelo G\u00e9minis \u201clite\u201d<\/li>\n<li><strong>G\u00e9minis Nano<\/strong>un modelo \u201cdestilado\u201d m\u00e1s peque\u00f1o que se ejecuta en dispositivos m\u00f3viles como el Pixel 8 Pro<\/li>\n<\/ul>\n<p>Todos los modelos Gemini fueron entrenados para ser \u201cnativamente multimodales\u201d; en otras palabras, capaces de trabajar y utilizar algo m\u00e1s que texto.  Fueron entrenados previamente y ajustados en una variedad de audio, im\u00e1genes y videos, un gran conjunto de bases de c\u00f3digo y texto en diferentes idiomas.<\/p>\n<p>Esto distingue a Gemini de modelos como el modelo de lenguaje grande LaMDA de Google, que solo fue entrenado con datos de texto.  LaMDA no puede comprender ni generar nada m\u00e1s que texto (por ejemplo, ensayos, borradores de correos electr\u00f3nicos, etc.), pero ese no es el caso de los modelos Gemini.  Su capacidad para comprender im\u00e1genes, audio y otras modalidades a\u00fan es limitada, pero es mejor que nada.<\/p>\n<h2>\u00bfCu\u00e1l es la diferencia entre Bardo y G\u00e9minis?<\/h2>\n<div id=\"attachment_2601757\" style=\"width: 1034px\" class=\"wp-caption aligncenter\">\n<p id=\"caption-attachment-2601757\" class=\"wp-caption-text\"><strong>Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n<p>Google, demostrando una vez m\u00e1s que carece de habilidad para las marcas, no dej\u00f3 claro desde el principio que Gemini es independiente y distinto de Bard.  Bard es simplemente una interfaz a trav\u00e9s de la cual se puede acceder a ciertos modelos de Gemini; consid\u00e9relo como una aplicaci\u00f3n o cliente para Gemini y otros modelos de IA de generaci\u00f3n.  Gemini, por otro lado, es una familia de modelos, no una aplicaci\u00f3n o una interfaz.  No existe una experiencia G\u00e9minis independiente, ni probablemente la habr\u00e1 nunca.  Si se comparara con los productos de OpenAI, Bard corresponde a ChatGPT, la popular aplicaci\u00f3n de IA conversacional de OpenAI, y Gemini corresponde al modelo de lenguaje que la impulsa, que en el caso de ChatGPT es GPT-3.5 o 4.<\/p>\n<p>Por cierto, Gemini tambi\u00e9n es totalmente independiente de Imagen-2, un modelo de conversi\u00f3n de texto a imagen que puede encajar o no en la estrategia general de IA de la empresa.  \u00a1No te preocupes, no eres el \u00fanico confundido por esto!<\/p>\n<h2>\u00bfQu\u00e9 puede hacer G\u00e9minis?<\/h2>\n<p>Debido a que los modelos Gemini son multimodales, en teor\u00eda pueden realizar una variedad de tareas, desde transcribir voz hasta subtitular im\u00e1genes y videos hasta generar obras de arte.  Pocas de estas capacidades han llegado a la etapa de producto todav\u00eda (m\u00e1s sobre esto m\u00e1s adelante), pero Google promete todas ellas, y m\u00e1s, en alg\u00fan momento en un futuro no muy lejano.<\/p>\n<p>Por supuesto, es un poco dif\u00edcil creerle la palabra a la empresa.<\/p>\n<p>Google no cumpli\u00f3 con creces con el lanzamiento original de Bard.  Y m\u00e1s recientemente caus\u00f3 revuelo con un video que pretend\u00eda mostrar las capacidades de G\u00e9minis y que result\u00f3 haber sido muy manipulado y era m\u00e1s o menos aspiracional.  Geminis <em>es<\/em>para cr\u00e9dito del gigante tecnol\u00f3gico, est\u00e1 disponible de alguna forma hoy en d\u00eda, pero de una forma bastante limitada.<\/p>\n<p>A\u00fan as\u00ed, suponiendo que Google sea m\u00e1s o menos sincero con sus afirmaciones, esto es lo que los diferentes niveles de modelos Gemini podr\u00e1n hacer una vez que se lancen:<\/p>\n<h3>G\u00e9minis Ultra<\/h3>\n<p>Pocas personas han conseguido hasta ahora Gemini Ultra, el modelo \u201cbase\u201d sobre el que se construyen los dem\u00e1s: s\u00f3lo un \u201cconjunto selecto\u201d de clientes en un pu\u00f1ado de aplicaciones y servicios de Google.  Eso no cambiar\u00e1 hasta finales de este a\u00f1o, cuando el modelo m\u00e1s grande de Google se lance de manera m\u00e1s amplia.  La mayor parte de la informaci\u00f3n sobre Ultra proviene de demostraciones de productos dirigidas por Google, por lo que es mejor tomarlo con cautela.<\/p>\n<p>Google dice que Gemini Ultra puede usarse para ayudar con cosas como tareas de f\u00edsica, resolver problemas paso a paso en una hoja de trabajo y se\u00f1alar posibles errores en respuestas ya completadas.  Gemini Ultra tambi\u00e9n se puede aplicar a tareas como identificar art\u00edculos cient\u00edficos relevantes para un problema particular, dice Google, extrayendo informaci\u00f3n de esos art\u00edculos y \u201cactualizando\u201d un gr\u00e1fico a partir de uno generando las f\u00f3rmulas necesarias para recrear el gr\u00e1fico con datos m\u00e1s recientes.<\/p>\n<p>Gemini Ultra t\u00e9cnicamente admite la generaci\u00f3n de im\u00e1genes, como se mencion\u00f3 anteriormente.  Pero esa capacidad no llegar\u00e1 a la versi\u00f3n productiva del modelo en el momento del lanzamiento, seg\u00fan Google, tal vez porque el mecanismo es m\u00e1s complejo que la forma en que aplicaciones como ChatGPT generan im\u00e1genes.  En lugar de enviar indicaciones a un generador de im\u00e1genes (como DALL-E 3, en el caso de ChatGPT), Gemini genera im\u00e1genes de forma \u00abnativa\u00bb sin un paso intermedio.<\/p>\n<h3>G\u00e9minis profesional<\/h3>\n<p>A diferencia de Gemini Ultra, Gemini Pro est\u00e1 disponible p\u00fablicamente hoy.  Pero, de manera confusa, sus capacidades dependen de d\u00f3nde se usa.<\/p>\n<p>Google dice que en Bard, donde Gemini Pro se lanz\u00f3 por primera vez en formato de solo texto, el modelo es una mejora con respecto a LaMDA en sus capacidades de razonamiento, planificaci\u00f3n y comprensi\u00f3n.  Un estudio independiente realizado por investigadores de Carnegie Mellon y BerriAI encontr\u00f3 que Gemini Pro es de hecho mejor que GPT-3.5 de OpenAI en el manejo de cadenas de razonamiento m\u00e1s largas y complejas.<\/p>\n<p>Pero el estudio tambi\u00e9n encontr\u00f3 que, como todos los modelos de lenguaje grandes, Gemini Pro tiene dificultades especiales con problemas matem\u00e1ticos que involucran varios d\u00edgitos, y los usuarios han encontrado muchos ejemplos de malos razonamientos y errores.  Cometi\u00f3 muchos errores f\u00e1cticos en consultas simples como qui\u00e9n gan\u00f3 los \u00faltimos premios Oscar.  Google ha prometido mejoras, pero no est\u00e1 claro cu\u00e1ndo llegar\u00e1n.<\/p>\n<p>Gemini Pro tambi\u00e9n est\u00e1 disponible a trav\u00e9s de API en Vertex AI, la plataforma de desarrollo de IA totalmente administrada de Google, que acepta texto como entrada y genera texto como salida.  Un punto final adicional, Gemini Pro Vision, puede procesar texto <em>y<\/em> im\u00e1genes, incluidas fotos y videos, y texto de salida siguiendo las l\u00edneas del modelo GPT-4 con Vision de OpenAI.<\/p>\n<div id=\"attachment_2648159\" style=\"width: 929px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-2648159\" class=\"size-full wp-image-2648159\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png\" alt=\"Geminis\" width=\"919\" height=\"600\" srcset=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png 919w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png?resize=150,98 150w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png?resize=300,196 300w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png?resize=768,501 768w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png?resize=680,444 680w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/structured_prompt.png?resize=50,33 50w\" sizes=\"(max-width: 919px) 100vw, 919px\"\/><\/p>\n<p id=\"caption-attachment-2648159\" class=\"wp-caption-text\">Usando Gemini Pro en Vertex AI.<\/p>\n<\/div>\n<p>Dentro de Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso espec\u00edficos mediante un proceso de ajuste o \u00abconexi\u00f3n a tierra\u00bb.  Gemini Pro tambi\u00e9n se puede conectar a API externas de terceros para realizar acciones particulares.<\/p>\n<p>En alg\u00fan momento a \u201cprincipios de 2024\u201d, los clientes de Vertex podr\u00e1n aprovechar Gemini Pro para potenciar agentes de chat y voz conversacionales personalizados (es decir, chatbots).  Gemini Pro tambi\u00e9n se convertir\u00e1 en una opci\u00f3n para impulsar las funciones de resumen de b\u00fasqueda, recomendaci\u00f3n y generaci\u00f3n de respuestas en Vertex AI, bas\u00e1ndose en documentos en todas las modalidades (por ejemplo, PDF, im\u00e1genes) de diferentes fuentes (por ejemplo, OneDrive, Salesforce) para satisfacer las consultas.<\/p>\n<div id=\"attachment_2648157\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-2648157\" class=\"size-full wp-image-2648157\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png\" alt=\"Geminis\" width=\"1024\" height=\"476\" srcset=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png 2138w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=150,70 150w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=300,139 300w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=768,357 768w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=680,316 680w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=1536,713 1536w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=2048,951 2048w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=1200,557 1200w, https:\/\/techcrunch.com\/wp-content\/uploads\/2024\/01\/ais-app.png?resize=50,23 50w\" sizes=\"(max-width: 1024px) 100vw, 1024px\"\/><\/p>\n<p id=\"caption-attachment-2648157\" class=\"wp-caption-text\"><strong>Cr\u00e9ditos de imagen:<\/strong> Geminis<\/p>\n<\/div>\n<p>En AI Studio, la herramienta web de Google para desarrolladores de aplicaciones y plataformas, hay flujos de trabajo para crear mensajes de chat estructurados y de forma libre utilizando Gemini Pro.  Los desarrolladores tienen acceso a los puntos finales Gemini Pro y Gemini Pro Vision, y pueden ajustar la temperatura del modelo para controlar el rango creativo de salida y proporcionar ejemplos para dar instrucciones de tono y estilo, y tambi\u00e9n ajustar las configuraciones de seguridad.<\/p>\n<div class=\"container__access-control\">\n<h3>G\u00e9minis Nano<\/h3>\n<p>Gemini Nano es una versi\u00f3n mucho m\u00e1s peque\u00f1a de los modelos Gemini Pro y Ultra, y es lo suficientemente eficiente como para ejecutarse directamente en (algunos) tel\u00e9fonos en lugar de enviar la tarea a un servidor en alg\u00fan lugar.  Hasta ahora, incluye dos funciones en el Pixel 8 Pro: resumir en la grabadora y respuesta inteligente en Gboard.<\/p>\n<p>La aplicaci\u00f3n Recorder, que permite a los usuarios presionar un bot\u00f3n para grabar y transcribir audio, incluye un resumen desarrollado por Gemini de sus conversaciones, entrevistas, presentaciones y otros fragmentos grabados.  Los usuarios obtienen estos res\u00famenes incluso si no tienen una se\u00f1al o conexi\u00f3n Wi-Fi disponible y, en un gui\u00f1o a la privacidad, no salen datos de su tel\u00e9fono en el proceso.<\/p>\n<p>Gemini Nano tambi\u00e9n est\u00e1 en Gboard, la aplicaci\u00f3n de teclado de Google, como vista previa para desarrolladores.  All\u00ed, activa una funci\u00f3n llamada Respuesta inteligente, que ayuda a sugerir lo siguiente que querr\u00e1s decir cuando tengas una conversaci\u00f3n en una aplicaci\u00f3n de mensajer\u00eda.  Inicialmente, la funci\u00f3n solo funciona con WhatsApp, pero llegar\u00e1 a m\u00e1s aplicaciones en 2024, dice Google.<\/p>\n<h2>\u00bfEs Gemini mejor que el GPT-4 de OpenAI?<\/h2>\n<p>No hay manera de saber c\u00f3mo funciona la familia G\u00e9minis. <em>en realidad <\/em>Se acumula hasta que Google lance Ultra a finales de este a\u00f1o, pero la compa\u00f1\u00eda ha afirmado mejoras en el estado del arte, que suele ser el GPT-4 de OpenAI.<\/p>\n<p>Google ha promocionado varias veces la superioridad de Gemini en los puntos de referencia, afirmando que Gemini Ultra supera los resultados actuales del estado del arte en \u00ab30 de los 32 puntos de referencia acad\u00e9micos ampliamente utilizados en la investigaci\u00f3n y el desarrollo de grandes modelos de lenguaje\u00bb.  Mientras tanto, la compa\u00f1\u00eda dice que Gemini Pro es m\u00e1s capaz de realizar tareas como resumir contenido, generar ideas y escribir que GPT-3.5.<\/p>\n<p>Pero dejando de lado la cuesti\u00f3n de si los puntos de referencia realmente indican un modelo mejor, los puntajes que se\u00f1ala Google parecen ser s\u00f3lo marginalmente mejores que los modelos correspondientes de OpenAI.  Y, como se mencion\u00f3 anteriormente, algunas de las primeras impresiones no han sido buenas, ya que los usuarios y acad\u00e9micos se\u00f1alaron que Gemini Pro tiende a equivocarse en los datos b\u00e1sicos, tiene dificultades con las traducciones y ofrece sugerencias de codificaci\u00f3n deficientes.<\/p>\n<h2>\u00bfCu\u00e1nto costar\u00e1 G\u00e9minis?<\/h2>\n<p>Gemini Pro es de uso gratuito en Bard y, por ahora, en AI Studio y Vertex AI.<\/p>\n<\/div>\n<p>Sin embargo, una vez que Gemini Pro salga de la vista previa en Vertex, el modelo costar\u00e1 $0,0025 por car\u00e1cter, mientras que la salida costar\u00e1 $0,00005 por car\u00e1cter.  Los clientes de Vertex pagan por 1.000 caracteres (entre 140 y 250 palabras) y, en el caso de modelos como Gemini Pro Vision, por imagen (0,0025 d\u00f3lares).<\/p>\n<p>Supongamos que un art\u00edculo de 500 palabras contiene 2000 caracteres.  Resumir ese art\u00edculo con Gemini Pro costar\u00eda $5.  Mientras tanto, <em>generando <\/em>un art\u00edculo de longitud similar costar\u00eda 0,1 d\u00f3lares.<\/p>\n<div class=\"container__access-control\">\n<h2>\u00bfD\u00f3nde puedes probar G\u00e9minis?<\/h2>\n<h3>G\u00e9minis profesional<\/h3>\n<p>El lugar m\u00e1s f\u00e1cil para experimentar Gemini Pro es Bard.  Una versi\u00f3n mejorada de Pro est\u00e1 respondiendo consultas de Bard basadas en texto en ingl\u00e9s en los EE. UU. en este momento, con idiomas adicionales y pa\u00edses admitidos que llegar\u00e1n en el futuro.<\/p>\n<p>Tambi\u00e9n se puede acceder a Gemini Pro en versi\u00f3n preliminar en Vertex AI a trav\u00e9s de una API.  La API es de uso gratuito \u201cdentro de l\u00edmites\u201d por el momento y admite 38 idiomas y regiones, incluida Europa, as\u00ed como funciones como funcionalidad de chat y filtrado.<\/p>\n<p>En otros lugares, Gemini Pro se puede encontrar en AI Studio.  Al utilizar el servicio, los desarrolladores pueden iterar indicaciones y chatbots basados \u200b\u200ben Gemini y luego obtener claves API para usarlas en sus aplicaciones, o exportar el c\u00f3digo a un IDE con m\u00e1s funciones.<\/p>\n<p id=\"speakable-summary\">Duet AI for Developers, el conjunto de herramientas de asistencia impulsadas por IA de Google para completar y generar c\u00f3digo, comenzar\u00e1 a utilizar un modelo Gemini en las pr\u00f3ximas semanas.  Y Google planea llevar los modelos Gemini a las herramientas de desarrollo para Chrome y su plataforma de desarrollo m\u00f3vil Firebase aproximadamente al mismo tiempo, a principios de 2024.<\/p>\n<h3>G\u00e9minis Nano<\/h3>\n<p>Gemini Nano est\u00e1 en el Pixel 8 Pro y llegar\u00e1 a otros dispositivos en el futuro.  Los desarrolladores interesados \u200b\u200ben incorporar el modelo a sus aplicaciones de Android pueden registrarse para obtener un adelanto.<\/p>\n<p>Mantendremos esta publicaci\u00f3n actualizada con los \u00faltimos desarrollos.<\/p>\n<\/div><\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Google est\u00e1 intentando causar sensaci\u00f3n con Gemini, una nueva plataforma de IA generativa que recientemente hizo su gran debut. Pero si bien G\u00e9minis parece prometedor en algunos aspectos, se queda&hellip;<\/p>\n","protected":false},"author":1,"featured_media":956381,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[34839,59500,3672,18708,254,1394,4518,15,26],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/956380"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=956380"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/956380\/revisions"}],"predecessor-version":[{"id":956382,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/956380\/revisions\/956382"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/956381"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=956380"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=956380"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=956380"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}