Google Gemini: todo lo que necesitas saber sobre la nueva plataforma de IA generativa


Google está tratando de causar sensación con Gemini, un conjunto emblemático de modelos, aplicaciones y servicios de IA generativa. Pero si bien Gemini parece prometedor en algunos aspectos, se queda corto en otros, como reveló nuestra revisión informal.

Entonces, ¿qué es Géminis? ¿Cómo puedes utilizarlo? ¿Y cómo se compara con la competencia?

Para que sea más fácil mantenerse al día con los últimos desarrollos de Gemini, hemos elaborado esta práctica guía, que mantendremos actualizada a medida que se lancen nuevos modelos y funciones de Gemini.

¿Qué es Géminis?

Gemini es la familia de modelos GenAI de próxima generación prometida desde hace mucho tiempo por Google, desarrollada por los laboratorios de investigación de inteligencia artificial de Google, DeepMind y Google Research. Viene en tres sabores:

  • Géminis Ultrael modelo insignia de Gemini.
  • Géminis profesionalun modelo Géminis “ligero”.
  • Géminis Nanoun modelo “destilado” más pequeño que se ejecuta en dispositivos móviles como el Pixel 8 Pro.

Todos los modelos Gemini fueron entrenados para ser “nativamente multimodales”; en otras palabras, capaces de trabajar y utilizar más que solo palabras. Fueron entrenados previamente y ajustados en una variedad de audio, imágenes y videos, un gran conjunto de bases de código y texto en diferentes idiomas.

Esto diferencia a Gemini de modelos como el LaMDA de Google, que se entrenó exclusivamente con datos de texto. LaMDA no puede comprender ni generar nada más que texto (por ejemplo, ensayos, borradores de correo electrónico), pero ese no es el caso de los modelos Gemini.

¿Cuál es la diferencia entre las aplicaciones Gemini y los modelos Gemini?

Créditos de imagen: Google

Google, demostrando una vez más que carece de habilidad para la marca, no dejó claro desde el principio que Gemini es independiente y distinta de las aplicaciones Gemini en la web y en dispositivos móviles (anteriormente Bard). Las aplicaciones Gemini son simplemente una interfaz a través de la cual se puede acceder a ciertos modelos Gemini; considérelo como un cliente para GenAI de Google.

Por cierto, las aplicaciones y modelos de Gemini también son totalmente independientes de Imagen 2, el modelo de conversión de texto a imagen de Google que está disponible en algunas de las herramientas y entornos de desarrollo de la empresa. No te preocupes, no eres el único que está confundido por esto.

¿Qué puede hacer Géminis?

Debido a que los modelos Gemini son multimodales, en teoría pueden realizar una variedad de tareas multimodales, desde transcribir voz hasta subtitular imágenes y videos hasta generar obras de arte. Pocas de estas capacidades han llegado a la etapa de producto todavía (más sobre esto más adelante), pero Google promete todas ellas, y más, en algún momento en un futuro no muy lejano.

Por supuesto, es un poco difícil creerle la palabra a la empresa.

Google no cumplió con creces con el lanzamiento original de Bard. Y más recientemente causó revuelo con un video que pretendía mostrar las capacidades de Géminis y que resultó haber sido muy manipulado y era más o menos aspiracional.

Aún así, suponiendo que Google sea más o menos sincero con sus afirmaciones, esto es lo que los diferentes niveles de Gemini podrán hacer una vez que alcancen su máximo potencial:

Géminis Ultra

Google dice que Gemini Ultra, gracias a su multimodalidad, puede usarse para ayudar con cosas como tareas de física, resolver problemas paso a paso en una hoja de trabajo y señalar posibles errores en respuestas ya completadas.

Gemini Ultra también se puede aplicar a tareas como identificar artículos científicos relevantes para un problema particular, dice Google: extraer información de esos artículos y «actualizar» un gráfico de uno generando las fórmulas necesarias para recrear el gráfico con datos más recientes. .

Gemini Ultra técnicamente admite la generación de imágenes, como se mencionó anteriormente. Pero esa capacidad aún no ha llegado a la versión productiva del modelo, tal vez porque el mecanismo es más complejo que la forma en que aplicaciones como ChatGPT generan imágenes. En lugar de enviar mensajes a un generador de imágenes (como DALL-E 3, en el caso de ChatGPT), Gemini genera imágenes «de forma nativa», sin un paso intermedio.

Gemini Ultra está disponible como API a través de Vertex AI, la plataforma de desarrollo de IA totalmente administrada de Google, y AI Studio, la herramienta web de Google para desarrolladores de aplicaciones y plataformas. También impulsa las aplicaciones Gemini, pero no de forma gratuita. El acceso a Gemini Ultra a través de lo que Google llama Gemini Advanced requiere suscribirse al Plan Premium Google One AI, con un precio de 20 dólares al mes.

El plan AI Premium también conecta Gemini con su cuenta más amplia de Google Workspace: piense en correos electrónicos en Gmail, documentos en Docs, presentaciones en Sheets y grabaciones de Google Meet. Esto es útil, por ejemplo, para resumir correos electrónicos o hacer que Gemini capture notas durante una videollamada.

Géminis profesional

Google dice que Gemini Pro es una mejora con respecto a LaMDA en sus capacidades de razonamiento, planificación y comprensión.

Un estudio independiente realizado por investigadores de Carnegie Mellon y BerriAI encontró que Gemini Pro es de hecho mejor que GPT-3.5 de OpenAI en el manejo de cadenas de razonamiento más largas y complejas. Pero el estudio también encontró que, como todos los modelos de lenguaje grandes, Gemini Pro tiene dificultades especiales con problemas matemáticos que involucran varios dígitos, y los usuarios han encontrado muchos ejemplos de malos razonamientos y errores.

Sin embargo, las mejoras prometidas por Google, y la primera llegó en forma de Gemini 1.5 Pro.

Diseñado para ser un reemplazo directo, Gemini 1.5 Pro (en versión preliminar actualmente) ha mejorado en varias áreas en comparación con su predecesor, quizás lo más significativo es la cantidad de datos que puede procesar. Gemini 1.5 Pro puede (en vista previa privada limitada) admitir ~700.000 palabras o ~30.000 líneas de código: 35 veces la cantidad que Gemini 1.0 Pro puede manejar. Y, dado que el modelo es multimodal, no se limita al texto. Gemini 1.5 Pro puede analizar hasta 11 horas de audio o una hora de vídeo en una variedad de idiomas diferentes, aunque lentamente (por ejemplo, buscar una escena en un vídeo de una hora requiere de 30 segundos a un minuto de procesamiento).

Gemini Pro también está disponible a través de API en Vertex AI para aceptar texto como entrada y generar texto como salida. Un punto final adicional, Gemini Pro Vision, puede procesar texto y imágenes, incluidas fotos y videos, y texto de salida siguiendo las líneas del modelo GPT-4 con Vision de OpenAI.

Geminis

Usando Gemini Pro en Vertex AI. Créditos de imagen: Geminis

Dentro de Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos mediante un proceso de ajuste o «conexión a tierra». Gemini Pro también se puede conectar a API externas de terceros para realizar acciones particulares.

En AI Studio, existen flujos de trabajo para crear mensajes de chat estructurados utilizando Gemini Pro. Los desarrolladores tienen acceso a los puntos finales Gemini Pro y Gemini Pro Vision, y pueden ajustar la temperatura del modelo para controlar el rango creativo de salida y proporcionar ejemplos para dar instrucciones de tono y estilo, y también ajustar las configuraciones de seguridad.

Géminis Nano

Gemini Nano es una versión mucho más pequeña de los modelos Gemini Pro y Ultra, y es lo suficientemente eficiente como para ejecutarse directamente en (algunos) teléfonos en lugar de enviar la tarea a un servidor en algún lugar. Hasta ahora, incluye dos funciones en el Pixel 8 Pro: resumir en la grabadora y respuesta inteligente en Gboard.

La aplicación Recorder, que permite a los usuarios presionar un botón para grabar y transcribir audio, incluye un resumen desarrollado por Gemini de sus conversaciones, entrevistas, presentaciones y otros fragmentos grabados. Los usuarios obtienen estos resúmenes incluso si no tienen una señal o conexión Wi-Fi disponible y, en un guiño a la privacidad, no salen datos de su teléfono en el proceso.

Gemini Nano también está en Gboard, la aplicación de teclado de Google, como vista previa para desarrolladores. Allí, activa una función llamada Respuesta inteligente, que ayuda a sugerir lo siguiente que querrás decir cuando tengas una conversación en una aplicación de mensajería. Inicialmente, la función solo funciona con WhatsApp, pero llegará a más aplicaciones en 2024, dice Google.

¿Es Gemini mejor que el GPT-4 de OpenAI?

Google ha promocionado varias veces la superioridad de Gemini en los puntos de referencia, afirmando que Gemini Ultra supera los resultados actuales del estado del arte en «30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de grandes modelos de lenguaje». Mientras tanto, la compañía dice que Gemini Pro es más capaz de realizar tareas como resumir contenido, generar ideas y escribir que GPT-3.5.

Pero dejando de lado la cuestión de si los puntos de referencia realmente indican un modelo mejor, los puntajes que señala Google parecen ser sólo marginalmente mejores que los modelos correspondientes de OpenAI. Y, como se mencionó anteriormente, algunas de las primeras impresiones no han sido muy buenas, ya que los usuarios y académicos señalaron que Gemini Pro tiende a equivocarse en los datos básicos, tiene dificultades con las traducciones y ofrece sugerencias de codificación deficientes.

¿Cuánto costará Géminis?

Gemini Pro es de uso gratuito en las aplicaciones Gemini y, por ahora, en AI Studio y Vertex AI.

Sin embargo, una vez que Gemini Pro salga de la vista previa en Vertex, el modelo costará $0,0025 por carácter, mientras que la salida costará $0,00005 por carácter. Los clientes de Vertex pagan por 1.000 caracteres (entre 140 y 250 palabras) y, en el caso de modelos como Gemini Pro Vision, por imagen (0,0025 dólares).

Supongamos que un artículo de 500 palabras contiene 2000 caracteres. Resumir ese artículo con Gemini Pro costaría $5. Mientras tanto, generar un artículo de una extensión similar costaría 0,1 dólares.

El precio Ultra aún no se ha anunciado.

¿Dónde puedes probar Géminis?

Géminis profesional

El lugar más fácil para experimentar Gemini Pro es en las aplicaciones Gemini. Pro y Ultra responden consultas en varios idiomas.

También se puede acceder a Gemini Pro y Ultra en versión preliminar en Vertex AI a través de una API. La API es de uso gratuito “dentro de límites” por el momento y es compatible con ciertas regiones, incluida Europa, así como funciones como funcionalidad de chat y filtrado.

En otros lugares, Gemini Pro y Ultra se pueden encontrar en AI Studio. Al utilizar el servicio, los desarrolladores pueden iterar indicaciones y chatbots basados ​​en Gemini y luego obtener claves API para usarlas en sus aplicaciones, o exportar el código a un IDE con más funciones.

Duet AI for Developers, el conjunto de herramientas de asistencia impulsadas por IA de Google para completar y generar código, ahora utiliza modelos Gemini. Y Google incorporó modelos Gemini a sus herramientas de desarrollo para la plataforma de desarrollo móvil Chrome y Firebase.

Géminis Nano

Gemini Nano está en el Pixel 8 Pro y llegará a otros dispositivos en el futuro. Los desarrolladores interesados ​​en incorporar el modelo a sus aplicaciones de Android pueden registrarse para obtener un adelanto.



Source link-48