La última versión de Grok de xAI puede procesar imágenes


xAI, el competidor de OpenAI fundado por Elon Musk, ha presentado la primera versión de Grok que puede procesar información visual. Grok-1.5V es el modelo de IA multimodal de primera generación de la compañía, que no solo procesa texto, sino también «documentos, diagramas, cuadros, capturas de pantalla y fotografías». En el anuncio de xAI, dio algunas muestras de cómo se pueden utilizar sus capacidades en el mundo real. Puedes, por ejemplo, mostrarle una foto de un diagrama de flujo y pedirle a Grok que la traduzca al código Python, hacer que escriba una historia basada en un dibujo e incluso hacer que explique un meme que no puedes entender. Oye, no todo el mundo puede estar al día con todo lo que Internet escupe.

La nueva versión llega apenas un par de semanas después de que la compañía presentara Grok-1.5. Ese modelo fue diseñado para ser mejor en codificación y matemáticas que su predecesor, así como para poder procesar contextos más largos para poder verificar datos de más fuentes para comprender mejor ciertas consultas. xAI dijo que sus primeros probadores y usuarios existentes pronto podrán disfrutar de las capacidades de Grok-1.5V, aunque no dio un cronograma exacto para su lanzamiento.

Además de presentar Grok-1.5V, la compañía también lanzó un conjunto de datos de referencia al que llama RealWorldQA. Puede utilizar cualquiera de las 700 imágenes de RealWorldQA para evaluar modelos de IA: cada elemento viene con preguntas y respuestas que puede verificar fácilmente, pero que pueden dejar perplejos a los modelos multimodales como Grok. xAI afirmó que su tecnología recibió la puntuación más alta cuando la empresa la probó con RealWorldQA frente a competidores, como GPT-4V de OpenAI y Google Gemini Pro 1.5.



Source link-47