Demis Hassabis de Google DeepMind dice que Gemini es una nueva generación de IA


Demis Hassabis nunca ha tenido reparos en proclamar grandes avances en inteligencia artificial. En particular, se hizo famoso en 2016 después de que un robot llamado AlphaGo aprendió por sí solo a jugar el complejo y sutil juego de mesa Go con habilidad e ingenio sobrehumanos.

Hoy, Hassabis dice que su equipo en Google ha dado un gran paso adelante, para él, para la empresa y, con suerte, para el campo más amplio de la IA. Gemini, el modelo de IA anunciado hoy por Google, afirma, abre un camino no transitado en la IA que podría conducir a nuevos avances importantes.

«Como neurocientífico e informático, durante años he querido intentar crear una especie de nueva generación de modelos de IA inspirados en la forma en que interactuamos y entendemos el mundo, a través de todos nuestros sentidos», dijo Hassabis. WIRED antes del anuncio de hoy. Gemini es “un gran paso hacia ese tipo de modelo”, afirma. Google describe a Gemini como «multimodal» porque puede procesar información en forma de texto, audio, imágenes y video.

Una versión inicial de Gemini estará disponible a través del chatbot Bard de Google a partir de hoy. La compañía dice que la versión más potente del modelo, Gemini Ultra, se lanzará el próximo año y supera al GPT-4, el modelo detrás de ChatGPT, en varios puntos de referencia comunes. Los videos publicados por Google muestran a Gemini resolviendo tareas que involucran un razonamiento complejo, y también ejemplos del modelo que combina información de texto, imágenes, audio y video.

«Hasta ahora, la mayoría de los modelos se han aproximado a la multimodalidad entrenando módulos separados y luego uniéndolos», dice Hassabis, en lo que parecía ser una referencia velada a la tecnología OpenAI. «Eso está bien para algunas tareas, pero no se puede tener este tipo de razonamiento complejo y profundo en un espacio multimodal».

OpenAI lanzó una actualización de ChatGPT en septiembre que le dio al chatbot la capacidad de tomar imágenes y audio como entrada además de texto. OpenAI no ha revelado detalles técnicos sobre cómo hace esto GPT-4 ni la base técnica de sus capacidades multimodales.

Ponerse al día

Google ha desarrollado y lanzado Gemini con una velocidad sorprendente en comparación con proyectos anteriores de IA en la compañía, impulsado por la reciente preocupación sobre la amenaza que los desarrollos de OpenAI y otros podrían representar para el futuro de Google.

A finales de 2022, Google era visto como el líder en IA entre las grandes empresas de tecnología, y varios investigadores de IA hacían importantes contribuciones en este campo. El director ejecutivo, Sundar Pichai, había declarado que su estrategia para la empresa era “la IA primero”, y Google había agregado con éxito la IA a muchos de sus productos, desde búsquedas hasta teléfonos inteligentes.



Source link-46