Anthropic afirma que sus nuevos modelos superan al GPT-4


La startup de IA Anthropic, respaldada por cientos de millones en capital de riesgo (y quizás pronto cientos de millones más), anunció hoy la última versión de su tecnología GenAI, Claude. Y la compañía afirma que rivaliza con el GPT-4 de OpenAI en términos de rendimiento.

Claude 3, como se llama el nuevo GenAI de Anthropic, es una familia de modelos: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus, siendo Opus el más poderoso. Todos muestran «mayores capacidades» en análisis y pronóstico, afirma Anthropic, así como un rendimiento mejorado en puntos de referencia específicos en comparación con modelos como GPT-4 (pero no GPT-4 Turbo) y Gemini 1.0 Ultra de Google (pero no Gemini 1.5 Pro).

En particular, Claude 3 es el primer GenAI multimodal de Anthropic, lo que significa que puede analizar tanto texto como imágenes, similar a algunas versiones de GPT-4 y Gemini. Claude 3 puede procesar fotografías, cuadros, gráficos y diagramas técnicos, extrayendo archivos PDF, presentaciones de diapositivas y otros tipos de documentos.

En un paso mejor que algunos rivales de GenAI, Claude 3 puede analizar múltiples imágenes en una sola solicitud (hasta un máximo de 20). Esto le permite comparar y contrastar imágenes, señala Anthropic.

Pero el procesamiento de imágenes de Claude 3 tiene límites.

Anthropic ha impedido que los modelos identifiquen a las personas, sin duda desconfiando de las implicaciones éticas y legales. Y la compañía admite que Claude 3 es propenso a cometer errores con imágenes de “baja calidad” (menos de 200 píxeles) y tiene dificultades con tareas que implican razonamiento espacial (por ejemplo, leer la esfera de un reloj analógico) y conteo de objetos (Claude 3 no puede dar datos exactos). recuentos de objetos en imágenes).

Créditos de imagen: antrópico

Claude 3 tampoco lo hará generar obra de arte. Los modelos analizan estrictamente imágenes, al menos por ahora.

Ya sea con texto o imágenes, Anthropic dice que los clientes generalmente pueden esperar que Claude 3 siga mejor las instrucciones de varios pasos, produzca resultados estructurados en formatos como JSON y converse en otros idiomas además del inglés en comparación con sus predecesores. Claude 3 también debería negarse a responder preguntas con menos frecuencia gracias a una «comprensión más matizada de las solicitudes», dice Anthropic. Y pronto, Claude 3 citará la fuente de sus respuestas a las preguntas para que los usuarios puedan verificarlas.

«Claude 3 tiende a generar respuestas más expresivas y atractivas», escribe Anthropic en un artículo de apoyo. “[It’s] más fácil de indicar y dirigir en comparación con nuestros modelos heredados. Los usuarios deberían descubrir que pueden lograr los resultados deseados con indicaciones más breves y concisas”.

Algunas de esas mejoras provienen del contexto ampliado de Claude 3.

El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar resultados. Los modelos con ventanas de contexto pequeñas tienden a “olvidar” el contenido incluso de conversaciones muy recientes, lo que los lleva a desviarse del tema, a menudo de manera problemática. Como ventaja adicional, los modelos de contexto grande pueden captar mejor el flujo narrativo de datos que reciben y generar respuestas contextualmente más ricas (al menos hipotéticamente).

Anthropic dice que Claude 3 admitirá inicialmente una ventana de contexto de 200.000 tokens, equivalente a unas 150.000 palabras, y que los clientes seleccionados obtendrán una ventana de contexto de 1 millón de tokens (~700.000 palabras). Eso está a la par con el modelo GenAI más nuevo de Google, el Gemini 1.5 Pro mencionado anteriormente, que también ofrece una ventana de hasta 1 millón de contexto.

Ahora bien, el hecho de que Claude 3 sea una actualización de lo anterior no significa que sea perfecto.

En un documento técnico, Anthropic admite que Claude 3 no es inmune a los problemas que afectan a otros modelos GenAI, a saber, prejuicios y alucinaciones (es decir, inventar cosas). A diferencia de algunos modelos GenAI, Claude 3 no puede buscar en la web; los modelos solo pueden responder preguntas utilizando datos anteriores a agosto de 2023. Y aunque Claude es multilingüe, no domina con tanta fluidez ciertos idiomas de “bajos recursos” como el inglés.

Pero las prometedoras actualizaciones frecuentes de Anthropic para Claude 3 en los próximos meses.

«No creemos que la inteligencia modelo esté cerca de sus límites y planeamos lanzar [enhancements] a la familia de modelos Claude 3 durante los próximos meses”, escribe la compañía en una publicación de blog.

Opus y Sonnet ya están disponibles en la web y a través de la consola de desarrollo y API de Anthropic, la plataforma Bedrock de Amazon y Vertex AI de Google. Haiku seguirá más adelante este año.

Aquí está el desglose de precios:

  • Opus: 15 dólares por millón de tokens de entrada, 75 dólares por millón de tokens de salida
  • Sonnet: 3 dólares por millón de tokens de entrada, 15 dólares por millón de tokens de salida
  • Haiku: 0,25 dólares por millón de tokens de entrada, 1,25 dólares por millón de tokens de salida

Así que ese es Claude 3. ¿Pero cuál es la vista de 30.000 pies?

Bueno, como hemos reportado Anteriormente, la ambición de Anthropic era crear un «algoritmo de próxima generación para el autoaprendizaje de la IA». Un algoritmo de este tipo podría usarse para crear asistentes virtuales que puedan responder correos electrónicos, realizar investigaciones y generar arte, libros y más, algunos de los cuales ya hemos probado con empresas como GPT-4 y otros modelos de lenguaje grandes.

Anthropic insinúa esto en la publicación de blog antes mencionada, diciendo que planea agregar funciones a Claude 3 que mejoren sus capacidades inmediatas, incluida la posibilidad de que Claude 3 interactúe con otros sistemas, codificación interactiva y «capacidades de agente más avanzadas». .”

Esto último recuerda las ambiciones reportadas de OpenAI de construir una forma de agente de software para automatizar tareas complejas, como transferir datos de un documento a una hoja de cálculo para su análisis o completar automáticamente informes de gastos e ingresarlos en un software de contabilidad. OpenAI ya ofrece una API que permite a los desarrolladores crear “experiencias similares a las de un agente” en sus aplicaciones, y Anthropic, al parecer, tiene la intención de ofrecer una funcionalidad comparable.

¿Podríamos ver a continuación un generador de imágenes de Anthropic? Me sorprendería, francamente. Los generadores de imágenes son objeto de mucha controversia en estos días, principalmente por razones relacionadas con los derechos de autor y los prejuicios. Recientemente, Google se vio obligado a desactivar su generador de imágenes después de inyectar diversidad en las imágenes con un ridículo desprecio por el contexto histórico, y varios proveedores de generadores de imágenes están en batallas legales con artistas que los acusan de sacar provecho de su trabajo entrenando a GenAI en él. sin proporcionar crédito o compensación.

Tengo curiosidad por ver la evolución de la técnica de Anthropic para entrenar GenAI, «IA constitucional», que según la compañía hace que el comportamiento de sus modelos sea más fácil de entender y más sencillo de ajustar según sea necesario. La IA constitucional busca proporcionar una manera de alinear la IA con las intenciones humanas, haciendo que los modelos respondan a preguntas y realicen tareas utilizando un conjunto simple de principios rectores. Por ejemplo, para Claude 3, Anthropic dijo que agregó un principio constitucional, informado por los comentarios de los clientes, que instruye a los modelos a ser comprensibles y accesibles para las personas con discapacidades.

Cualquiera que sea el final de Anthropic, será a largo plazo. Según una presentación filtrada en mayo del año pasado, la compañía pretende recaudar hasta 5.000 millones de dólares durante el próximo año, lo que podría ser la base necesaria para seguir siendo competitivo con OpenAI. (Después de todo, los modelos de capacitación no son baratos). Está en camino, con $2 mil millones y $4 mil millones en capital comprometido y promesas de Google y Amazon, respectivamente.



Source link-48