{"id":726151,"date":"2023-07-11T16:41:34","date_gmt":"2023-07-11T16:41:34","guid":{"rendered":"https:\/\/magazineoffice.com\/anthropic-lanza-claude-2-su-chatbot-de-ia-de-segunda-generacion\/"},"modified":"2023-07-11T16:41:38","modified_gmt":"2023-07-11T16:41:38","slug":"anthropic-lanza-claude-2-su-chatbot-de-ia-de-segunda-generacion","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/anthropic-lanza-claude-2-su-chatbot-de-ia-de-segunda-generacion\/","title":{"rendered":"Anthropic lanza Claude 2, su chatbot de IA de segunda generaci\u00f3n"},"content":{"rendered":"


\n<\/p>\n

\n

Anthropic, la startup de IA cofundada por exejecutivos de OpenAI, anunci\u00f3 hoy el lanzamiento de un nuevo modelo de IA generador de texto, Claude 2.<\/p>\n

El sucesor del primer modelo comercial de Anthropic, Claude 2, est\u00e1 disponible en versi\u00f3n beta a partir de hoy en los EE. UU. y el Reino Unido, tanto en la web como a trav\u00e9s de una API de pago (con acceso limitado). El precio de la API no ha cambiado (~0,0465 USD para generar 1000 palabras) y varias empresas ya han comenzado a probar Claude 2, incluida la plataforma de IA generativa Jasper y Sourcegraph.<\/p>\n

\u00abCreemos que es importante implementar estos sistemas en el mercado y comprender c\u00f3mo la gente realmente los usa\u00bb, dijo a TechCrunch Sandy Banerjee, jefe de comercializaci\u00f3n de Anthropic, en una entrevista telef\u00f3nica. \u201cSupervisamos c\u00f3mo se usan, c\u00f3mo podemos mejorar el rendimiento, as\u00ed como la capacidad, todas esas cosas\u201d.<\/p>\n

Al igual que el antiguo Claude (Claude 1.3), Claude 2 puede buscar documentos, resumir, escribir y codificar y responder preguntas sobre temas particulares. Pero Anthropic afirma que Claude 2, que TechCrunch no tuvo la oportunidad de probar antes de su lanzamiento, es superior en varias \u00e1reas.<\/p>\n

Por ejemplo, Claude 2 obtiene una puntuaci\u00f3n ligeramente m\u00e1s alta en una secci\u00f3n de opci\u00f3n m\u00faltiple del examen de la barra (76,5 % frente al 73 % de Claude 1,3). Es capaz de aprobar la parte de opci\u00f3n m\u00faltiple del Examen de licencia m\u00e9dica de EE. UU. Y es un programador m\u00e1s fuerte, logrando un 71,2 % en la prueba de codificaci\u00f3n Codex Human Level Python en comparaci\u00f3n con el 56 % de Claude 1.3.<\/p>\n

Claude 2 tambi\u00e9n puede responder correctamente a m\u00e1s problemas matem\u00e1ticos, con una puntuaci\u00f3n del 88 % en la colecci\u00f3n GSM8K de problemas de nivel escolar, 2,8 puntos porcentuales m\u00e1s que Claude 1.3.<\/p>\n

\u201cHemos estado trabajando para mejorar el razonamiento y el tipo de autoconciencia del modelo, por lo que es m\u00e1s consciente de, ‘as\u00ed es como me gusta seguir instrucciones’, ‘puedo procesar instrucciones de varios pasos’ y tambi\u00e9n m\u00e1s. consciente de sus limitaciones\u201d, dijo Banerjee.<\/p>\n

Claude 2 recibi\u00f3 capacitaci\u00f3n sobre datos m\u00e1s recientes (una combinaci\u00f3n de sitios web, conjuntos de datos con licencia de terceros y datos de usuarios proporcionados voluntariamente desde principios de 2023, aproximadamente el 10 % de los cuales no est\u00e1 en ingl\u00e9s) que Claude 1.3, que probablemente contribuy\u00f3 a las mejoras. . (A diferencia de GPT-4 de OpenAI, Claude 2 no puede buscar en la web). Pero los modelos no son tan diferentes desde el punto de vista arquitect\u00f3nico: Banerjee caracteriz\u00f3 a Claude 2 como una versi\u00f3n modificada de Claude 1.3, el producto de dos o m\u00e1s a\u00f1os de trabajo, m\u00e1s bien que una nueva creaci\u00f3n.<\/p>\n

\u201cClaude 2 no ha cambiado mucho desde el \u00faltimo modelo, es un producto de nuestro enfoque iterativo continuo para el desarrollo del modelo\u201d, dijo. \u00abEstamos constantemente entrenando el modelo… y monitoreando y evaluando su desempe\u00f1o\u00bb.<\/p>\n

A saber, Claude 2 presenta una ventana de contexto que es del mismo tama\u00f1o que la de Claude 1.3: 100,000 tokens. La ventana de contexto se refiere al texto que el modelo considera antes de generar texto adicional, mientras que los tokens representan texto sin formato (p. ej., la palabra \u00abfant\u00e1stico\u00bb se dividir\u00eda en los tokens \u00abfan\u00bb, \u00abtas\u00bb y \u00abtic\u00bb).<\/p>\n

De hecho, 100\u00a0000 tokens sigue siendo bastante grande, el m\u00e1s grande de todos los modelos disponibles en el mercado, y le da a Claude 2 una serie de ventajas clave. En t\u00e9rminos generales, los modelos con ventanas de contexto peque\u00f1as tienden a \u201colvidar\u201d el contenido de incluso conversaciones muy recientes. Adem\u00e1s, las grandes ventanas de contexto permiten que los modelos generen, e ingieran, mucho m\u00e1s texto. Claude 2 puede analizar aproximadamente 75\u00a0000 palabras, aproximadamente la longitud de \u00abEl gran Gatsby\u00bb, y generar 4000 tokens, o alrededor de 3125 palabras.<\/p>\n

En teor\u00eda, Claude 2 puede admitir una ventana de contexto a\u00fan m\u00e1s grande (200\u00a0000 tokens), pero Anthropic no planea admitir esto en el lanzamiento.<\/p>\n

El modelo es mejor en tareas espec\u00edficas de procesamiento de texto en otros lugares, como producir resultados con el formato correcto en formatos JSON, XML, YAML y Markdown.<\/p>\n

Pero, \u00bfqu\u00e9 pasa con las \u00e1reas donde Claude 2 se queda corto? Despu\u00e9s de todo, ning\u00fan modelo es perfecto. Vea el Bing Chat impulsado por IA de Microsoft, que en su lanzamiento era un mentiroso emocionalmente manipulador.<\/p>\n

De hecho, incluso los mejores modelos de hoy en d\u00eda sufren de alucinaciones, un fen\u00f3meno en el que responder\u00e1n a las preguntas de manera irrelevante, sin sentido o objetivamente incorrecta. Tambi\u00e9n son propensos a generar texto t\u00f3xico, un reflejo de los sesgos en los datos utilizados para entrenarlos, principalmente p\u00e1ginas web y publicaciones en redes sociales.<\/p>\n

Los usuarios pudieron incitar a una versi\u00f3n anterior de Claude a inventar un nombre para un qu\u00edmico inexistente y proporcionar instrucciones dudosas para producir uranio apto para armas. Ellos tambi\u00e9n sorte\u00f3 las caracter\u00edsticas de seguridad integradas de Claude a trav\u00e9s de <\/span>ingenier\u00eda r\u00e1pida inteligente, con oun usuario que muestra que podr\u00eda incitar a Claude a <\/span>describir c\u00f3mo hacer metanfetamina en casa<\/a>.<\/span><\/p>\n

Anthropic dice que Claude 2 es \u00ab2 veces mejor\u00bb en dar respuestas \u00abinofensivas\u00bb en comparaci\u00f3n con Claude 1.3 en una evaluaci\u00f3n interna. Pero no est\u00e1 claro qu\u00e9 significa esa m\u00e9trica. \u00bfEs Claude 2 dos veces menos probable que responda con sexismo o racismo? \u00bfDos veces menos probable que apruebe la violencia o las autolesiones? \u00bfDos veces menos probabilidades de generar informaci\u00f3n err\u00f3nea o desinformaci\u00f3n? Anthropic no dir\u00eda, al menos no directamente.<\/p>\n

Un documento t\u00e9cnico de Anthropic publicado esta ma\u00f1ana da algunas pistas.<\/p>\n

En una prueba para medir la nocividad, Anthropic aliment\u00f3 328 indicaciones diferentes al modelo, incluidas las indicaciones de \u00abjailbreak\u00bb publicadas en l\u00ednea. En al menos un caso, un jailbreak hizo que Claude 2 generara una respuesta da\u00f1ina, menos que Claude 1.3, pero aun as\u00ed significativa si se considera a cu\u00e1ntos millones de avisos podr\u00eda responder el modelo en producci\u00f3n.<\/p>\n

El documento t\u00e9cnico tambi\u00e9n muestra que es menos probable que Claude 2 d\u00e9 respuestas sesgadas que Claude 1.3 en al menos una m\u00e9trica. Pero los coautores de Anthropic admiten que parte de la mejora se debe a que Claude 2 se niega a responder preguntas pol\u00e9micas redactadas de manera que parecen potencialmente problem\u00e1ticas o discriminatorias.<\/p>\n

De manera reveladora, Anthropic desaconseja el uso de Claude 2 para aplicaciones \u201cdonde est\u00e9n involucrados el bienestar y la salud f\u00edsica o mental\u201d o en \u201csituaciones de alto riesgo en las que una respuesta incorrecta causar\u00eda da\u00f1o\u201d. T\u00f3malo como quieras.<\/p>\n

\u201c[Our] La evaluaci\u00f3n interna del equipo rojo punt\u00faa nuestros modelos en un conjunto representativo muy grande de avisos adversarios da\u00f1inos\u201d, dijo Banerjee cuando se le presion\u00f3 para obtener detalles, \u201cy hacemos esto con una combinaci\u00f3n de pruebas automatizadas y verificaciones manuales\u201d.<\/p>\n

Anthropic tampoco se mostr\u00f3 comunicativo sobre qu\u00e9 indicaciones, pruebas y comprobaciones utiliza con fines de evaluaci\u00f3n comparativa. Y la compa\u00f1\u00eda fue relativamente vaga sobre el tema de la regurgitaci\u00f3n de datos, donde los modelos ocasionalmente pegan datos textuales de sus datos de entrenamiento, incluido texto de fuentes con derechos de autor en algunos casos.<\/p>\n

La regurgitaci\u00f3n del modelo de IA es el foco de varios casos legales pendientes, incluido uno presentado recientemente por la comediante y autora Sarah Silverman contra OpenAI y Meta. Es comprensible que algunas marcas desconf\u00eden de la responsabilidad.<\/p>\n

\u201cLa regurgitaci\u00f3n de datos de entrenamiento es un \u00e1rea activa de investigaci\u00f3n en todos los modelos b\u00e1sicos, y muchos desarrolladores est\u00e1n explorando formas de abordarla mientras mantienen la capacidad de un sistema de IA para brindar respuestas \u00fatiles y relevantes\u201d, dijo Silverman. \u201cExisten algunas t\u00e9cnicas generalmente aceptadas en el campo, incluida la deduplicaci\u00f3n de datos de entrenamiento, que se ha demostrado que reduce el riesgo de reproducci\u00f3n. Adem\u00e1s del lado de los datos, Anthropic emplea una variedad de herramientas t\u00e9cnicas a lo largo del desarrollo del modelo, desde\u2026 detecci\u00f3n de capas de productos hasta controles\u201d.<\/p>\n

Una t\u00e9cnica general que la compa\u00f1\u00eda sigue pregonando es la \u00abIA constitucional\u00bb, que tiene como objetivo imbuir modelos como Claude 2 con ciertos \u00abvalores\u00bb definidos por una \u00abconstituci\u00f3n\u00bb.<\/p>\n

La IA constitucional, desarrollada por Anthropic, proporciona a un modelo un conjunto de principios para emitir juicios sobre el texto que genera. En un alto nivel, estos principios gu\u00edan al modelo para que adopte el comportamiento que describen, por ejemplo, \u00abno t\u00f3xico\u00bb y \u00ab\u00fatil\u00bb.<\/p>\n

Anthropic afirma que, gracias a la IA constitucional, el comportamiento de Claude 2 es m\u00e1s f\u00e1cil de entender y de ajustar seg\u00fan sea necesario en comparaci\u00f3n con otros modelos. Pero la compa\u00f1\u00eda tambi\u00e9n reconoce que la IA constitucional no es el final de todos los enfoques de capacitaci\u00f3n. Anthropic desarroll\u00f3 muchos de los principios que gu\u00edan a Claude 2 a trav\u00e9s de un proceso de \u00abensayo y error\u00bb, dice, y ha tenido que hacer ajustes repetidos para evitar que sus modelos sean demasiado \u00abcr\u00edticos\u00bb o \u00abmolestos\u00bb.<\/p>\n

En el documento t\u00e9cnico, Anthropic admite que, a medida que Claude se vuelve m\u00e1s sofisticado, se vuelve cada vez m\u00e1s dif\u00edcil predecir el comportamiento del modelo en todos los escenarios.<\/p>\n

\u201cCon el tiempo, los datos y las influencias que determinan la ‘personalidad’ y las capacidades de Claude se han vuelto bastante complejos\u201d, dice el documento t\u00e9cnico. \u00abSe ha convertido en un nuevo problema de investigaci\u00f3n para nosotros equilibrar estos factores, rastrearlos de una manera simple y automatizable y, en general, reducir la complejidad del entrenamiento de Claude\u00bb.<\/p>\n

Eventualmente, Anthropic planea explorar formas de hacer que la constituci\u00f3n sea personalizable, hasta cierto punto. Pero a\u00fan no ha llegado a esa etapa de la hoja de ruta de desarrollo de productos.<\/p>\n

\u201cTodav\u00eda estamos trabajando en nuestro enfoque\u201d, dijo Banerjee. \u00abNecesitamos asegurarnos, mientras hacemos esto, de que el modelo termine siendo tan inofensivo y \u00fatil como la iteraci\u00f3n anterior\u00bb.<\/p>\n

Como informamos anteriormente, la ambici\u00f3n de Anthropic es crear un \u00abalgoritmo de pr\u00f3xima generaci\u00f3n para el autoaprendizaje de IA\u00bb, como lo describe en una presentaci\u00f3n a los inversores. Dicho algoritmo podr\u00eda usarse para crear asistentes virtuales que puedan responder correos electr\u00f3nicos, realizar investigaciones y generar arte, libros y m\u00e1s, algunos de los cuales ya hemos probado con GPT-4 y otros modelos de lenguaje grandes.<\/p>\n

Claude 2 es un paso hacia esto, pero no del todo.<\/p>\n

Anthropic compite con OpenAI, as\u00ed como con nuevas empresas como Cohere y AI21 Labs, todas las cuales est\u00e1n desarrollando y produciendo sus propios sistemas de IA de generaci\u00f3n de texto y, en algunos casos, de generaci\u00f3n de im\u00e1genes. Google se encuentra entre los inversionistas de la compa\u00f1\u00eda, habiendo prometido $300 millones en Anthropic por una participaci\u00f3n del 10% en la startup. Los otros son Spark Capital, Salesforce Ventures, Zoom Ventures, Sound Ventures, Menlo Ventures the Center for Emerging Risk Research y una mezcla de VC y \u00e1ngeles no revelados.<\/p>\n

Hasta la fecha, Anthropic, que se lanz\u00f3 en 2021, dirigido por el ex vicepresidente de investigaci\u00f3n de OpenAI, Dario Amodei, ha recaudado $ 1.450 millones con una valoraci\u00f3n de miles de millones de un solo d\u00edgito. Si bien eso puede parecer mucho, est\u00e1 muy por debajo de lo que la compa\u00f1\u00eda estima que necesitar\u00e1 (5 mil millones de d\u00f3lares en los pr\u00f3ximos dos a\u00f1os) para crear su chatbot previsto.<\/span><\/p>\n

La mayor parte del efectivo se destinar\u00e1 a la computaci\u00f3n. Anthropic implica en la plataforma que se basa en cl\u00fasteres con \u00abdecenas de miles de GPU\u00bb para entrenar sus modelos, y que requerir\u00e1 aproximadamente mil millones de d\u00f3lares para gastar en infraestructura solo en los pr\u00f3ximos 18 meses.<\/p>\n

El lanzamiento de los primeros modelos en versi\u00f3n beta resuelve el doble prop\u00f3sito de ayudar a un mayor desarrollo mientras genera ingreso incremental. Adem\u00e1s de a trav\u00e9s de su propia API, Anthropic planea hacer que Claude 2 est\u00e9 disponible a trav\u00e9s de Bedrock, la plataforma de alojamiento de IA generativa de Amazon, en los pr\u00f3ximos meses.<\/span><\/p>\n

Con el objetivo de abordar el mercado de la IA generativa desde todos los \u00e1ngulos, Anthropic contin\u00faa ofreciendo un derivado m\u00e1s r\u00e1pido y menos costoso de Claude llamado Claude Instant. Sin embargo, el enfoque parece estar en el modelo insignia de Claude: Claude Instant no ha recibido una actualizaci\u00f3n importante desde marzo.<\/p>\n

Anthropic afirma tener \u00abmiles\u00bb de clientes y socios actualmente, incluido Quora, que brinda acceso a Claude a trav\u00e9s de su aplicaci\u00f3n de IA generativa basada en suscripci\u00f3n Poe.<\/span> Claude impulsa la herramienta DuckAssist lanzada recientemente por DuckDuckGo, que responde directamente a consultas de b\u00fasqueda sencillas para los usuarios, en combinaci\u00f3n con ChatGPT de OpenAI. Y en Notion, Claude es parte del backend t\u00e9cnico de Notion AI, un asistente de escritura de IA integrado con el espacio de trabajo de Notion.<\/p>\n<\/p><\/div>\n