La velocidad del desarrollo de la IA está superando la evaluación de riesgos


Agrandar / Google, Anthropic, Cohere y Mistral han lanzado modelos de IA durante los últimos dos meses en su intento de desbancar a OpenAI de la cima de las clasificaciones públicas.

PIE

El creciente poder de los últimos sistemas de inteligencia artificial está llevando los métodos de evaluación tradicionales al límite, planteando un desafío para las empresas y los organismos públicos sobre cuál es la mejor manera de trabajar con la tecnología en rápida evolución.

Las fallas en los criterios de evaluación comúnmente utilizados para medir el rendimiento, la precisión y la seguridad están quedando al descubierto a medida que salen al mercado más modelos, según personas que construyen, prueban e invierten en herramientas de inteligencia artificial. Las herramientas tradicionales son fáciles de manipular y demasiado limitadas para la complejidad de los últimos modelos, dijeron.

La acelerada carrera tecnológica provocada por el lanzamiento en 2022 del chatbot ChatGPT de OpenAI y alimentada por decenas de miles de millones de dólares de capitalistas de riesgo y grandes empresas tecnológicas, como Microsoft, Google y Amazon, ha eliminado muchos criterios antiguos para evaluar el progreso de la IA.

“Un punto de referencia público tiene una vida útil”, dijo Aidan Gómez, fundador y director ejecutivo de la empresa emergente de inteligencia artificial Cohere. “Es útil hasta que la gente haya optimizado [their models] o lo jugó. Eso solía llevar un par de años; ahora son un par de meses”.

Google, Anthropic, Cohere y Mistral han lanzado modelos de IA en los últimos dos meses mientras buscan desbancar a OpenAI, respaldado por Microsoft, de la cima de las clasificaciones públicas de grandes modelos de lenguaje (LLM), que sustentan sistemas como ChatGPT.

Rutinariamente surgen nuevos sistemas de inteligencia artificial que pueden “superar completamente” los puntos de referencia existentes, dijo Gómez. «A medida que los modelos mejoran, las capacidades hacen que estas evaluaciones queden obsoletas», afirmó.

El problema de cómo evaluar los LLM ha pasado del mundo académico a la sala de juntas, a medida que la IA generativa se ha convertido en la principal prioridad de inversión del 70 por ciento de los directores ejecutivos, según una encuesta de KPMG a más de 1.300 directores ejecutivos globales.

«La gente no utilizará tecnología en la que no confía», dijo Shelley McKinley, directora jurídica de GitHub, un repositorio de código propiedad de Microsoft. «Corresponde a las empresas ofrecer productos confiables».

Los gobiernos también están luchando por saber cómo implementar y gestionar los riesgos de los últimos modelos de IA. La semana pasada, Estados Unidos y el Reino Unido firmaron un acuerdo bilateral histórico sobre seguridad de la IA, basándose en los nuevos institutos de IA que ambos países crearon el año pasado para «minimizar la sorpresa… derivada de avances rápidos e inesperados en la IA».

El año pasado, el presidente de Estados Unidos, Joe Biden, emitió una orden ejecutiva en la que pedía a los organismos gubernamentales, incluido el Instituto Nacional de Estándares y Tecnología, que produjeran puntos de referencia para evaluar los riesgos de las herramientas de inteligencia artificial.

Ya sea evaluando la seguridad, el rendimiento o la eficiencia, los grupos encargados de probar los sistemas de IA se apresuran a mantenerse al día con los últimos avances.

“La decisión de alto nivel que muchas empresas están tomando es: ¿deberíamos utilizar un LLM y cuál deberíamos utilizar?” dijo Rishi Bommasani, quien dirige un equipo en el Centro de Investigación sobre Modelos de Cimientos de Stanford.

El equipo de Bommasani ha desarrollado la Evaluación Holística de Modelos del Lenguaje, que pone a prueba el razonamiento, la memorización y la susceptibilidad a la desinformación, entre otros criterios.

Otros sistemas públicos incluyen el punto de referencia Massive Multitask Language Understanding, un conjunto de datos creado en 2020 por estudiantes de Berkeley para probar modelos sobre preguntas de 57 áreas temáticas. Otro es HumanEval, que juzga la capacidad de codificación en 164 problemas de programación.

Sin embargo, las evaluaciones tienen dificultades para mantenerse al día con la sofisticación de los modelos de IA actuales, que pueden ejecutar una serie de tareas conectadas a lo largo de un largo horizonte. Tareas tan complejas son más difíciles de evaluar en entornos controlados.

«Lo primero que hay que reconocer es que es muy difícil evaluar adecuadamente los modelos de la misma manera que es muy difícil evaluar adecuadamente a los humanos», dijo Mike Volpi, socio de la firma de capital de riesgo Index Ventures. “Si nos fijamos en algo como ‘¿puedes saltar alto o correr rápido?’ es fácil. ¿Pero la inteligencia humana? Es una tarea casi imposible”.

Otra preocupación creciente sobre las pruebas públicas es que los datos de entrenamiento de los modelos pueden incluir las preguntas precisas utilizadas en las evaluaciones.

“Puede que eso no sea un engaño deliberado; podría ser más inocuo”, dijo Bommasani de Stanford. «Pero todavía estamos aprendiendo cómo limitar este problema de contaminación entre aquello en lo que se entrenan los modelos y aquello en lo que se prueban».

Los puntos de referencia son «muy monolíticos», añadió. “Estamos evaluando qué tan poderosos son los LLM, pero su evaluación como empresa es más que eso. Necesitas tener en cuenta el costo. [and] si quieres código abierto [where code is publicly available] o de código cerrado”.

Hugging Face, una startup de 4.500 millones de dólares que proporciona herramientas para desarrollar IA y es una plataforma influyente para modelos de código abierto, alberga una tabla de clasificación llamada LMSys, que clasifica a los modelos según su capacidad para completar pruebas personalizadas establecidas por usuarios individuales, en lugar de un conjunto fijo. de preguntas. Como resultado, captura más directamente las preferencias reales de los usuarios.

Esa tabla de clasificación es útil para los usuarios individuales, pero de uso más limitado para las empresas, que tendrán requisitos específicos para los modelos de IA, dijo Gómez de Cohere.

En cambio, recomienda que las empresas creen «un conjunto de pruebas internas, que sólo necesita cientos de ejemplos, no miles».

“Siempre decimos que la evaluación humana es la mejor”, afirmó. «Es la forma más representativa y de señal más alta de juzgar el rendimiento».

La elección de modelos por parte de las empresas individuales es tanto un arte como una ciencia, dijo Volpi de Index Ventures.

«Estas métricas son como cuando compras un coche y tiene tanta potencia y tanto par y va de 0 a 100 kilómetros por hora», dijo. «La única manera de decidir realmente comprarlo es llevándolo a dar una vuelta».

© 2024 The Financial Times Ltd. Todos los derechos reservados. No debe ser redistribuido, copiado ni modificado de ninguna manera.



Source link-49