Por qué la mayoría de los puntos de referencia de IA nos dicen tan poco


El martes, la startup Anthropic lanzó una familia de modelos de IA generativa que, según afirma, logran el mejor rendimiento de su clase. Solo unos días después, su rival Inflection AI presentó un modelo que, según afirma, se acerca en calidad a algunos de los modelos más capaces que existen, incluido el GPT-4 de OpenAI.

Anthropic e Inflection no son de ninguna manera las primeras empresas de inteligencia artificial que sostienen que sus modelos igualan o superan a la competencia mediante alguna medida objetiva. Google argumentó lo mismo de sus modelos Gemini en su lanzamiento, y OpenAI lo dijo de GPT-4 y sus predecesores, GPT-3, GPT-2 y GPT-1. La lista continua.

¿Pero de qué métricas están hablando? Cuando un proveedor dice que un modelo logra un rendimiento o calidad de última generación, ¿qué significa eso exactamente? Quizás más concretamente: ¿un modelo que técnicamente “funciona” mejor que algún otro modelo en realidad sentir mejorado de manera tangible?

Sobre esa última pregunta, no es probable.

La razón (o más bien, el problema) radica en los puntos de referencia que las empresas de IA utilizan para cuantificar las fortalezas (y debilidades) de un modelo.

Medidas esotéricas

Los puntos de referencia más utilizados hoy en día para los modelos de IA (específicamente los modelos impulsados ​​por chatbot como ChatGPT de OpenAI y Claude de Anthropic) no logran capturar cómo la persona promedio interactúa con los modelos que se prueban. Por ejemplo, un punto de referencia citado por Anthropic en su reciente anuncio, GPQA (“Un punto de referencia de preguntas y respuestas a prueba de Google a nivel de posgrado”), contiene cientos de preguntas de biología, física y química a nivel de doctorado; sin embargo, la mayoría de la gente usa chatbots para tareas como responder correos electrónicos, escribir cartas de presentación y hablar sobre sus sentimientos.

Jesse Dodge, científico del Instituto Allen para la IA, una organización sin fines de lucro que investiga la IA, dice que la industria ha llegado a una “crisis de evaluación”.

«Los puntos de referencia suelen ser estáticos y se centran estrictamente en evaluar una sola capacidad, como la factibilidad de un modelo en un solo dominio, o su capacidad para resolver preguntas de opción múltiple de razonamiento matemático», dijo Dodge a TechCrunch en una entrevista. “Muchos puntos de referencia utilizados para la evaluación tienen más de tres años, cuando los sistemas de IA se usaban principalmente para investigación y no tenían muchos usuarios reales. Además, la gente utiliza la IA generativa de muchas maneras: son muy creativas”.

Las métricas equivocadas

No es que los puntos de referencia más utilizados sean totalmente inútiles. Sin duda, alguien está haciendo preguntas de matemáticas de nivel de doctorado a ChatGPT. Sin embargo, a medida que los modelos de IA generativa se posicionan cada vez más como sistemas de mercado masivo, “que lo hacen todo”, los viejos puntos de referencia se están volviendo menos aplicables.

David Widder, un investigador postdoctoral en Cornell que estudia IA y ética, señala que muchas de las habilidades que se evalúan con puntos de referencia comunes (desde resolver problemas matemáticos de nivel escolar hasta identificar si una oración contiene un anacronismo) nunca serán relevantes para la mayoría de los usuarios.

«Los sistemas de IA más antiguos a menudo se construyeron para resolver un problema particular en un contexto (por ejemplo, sistemas médicos expertos de IA), lo que hace más posible una comprensión profundamente contextual de lo que constituye un buen desempeño en ese contexto particular», dijo Widder a TechCrunch. «A medida que los sistemas se consideran cada vez más como de ‘propósito general’, esto es menos posible, por lo que vemos cada vez más un enfoque en probar modelos en una variedad de puntos de referencia en diferentes campos».

Errores y otras fallas.

Dejando a un lado la desalineación con los casos de uso, existen dudas sobre si algunos puntos de referencia miden adecuadamente lo que pretenden medir.

Un análisis de HellaSwag, una prueba diseñada para evaluar el razonamiento de sentido común en modelos, encontró que más de un tercio de las preguntas de la prueba contenían errores tipográficos y escritos «sin sentido». En otra parte, MMLU (abreviatura de “Massive Multitask Language Understanding”), un punto de referencia que han señalado proveedores como Google, OpenAI y Anthropic como evidencia de que sus modelos pueden razonar a través de problemas lógicos, plantea preguntas que pueden resolverse mediante la memorización.

Preguntas de prueba del benchmark HellaSwag.

“[Benchmarks like MMLU are] más sobre memorizar y asociar dos palabras clave”, dijo Widder. «Puedo encontrar [a relevant] artículo con bastante rapidez y responder la pregunta, pero eso no significa que entienda el mecanismo causal, o que pueda utilizar la comprensión de este mecanismo causal para razonar y resolver problemas nuevos y complejos en contextos imprevistos. Un modelo tampoco puede hacerlo”.

Arreglando lo que está roto

Entonces los puntos de referencia están rotos. ¿Pero se pueden arreglar?

Dodge cree que sí, con una mayor participación humana.

«El camino correcto a seguir aquí es una combinación de puntos de referencia de evaluación con evaluación humana», dijo, «generando un modelo con una consulta de usuario real y luego contratando a una persona para que califique qué tan buena es la respuesta».

En cuanto a Widder, es menos optimista en cuanto a que los puntos de referencia actuales (incluso con correcciones para los errores más obvios, como los errores tipográficos) puedan mejorarse hasta el punto de que sean informativos para la gran mayoría de los usuarios del modelo de IA generativa. En cambio, piensa que las pruebas de modelos deberían centrarse en los impactos posteriores de estos modelos y en si los impactos, buenos o malos, son percibidos como deseables por los afectados.

«Preguntaría para qué objetivos contextuales específicos queremos que se puedan utilizar los modelos de IA y evaluaría si tendrían o tienen éxito en esos contextos», dijo. «Y, con suerte, también ese proceso implica evaluar si deberíamos utilizar la IA en tales contextos».



Source link-48