{"id":1042422,"date":"2024-03-08T18:15:41","date_gmt":"2024-03-08T18:15:41","guid":{"rendered":"https:\/\/magazineoffice.com\/por-que-la-mayoria-de-los-puntos-de-referencia-de-ia-nos-dicen-tan-poco\/"},"modified":"2024-03-08T18:15:44","modified_gmt":"2024-03-08T18:15:44","slug":"por-que-la-mayoria-de-los-puntos-de-referencia-de-ia-nos-dicen-tan-poco","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/por-que-la-mayoria-de-los-puntos-de-referencia-de-ia-nos-dicen-tan-poco\/","title":{"rendered":"Por qu\u00e9 la mayor\u00eda de los puntos de referencia de IA nos dicen tan poco"},"content":{"rendered":"


\n<\/p>\n

\n

El martes, la startup Anthropic lanz\u00f3 una familia de modelos de IA generativa que, seg\u00fan afirma, logran el mejor rendimiento de su clase. Solo unos d\u00edas despu\u00e9s, su rival Inflection AI present\u00f3 un modelo que, seg\u00fan afirma, se acerca en calidad a algunos de los modelos m\u00e1s capaces que existen, incluido el GPT-4 de OpenAI.<\/p>\n

Anthropic e Inflection no son de ninguna manera las primeras empresas de inteligencia artificial que sostienen que sus modelos igualan o superan a la competencia mediante alguna medida objetiva. Google argument\u00f3 lo mismo de sus modelos Gemini en su lanzamiento, y OpenAI lo dijo de GPT-4 y sus predecesores, GPT-3, GPT-2 y GPT-1. La lista continua.<\/p>\n

\u00bfPero de qu\u00e9 m\u00e9tricas est\u00e1n hablando? Cuando un proveedor dice que un modelo logra un rendimiento o calidad de \u00faltima generaci\u00f3n, \u00bfqu\u00e9 significa eso exactamente? Quiz\u00e1s m\u00e1s concretamente: \u00bfun modelo que t\u00e9cnicamente \u201cfunciona\u201d mejor que alg\u00fan otro modelo en realidad sentir<\/em> mejorado de manera tangible?<\/p>\n

Sobre esa \u00faltima pregunta, no es probable.<\/p>\n

La raz\u00f3n (o m\u00e1s bien, el problema) radica en los puntos de referencia que las empresas de IA utilizan para cuantificar las fortalezas (y debilidades) de un modelo.<\/p>\n

Medidas esot\u00e9ricas<\/h2>\n

Los puntos de referencia m\u00e1s utilizados hoy en d\u00eda para los modelos de IA (espec\u00edficamente los modelos impulsados \u200b\u200bpor chatbot como ChatGPT de OpenAI y Claude de Anthropic) no logran capturar c\u00f3mo la persona promedio interact\u00faa con los modelos que se prueban. Por ejemplo, un punto de referencia citado por Anthropic en su reciente anuncio, GPQA (\u201cUn punto de referencia de preguntas y respuestas a prueba de Google a nivel de posgrado\u201d), contiene cientos de preguntas de biolog\u00eda, f\u00edsica y qu\u00edmica a nivel de doctorado; sin embargo, la mayor\u00eda de la gente usa chatbots para tareas como responder correos electr\u00f3nicos, escribir cartas de presentaci\u00f3n y hablar sobre sus sentimientos.<\/p>\n

Jesse Dodge, cient\u00edfico del Instituto Allen para la IA, una organizaci\u00f3n sin fines de lucro que investiga la IA, dice que la industria ha llegado a una \u201ccrisis de evaluaci\u00f3n\u201d.<\/p>\n

\u00abLos puntos de referencia suelen ser est\u00e1ticos y se centran estrictamente en evaluar una sola capacidad, como la factibilidad de un modelo en un solo dominio, o su capacidad para resolver preguntas de opci\u00f3n m\u00faltiple de razonamiento matem\u00e1tico\u00bb, dijo Dodge a TechCrunch en una entrevista. \u201cMuchos puntos de referencia utilizados para la evaluaci\u00f3n tienen m\u00e1s de tres a\u00f1os, cuando los sistemas de IA se usaban principalmente para investigaci\u00f3n y no ten\u00edan muchos usuarios reales. Adem\u00e1s, la gente utiliza la IA generativa de muchas maneras: son muy creativas\u201d.<\/p>\n

Las m\u00e9tricas equivocadas<\/h3>\n

No es que los puntos de referencia m\u00e1s utilizados sean totalmente in\u00fatiles. Sin duda, alguien est\u00e1 haciendo preguntas de matem\u00e1ticas de nivel de doctorado a ChatGPT. Sin embargo, a medida que los modelos de IA generativa se posicionan cada vez m\u00e1s como sistemas de mercado masivo, \u201cque lo hacen todo\u201d, los viejos puntos de referencia se est\u00e1n volviendo menos aplicables.<\/p>\n

David Widder, un investigador postdoctoral en Cornell que estudia IA y \u00e9tica, se\u00f1ala que muchas de las habilidades que se eval\u00faan con puntos de referencia comunes (desde resolver problemas matem\u00e1ticos de nivel escolar hasta identificar si una oraci\u00f3n contiene un anacronismo) nunca ser\u00e1n relevantes para la mayor\u00eda de los usuarios.<\/p>\n

\u00abLos sistemas de IA m\u00e1s antiguos a menudo se construyeron para resolver un problema particular en un contexto (por ejemplo, sistemas m\u00e9dicos expertos de IA), lo que hace m\u00e1s posible una comprensi\u00f3n profundamente contextual de lo que constituye un buen desempe\u00f1o en ese contexto particular\u00bb, dijo Widder a TechCrunch. \u00abA medida que los sistemas se consideran cada vez m\u00e1s como de ‘prop\u00f3sito general’, esto es menos posible, por lo que vemos cada vez m\u00e1s un enfoque en probar modelos en una variedad de puntos de referencia en diferentes campos\u00bb.<\/p>\n

Errores y otras fallas.<\/h3>\n

Dejando a un lado la desalineaci\u00f3n con los casos de uso, existen dudas sobre si algunos puntos de referencia miden adecuadamente lo que pretenden medir.<\/p>\n

Un an\u00e1lisis de HellaSwag, una prueba dise\u00f1ada para evaluar el razonamiento de sentido com\u00fan en modelos, encontr\u00f3 que m\u00e1s de un tercio de las preguntas de la prueba conten\u00edan errores tipogr\u00e1ficos y escritos \u00absin sentido\u00bb. En otra parte, MMLU (abreviatura de \u201cMassive Multitask Language Understanding\u201d), un punto de referencia que han se\u00f1alado proveedores como Google, OpenAI y Anthropic como evidencia de que sus modelos pueden razonar a trav\u00e9s de problemas l\u00f3gicos, plantea preguntas que pueden resolverse mediante la memorizaci\u00f3n.<\/span><\/p>\n

\n

Preguntas de prueba del benchmark HellaSwag.<\/p>\n<\/div>\n

\u201c[Benchmarks like MMLU are] m\u00e1s sobre memorizar y asociar dos palabras clave\u201d, dijo Widder. \u00abPuedo encontrar [a relevant] art\u00edculo con bastante rapidez y responder la pregunta, pero eso no significa que entienda el mecanismo causal, o que pueda utilizar la comprensi\u00f3n de este mecanismo causal para razonar y resolver problemas nuevos y complejos en contextos imprevistos. Un modelo tampoco puede hacerlo\u201d.<\/p>\n

Arreglando lo que est\u00e1 roto<\/h2>\n

Entonces los puntos de referencia est\u00e1n rotos. \u00bfPero se pueden arreglar?<\/p>\n

Dodge cree que s\u00ed, con una mayor participaci\u00f3n humana.<\/p>\n

\u00abEl camino correcto a seguir aqu\u00ed es una combinaci\u00f3n de puntos de referencia de evaluaci\u00f3n con evaluaci\u00f3n humana\u00bb, dijo, \u00abgenerando un modelo con una consulta de usuario real y luego contratando a una persona para que califique qu\u00e9 tan buena es la respuesta\u00bb.<\/p>\n

En cuanto a Widder, es menos optimista en cuanto a que los puntos de referencia actuales (incluso con correcciones para los errores m\u00e1s obvios, como los errores tipogr\u00e1ficos) puedan mejorarse hasta el punto de que sean informativos para la gran mayor\u00eda de los usuarios del modelo de IA generativa. En cambio, piensa que las pruebas de modelos deber\u00edan centrarse en los impactos posteriores de estos modelos y en si los impactos, buenos o malos, son percibidos como deseables por los afectados.<\/p>\n

\u00abPreguntar\u00eda para qu\u00e9 objetivos contextuales espec\u00edficos queremos que se puedan utilizar los modelos de IA y evaluar\u00eda si tendr\u00edan o tienen \u00e9xito en esos contextos\u00bb, dijo. \u00abY, con suerte, tambi\u00e9n ese proceso implica evaluar si deber\u00edamos utilizar la IA en tales contextos\u00bb.<\/p>\n<\/p><\/div>\n


\n
Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

El martes, la startup Anthropic lanz\u00f3 una familia de modelos de IA generativa que, seg\u00fan afirma, logran el mejor rendimiento de su clase. Solo unos d\u00edas despu\u00e9s, su rival Inflection…<\/p>\n","protected":false},"author":1,"featured_media":1042423,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[376,8,2457,1645,192,110,7500,111,1943,1435],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1042422"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1042422"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1042422\/revisions"}],"predecessor-version":[{"id":1042424,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1042422\/revisions\/1042424"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1042423"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1042422"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1042422"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1042422"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}