\n<\/aside>\n<\/p>\n
El creciente poder de los \u00faltimos sistemas de inteligencia artificial est\u00e1 llevando los m\u00e9todos de evaluaci\u00f3n tradicionales al l\u00edmite, planteando un desaf\u00edo para las empresas y los organismos p\u00fablicos sobre cu\u00e1l es la mejor manera de trabajar con la tecnolog\u00eda en r\u00e1pida evoluci\u00f3n.<\/p>\n
Las fallas en los criterios de evaluaci\u00f3n com\u00fanmente utilizados para medir el rendimiento, la precisi\u00f3n y la seguridad est\u00e1n quedando al descubierto a medida que salen al mercado m\u00e1s modelos, seg\u00fan personas que construyen, prueban e invierten en herramientas de inteligencia artificial. Las herramientas tradicionales son f\u00e1ciles de manipular y demasiado limitadas para la complejidad de los \u00faltimos modelos, dijeron.<\/p>\n
La acelerada carrera tecnol\u00f3gica provocada por el lanzamiento en 2022 del chatbot ChatGPT de OpenAI y alimentada por decenas de miles de millones de d\u00f3lares de capitalistas de riesgo y grandes empresas tecnol\u00f3gicas, como Microsoft, Google y Amazon, ha eliminado muchos criterios antiguos para evaluar el progreso de la IA.<\/p>\n
\u201cUn punto de referencia p\u00fablico tiene una vida \u00fatil\u201d, dijo Aidan G\u00f3mez, fundador y director ejecutivo de la empresa emergente de inteligencia artificial Cohere. \u201cEs \u00fatil hasta que la gente haya optimizado [their models] o lo jug\u00f3. Eso sol\u00eda llevar un par de a\u00f1os; ahora son un par de meses\u201d.<\/p>\n
Google, Anthropic, Cohere y Mistral han lanzado modelos de IA en los \u00faltimos dos meses mientras buscan desbancar a OpenAI, respaldado por Microsoft, de la cima de las clasificaciones p\u00fablicas de grandes modelos de lenguaje (LLM), que sustentan sistemas como ChatGPT.<\/p>\n
Rutinariamente surgen nuevos sistemas de inteligencia artificial que pueden \u201csuperar completamente\u201d los puntos de referencia existentes, dijo G\u00f3mez. \u00abA medida que los modelos mejoran, las capacidades hacen que estas evaluaciones queden obsoletas\u00bb, afirm\u00f3.<\/p>\n
El problema de c\u00f3mo evaluar los LLM ha pasado del mundo acad\u00e9mico a la sala de juntas, a medida que la IA generativa se ha convertido en la principal prioridad de inversi\u00f3n del 70 por ciento de los directores ejecutivos, seg\u00fan una encuesta de KPMG a m\u00e1s de 1.300 directores ejecutivos globales.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\n\u00abLa gente no utilizar\u00e1 tecnolog\u00eda en la que no conf\u00eda\u00bb, dijo Shelley McKinley, directora jur\u00eddica de GitHub, un repositorio de c\u00f3digo propiedad de Microsoft. \u00abCorresponde a las empresas ofrecer productos confiables\u00bb.<\/p>\n
Los gobiernos tambi\u00e9n est\u00e1n luchando por saber c\u00f3mo implementar y gestionar los riesgos de los \u00faltimos modelos de IA. La semana pasada, Estados Unidos y el Reino Unido firmaron un acuerdo bilateral hist\u00f3rico sobre seguridad de la IA, bas\u00e1ndose en los nuevos institutos de IA que ambos pa\u00edses crearon el a\u00f1o pasado para \u00abminimizar la sorpresa… derivada de avances r\u00e1pidos e inesperados en la IA\u00bb.<\/p>\n
El a\u00f1o pasado, el presidente de Estados Unidos, Joe Biden, emiti\u00f3 una orden ejecutiva en la que ped\u00eda a los organismos gubernamentales, incluido el Instituto Nacional de Est\u00e1ndares y Tecnolog\u00eda, que produjeran puntos de referencia para evaluar los riesgos de las herramientas de inteligencia artificial.<\/p>\n
Ya sea evaluando la seguridad, el rendimiento o la eficiencia, los grupos encargados de probar los sistemas de IA se apresuran a mantenerse al d\u00eda con los \u00faltimos avances.<\/p>\n
\u201cLa decisi\u00f3n de alto nivel que muchas empresas est\u00e1n tomando es: \u00bfdeber\u00edamos utilizar un LLM y cu\u00e1l deber\u00edamos utilizar?\u201d dijo Rishi Bommasani, quien dirige un equipo en el Centro de Investigaci\u00f3n sobre Modelos de Cimientos de Stanford.<\/p>\n
El equipo de Bommasani ha desarrollado la Evaluaci\u00f3n Hol\u00edstica de Modelos del Lenguaje, que pone a prueba el razonamiento, la memorizaci\u00f3n y la susceptibilidad a la desinformaci\u00f3n, entre otros criterios.<\/p>\n
Otros sistemas p\u00fablicos incluyen el punto de referencia Massive Multitask Language Understanding, un conjunto de datos creado en 2020 por estudiantes de Berkeley para probar modelos sobre preguntas de 57 \u00e1reas tem\u00e1ticas. Otro es HumanEval, que juzga la capacidad de codificaci\u00f3n en 164 problemas de programaci\u00f3n.<\/p>\n
Sin embargo, las evaluaciones tienen dificultades para mantenerse al d\u00eda con la sofisticaci\u00f3n de los modelos de IA actuales, que pueden ejecutar una serie de tareas conectadas a lo largo de un largo horizonte. Tareas tan complejas son m\u00e1s dif\u00edciles de evaluar en entornos controlados.<\/p>\n
\u00abLo primero que hay que reconocer es que es muy dif\u00edcil evaluar adecuadamente los modelos de la misma manera que es muy dif\u00edcil evaluar adecuadamente a los humanos\u00bb, dijo Mike Volpi, socio de la firma de capital de riesgo Index Ventures. \u201cSi nos fijamos en algo como ‘\u00bfpuedes saltar alto o correr r\u00e1pido?’ es f\u00e1cil. \u00bfPero la inteligencia humana? Es una tarea casi imposible\u201d.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nOtra preocupaci\u00f3n creciente sobre las pruebas p\u00fablicas es que los datos de entrenamiento de los modelos pueden incluir las preguntas precisas utilizadas en las evaluaciones.<\/p>\n
\u201cPuede que eso no sea un enga\u00f1o deliberado; podr\u00eda ser m\u00e1s inocuo\u201d, dijo Bommasani de Stanford. \u00abPero todav\u00eda estamos aprendiendo c\u00f3mo limitar este problema de contaminaci\u00f3n entre aquello en lo que se entrenan los modelos y aquello en lo que se prueban\u00bb.<\/p>\n
Los puntos de referencia son \u00abmuy monol\u00edticos\u00bb, a\u00f1adi\u00f3. \u201cEstamos evaluando qu\u00e9 tan poderosos son los LLM, pero su evaluaci\u00f3n como empresa es m\u00e1s que eso. Necesitas tener en cuenta el costo. [and] si quieres c\u00f3digo abierto [where code is publicly available] o de c\u00f3digo cerrado\u201d.<\/p>\n
Hugging Face, una startup de 4.500 millones de d\u00f3lares que proporciona herramientas para desarrollar IA y es una plataforma influyente para modelos de c\u00f3digo abierto, alberga una tabla de clasificaci\u00f3n llamada LMSys, que clasifica a los modelos seg\u00fan su capacidad para completar pruebas personalizadas establecidas por usuarios individuales, en lugar de un conjunto fijo. de preguntas. Como resultado, captura m\u00e1s directamente las preferencias reales de los usuarios.<\/p>\n
Esa tabla de clasificaci\u00f3n es \u00fatil para los usuarios individuales, pero de uso m\u00e1s limitado para las empresas, que tendr\u00e1n requisitos espec\u00edficos para los modelos de IA, dijo G\u00f3mez de Cohere.<\/p>\n
En cambio, recomienda que las empresas creen \u00abun conjunto de pruebas internas, que s\u00f3lo necesita cientos de ejemplos, no miles\u00bb.<\/p>\n
\u201cSiempre decimos que la evaluaci\u00f3n humana es la mejor\u201d, afirm\u00f3. \u00abEs la forma m\u00e1s representativa y de se\u00f1al m\u00e1s alta de juzgar el rendimiento\u00bb.<\/p>\n
La elecci\u00f3n de modelos por parte de las empresas individuales es tanto un arte como una ciencia, dijo Volpi de Index Ventures.<\/p>\n
\u00abEstas m\u00e9tricas son como cuando compras un coche y tiene tanta potencia y tanto par y va de 0 a 100 kil\u00f3metros por hora\u00bb, dijo. \u00abLa \u00fanica manera de decidir realmente comprarlo es llev\u00e1ndolo a dar una vuelta\u00bb.<\/p>\n
\u00a9 2024 The Financial Times Ltd. Todos los derechos reservados. No debe ser redistribuido, copiado ni modificado de ninguna manera.<\/em><\/p>\n<\/p><\/div>\n \nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Agrandar \/ Google, Anthropic, Cohere y Mistral han lanzado modelos de IA durante los \u00faltimos dos meses en su intento de desbancar a OpenAI de la cima de las clasificaciones…<\/p>\n","protected":false},"author":1,"featured_media":1086452,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[194,2528,148,23930,9229,31736,238],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1086451"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1086451"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1086451\/revisions"}],"predecessor-version":[{"id":1086453,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1086451\/revisions\/1086453"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1086452"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1086451"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1086451"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1086451"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}