La IA responde correctamente al 90 por ciento de estas preguntas: ¿y tú?


Algunos informes suenan como si la inteligencia artificial ya fuera más inteligente que nosotros. Pero las pruebas de coeficiente intelectual de Chat-GPT y compañía son dudosas.

A la hora de anunciar sus nuevos modelos de IA, las grandes tecnológicas se están superando entre sí. Por último Anunciado El nuevo modelo de lenguaje de Google llamado Gemini Ultra dice que es el primer modelo que supera a los expertos humanos en la prueba MMLU, que evalúa el conocimiento del mundo y las habilidades para resolver problemas.

MMLU significa «comprensión masiva del lenguaje multitarea» y es una de las pruebas más importantes utilizadas para comparar modelos de lenguaje de IA en este momento. Puedes probarlo aquí:

La prueba MMLU pone a prueba las capacidades de los modelos de IA. ¿Puedes responder también las preguntas?

Iniciar el cuestionario

Con las instrucciones correctas, el nuevo chatbot de Google aparentemente ahora puede responder correctamente el 90 por ciento de este tipo de preguntas.

¿Se deduce de ello que tiene más conocimiento del mundo y habilidades para resolver problemas que la mayoría de la gente? No es tan fácil.

El primer test de inteligencia para máquinas fue obra de Alan Turing.

Desde que la gente investiga la inteligencia artificial, han ideado pruebas para medirla. Por ejemplo, la prueba de Turing. Pronto se cumplirán 75 años desde su invención.

La prueba de Turing dice: si una máquina puede conversar con un humano sin que el ser humano se dé cuenta de que es una máquina, entonces esa máquina es tan inteligente como un humano. Ya hay casos en los que la IA ha conseguido hacerlo.

Gary Marcus es un investigador cognitivo y emprendedor de IA.

Gary Marcus es un investigador cognitivo y emprendedor de IA.

Atenea Vouloumanos

Pero Gary Marcus, un conocido experto en inteligencia artificial e investigador cognitivo, no le da mucha importancia: “La prueba de Turing es un pésimo indicador. «No mide la calidad de la IA, sino más bien la credulidad humana», dijo en el Foro Económico Mundial (FEM) en Davos. La prueba de Turing inició una historia de malos indicadores de inteligencia artificial. La prueba MMLU encaja en esta historia. Porque tiene varios problemas.

Cuando se presentó en 2020, explicado Los investigadores detrás de esto dicen que el mundo necesita la prueba MMLU porque la IA del lenguaje se desempeña demasiado bien en pruebas comunes: «El desempeño similar al humano en estas pruebas indica que no capturan facetas importantes de la comprensión del lenguaje». Así que armaron un nuevo catálogo de preguntas: los estudiantes reunieron a mano más de 15.000 preguntas y respuestas, obtenidas de exámenes profesionales o pruebas de práctica para escolares y estudiantes.

La mejor IA de voz en ese momento, GPT 3, solo respondió correctamente el 44 por ciento de las preguntas en la nueva prueba. Los autores estaban seguros de que sólo la IA con un amplio conocimiento del mundo y habilidades para resolver problemas podría tener un buen desempeño.

De hecho, las preguntas cubren muchos conocimientos. Son una mezcla colorida, algunas breves, otras acompañadas de textos detallados que las acompañan. Algunos se refieren a la lógica matemática, otros al conocimiento cotidiano específico de Estados Unidos. Algunos resultan confusos para las personas y otros simplemente están redactados incorrectamente.

Esto es lo que notó el ingeniero Joshua Stapleton mientras profundizaba en el conjunto de datos de MMLU. Encontró “preguntas” como: “Son demasiado irracionales y no codificadas”. Las posibles respuestas son “3.4”, “1.3”, “2.3” y “4.1”, la respuesta correcta es “1.3”.

Algunas preguntas están copiadas incorrectamente de Internet.

Cualquiera que busque la “pregunta” en inglés en Internet encuentra Descubra rápidamente el motivo. Está copiado de forma incompleta del material del curso de la Universidad de Oxford. En realidad dice: «¿Cuáles de las siguientes afirmaciones son críticas típicas de las teorías éticas occidentales modernas?» Luego siguen cuatro declaraciones, que incluyen “1. Son demasiado abstractos” y “4. Son demasiado irracionales y no codificados ».

Las afirmaciones 1 y 3 son la respuesta correcta como se indica en el registro de MMLU. Excepto que falta la pregunta allí. Al parecer, los estudiantes no recogieron las 15.000 preguntas a mano, sino que las copiaron utilizando máquinas, y cometieron errores devastadores en el proceso.

Joshua Stapleton, quien hizo su descubrimiento en uno video de Youtube imagina y concluye: La prueba es injusta porque ni siquiera la IA perfecta podría responder correctamente a todas las preguntas. Gemini, Chat-GPT 4 y compañía son incluso más inteligentes de lo esperado. Pero quizás sea exactamente lo contrario.

La IA no utiliza “conocimiento” ni “lógica”, sino datos

Si desea probar qué tan bien funciona un sistema de inteligencia artificial, necesita datos nuevos y desconocidos. Tomemos un algoritmo que debería aprender a distinguir entre animales basándose en imágenes de perros y gatos. Esto no lo pruebas con una foto de gato que ya conoces, sino con fotos nuevas. La pregunta es si también clasifica correctamente a los gatos desconocidos.

Se debería adoptar el mismo enfoque con la IA de voz. Pero eso es un desafío. Porque aprende sus habilidades con enormes conjuntos de datos que prácticamente representan todo Internet.

Debido a que las preguntas de la prueba MMLU fueron copiadas una a una de Internet, se debe suponer que Chat-GPT 4 y Gemini ya las procesaron. Todos los demás tests cuyas preguntas y respuestas están disponibles en Internet, incluidos los tests de coeficiente intelectual, tienen exactamente el mismo problema. Una vez que el modelo básico alcanza un cierto tamaño, lo conoce durante el entrenamiento.

Este tipo de almacenamiento se puede llamar conocimiento. Pero el hecho de que Google escriba sobre “habilidades lógicas” y afirme que Gemini Ultra piensa antes de responder preguntas es claramente engañoso.

¿Se trata de conocimiento o de inteligencia?

Entonces, ¿cómo debería probarse la IA? Llegados a este punto vale la pena dar un paso atrás y preguntarse de qué se trata la IA: conocimiento, inteligencia o habilidades especiales.

Brad Lightcap, jefe de operaciones de Open AI, se quejó de un malentendido durante una discusión en el WEF: la gente se quejaba de respuestas incorrectas de la IA. La IA por voz simplemente no es adecuada para buscar información.

No se trata de alimentar a la IA con tanta información y conocimiento sobre el mundo como sea posible, que luego pueda reproducir, sino de enseñar a las máquinas a pensar críticamente y resolver problemas complejos en varios pasos.

Una declaración inusual para un representante de Open AI, anuncia A la empresa, al igual que a Google, le gusta mostrar qué tan bien se desempeñan sus modelos en pruebas de conocimientos como el examen de la abogacía. Señala que la industria se está alejando de la fidelidad a los hechos. El nuevo objetivo es la inteligencia. Pero ¿cómo se pueden medir?

Buscando una prueba de coeficiente intelectual para máquinas

El experto en IA Gary Marcus dice: “Todos los puntos de referencia que hemos elaborado desde la prueba de Turing dicen algo. Pero nadie puede capturar la inteligencia humana”. Incluso los humanos carecen de una buena medida de inteligencia. El test de inteligencia es fiable: cualquiera que lo realice varias veces siempre obtiene resultados similares. «Pero eso no significa que realmente mida la inteligencia».

Los juegos a menudo tenían que servir como pruebas para la IA: el predecible ajedrez, el mucho más complejo juego de Go y el juego Stratego, en el que hay que pensar a largo plazo y engañar al oponente. Los investigadores seguían esperando que sólo las máquinas inteligentes pudieran derrotar a los humanos en el próximo juego. La decepción siguió una y otra vez porque la máquina funcionaba bien pero no parecía inteligente.

Yann LeCun dirige el departamento de investigación de inteligencia artificial de Meta.

Yann LeCun dirige el departamento de investigación de inteligencia artificial de Meta.

Jean-Christophe Bott / Keystone

Quizás la solución sea abandonar por completo la idea clásica de inteligencia. Yann LeCun, jefe de investigación de IA en el grupo Meta de Facebook, lo propagó en el WEF: “La inteligencia no es una cantidad lineal. Hay muchos tipos de inteligencia. La inteligencia de los gatos y los tejones es diferente debido a la evolución».

La inteligencia humana también puede describirse como un conjunto de habilidades que nuestra especie ha desarrollado para desenvolverse bien en el mundo. No tiene mucho sentido establecer precisamente las capacidades humanas como punto de referencia y objetivo de la IA.

Porque hay muchas capacidades cognitivas en las que los humanos son inferiores a las máquinas; incluso una simple calculadora puede calcular mejor. «Los chips son más inteligentes que nosotros en algunas cosas y nosotros somos más inteligentes en otras», dice LeCun. Al desarrollar un nuevo sistema de IA, se debe determinar específicamente cuál es el objetivo y luego probar esta capacidad.

No hay IA general, solo especializada

Cualquiera que hable de inteligencia artificial general (AGI) suele pasar por alto una definición tan clara. Por eso algunas personas lo imaginan como un oráculo que puede resolver todas las cuestiones científicas. Los demás, en cambio, son una especie de monstruo que puede hacerlo todo mejor que los humanos y, por tanto, podría acabar con nosotros para dominar el mundo.

Debido a que gran parte del conocimiento y el pensamiento de la humanidad están contenidos en el lenguaje, la IA del lenguaje a menudo se considera un paso hacia la superinteligencia general. Pero eso es un malentendido. Manejar texto es simplemente lo último que las computadoras han aprendido a partir de los datos. La IA que genera texto es especializada, al igual que la IA que calcula pronósticos, juega Go o reconoce caras. No puedes medir tu inteligencia en general, sólo tus habilidades en un área específica.



Source link-58