Si la IA está haciendo obsoleta la prueba de Turing, ¿qué podría ser mejor?


Si una máquina o un programa de IA iguala o supera la inteligencia humana, ¿significa eso que puede simular perfectamente a los humanos? En caso afirmativo, ¿qué pasa con el razonamiento: nuestra capacidad de aplicar la lógica y pensar racionalmente antes de tomar decisiones? ¿Cómo podríamos siquiera identificar si un programa de IA puede razonar? Para intentar responder a esta pregunta, un equipo de investigadores ha propuesto un marco novedoso que funciona como un estudio psicológico para software.

«Esta prueba trata a un programa ‘inteligente’ como si fuera un participante en un estudio psicológico y tiene tres pasos: (a) probar el programa en una serie de experimentos examinando sus inferencias, (b) probar su comprensión de su propia forma de razonamiento, y (c) examinar, si es posible, la adecuación cognitiva del código fuente del programa», señalan los investigadores.

Sugieren que los métodos estándar para evaluar la inteligencia de una máquina, como la prueba de Turing, sólo pueden indicar si la máquina es buena para procesar información e imitar las respuestas humanas. Las generaciones actuales de programas de inteligencia artificial, como LaMDA de Google y ChatGPT de OpenAI, por ejemplo, han estado cerca de pasar la prueba de Turing, pero los resultados de la prueba no implican que estos programas puedan pensar y razonar como humanos.

Por eso, según los investigadores, el test de Turing puede que ya no sea relevante y se necesitan nuevos métodos de evaluación que puedan evaluar eficazmente la inteligencia de las máquinas. Afirman que su marco podría ser una alternativa al Test de Turing. “Proponemos reemplazar la prueba de Turing por una más centrada y fundamental para responder a la pregunta: ¿razonan los programas de la misma manera que razonan los humanos?” argumentan los autores del estudio.

¿Qué tiene de malo la prueba de Turing?

Durante la Prueba de Turing, los evaluadores juegan diferentes juegos que involucran comunicaciones basadas en texto con humanos reales y programas de inteligencia artificial (máquinas o chatbots). Es una prueba ciega, por lo que los evaluadores no saben si están enviando mensajes de texto a un humano o a un chatbot. Si los programas de IA tienen éxito en generar respuestas similares a las humanas (en la medida en que los evaluadores tengan dificultades para distinguir entre el programa humano y el de IA), se considera que la IA ha pasado. Sin embargo, dado que la prueba de Turing se basa en una interpretación subjetiva, estos resultados también lo son.

Los investigadores sugieren que existen varias limitaciones asociadas con la prueba de Turing. Por ejemplo, cualquiera de los juegos jugados durante la prueba son juegos de imitación diseñados para probar si una máquina puede o no imitar un humano. Los evaluadores toman decisiones basándose únicamente en el lenguaje o el tono de los mensajes que reciben. ChatGPT es excelente para imitar el lenguaje humano, incluso en respuestas en las que proporciona información incorrecta. Por lo tanto, la prueba claramente no evalúa el razonamiento y la capacidad lógica de una máquina.

Los resultados de la prueba de Turing tampoco pueden indicar si una máquina puede hacer introspección. A menudo pensamos en nuestras acciones pasadas y reflexionamos sobre nuestra vida y decisiones, una capacidad crítica que nos impide repetir los mismos errores. Lo mismo se aplica también a la IA, según un estudio de la Universidad de Stanford que sugiere que las máquinas que pueden autorreflexionarse son más prácticas para el uso humano.

«Los agentes de IA que puedan aprovechar la experiencia previa y adaptarse bien mediante la exploración eficiente de entornos nuevos o cambiantes conducirán a tecnologías mucho más adaptables y flexibles, desde robótica doméstica hasta herramientas de aprendizaje personalizadas», dijo Nick Haber, profesor asistente de la Universidad de Stanford que no participó. en el estudio actual, dijo.

Además de esto, la prueba de Turing no analiza la capacidad de pensar de un programa de IA. En un experimento reciente de la Prueba de Turing, GPT-4 pudo convencer a los evaluadores de que estaban enviando mensajes de texto con humanos más del 40 por ciento del tiempo. Sin embargo, esta puntuación no responde a la pregunta básica: ¿Puede pensar el programa de IA?

Alan Turing, el famoso científico británico que creó la prueba de Turing, dijo una vez: «Una computadora merecería ser llamada inteligente si pudiera engañar a un humano haciéndole creer que es humano». Sin embargo, su prueba sólo cubre un aspecto de la inteligencia humana: la imitación. Aunque es posible engañar a alguien utilizando este aspecto, muchos expertos creen que una máquina nunca podrá alcanzar la verdadera inteligencia humana sin incluir esos otros aspectos.

“No está claro si pasar el Test de Turing es un hito significativo o no. No nos dice nada sobre lo que un sistema puede hacer o comprender, ni sobre si ha establecido monólogos internos complejos o puede planificar en horizontes temporales abstractos, lo cual es clave para la inteligencia humana”, dijo Mustafa Suleyman, experto en inteligencia artificial y fundador de DeepAI, dijo Bloomberg.



Source link-49