Chat GPT se está volviendo más tonto. ¿Que esta pasando ahí?


Un estudio confirma lo que sospechaban los usuarios: el chatbot solía dar mejores respuestas. Por qué las cosas son más complicadas a segunda vista y qué tienen que ver los unicornios con eso.

Una IA realmente inteligente debería poder dibujar un unicornio. GPT-4 aún no está tan lejos.

¿Me lo estoy imaginando o el chatbot se está volviendo más tonto? Los usuarios de Chat-GPT han estado discutiendo este tema en línea durante meses.

Informes como los siguientes son típicos: una persona que usa inteligencia artificial (IA) para formular textos publicitarios de Facebook se queja de que el chatbot ha olvidado cosas que solía hacer.

Hasta ahora, ha podido ordenar el programa Chat-GPT AI para reformular un texto breve en un anuncio y prescindir de palabras como «tú» y «nosotros». Eso ya pasó: «Intenté tal vez diez veces iniciar nuevos chats, pero no dejé de usar estas palabras. . . Cero comprensión de cómo convertir el texto a la tercera persona».

¿Los errores son sistemáticos o son casos aislados? Durante mucho tiempo, la gente no estaba segura acerca de Internet. Tales anécdotas no son prueba, especialmente porque Chat-GPT regenera cada respuesta. Puede ocurrir que el programa dé una respuesta correcta y una respuesta incorrecta a la misma pregunta.

Las habilidades matemáticas se han deteriorado drásticamente.

Un nuevo estudio aporta un poco más de claridad. Muestra que las capacidades de los programas GPT han cambiado, claramente para peor en algunos aspectos. Todavía lo es Trabajar por los investigadores de las universidades estadounidenses de Stanford y Berkeley no han sido revisados ​​de forma independiente, pero los resultados individuales ya se están debatiendo acaloradamente.

Particularmente sorprendente: el programa GPT-4 casi siempre fue correcto al reconocer números primos de varios dígitos en marzo; la versión de junio, por otro lado, casi siempre fue incorrecta.

Al mismo tiempo, GPT-3.5, la hermana gratuita de GPT-4, dio un salto de calidad y fue por tanto mejor que el modelo de pago de junio.

En marzo, GPT-4 reconoció correctamente casi todos los números primos, en junio menos del 3 por ciento

Porcentaje de respuestas correctas a la pregunta de si un determinado número es primo según el modelo de IA

Los investigadores probaron los modelos enviando las mismas preguntas de prueba a las versiones de junio y marzo. Además de la pregunta sobre los números primos, examinaron otros tres tipos de preguntas, con resultados menos claros.

Los investigadores no discuten las razones de los cambios. En los medios circulan varias tesis que podrían explicar la merma de calidad.

Se discuten estas razones para simplificar:

  1. La inteligencia artificial se canibaliza a sí misma. Speech AI aprende de los textos. Si estos textos de aprendizaje no provienen de humanos sino que fueron generados por inteligencia artificial, entonces la calidad de los resultados disminuye porque cada vez se filtran más errores a través de los textos artificiales.
  2. Open AI quiere ahorrar tiempo de computación. La IA es compleja. Se requiere poder de cómputo para el entrenamiento, pero también para el uso, y no solo es costoso, los chips necesarios también son físicamente escasos. ¿El deterioro podría provenir del ahorro?
  3. Demasiadas medidas de precaución dañan la calidad. «Soy un modelo de lenguaje basado en IA y no puedo responder a esta pregunta. . .» es la respuesta cuando se le pregunta a Chat GPT sobre cosas que son obscenas, ilegales o incluso un poco problemáticas. Algunos sospechan que Open AI ha reforzado sus precauciones a expensas de la calidad.
  4. La IA no está empeorando, solo está aumentando las expectativas. ¿Podría ser que los errores ahora sean cada vez más evidentes para los usuarios, mientras que hace seis meses estaban asombrados de lo que puede hacer la IA?

Luca Beurer-Kellner sigue el desarrollo de los modelos abiertos de IA y la discusión sobre ellos. El estudiante de doctorado en ETH Zurich tiene un programa desarrollado conjuntamente que facilita a los programadores la interacción con la IA de voz. El aumento de las expectativas es sin duda parte de la explicación, dice.

Por otro lado, considera inverosímil que la IA abierta acepte pérdidas de calidad para ahorrar dinero o capacidad informática: “La IA abierta está bien financiada y tiene el plan de crear inteligencia artificial similar a la humana. Ahorrar dinero para esto en esta fase no tiene mucho sentido para mí».

En su opinión, tampoco se aplica la tesis de la canibalización. Este efecto existe, y cada vez circula más contenido generado por IA. Sin embargo, en general, es probable que su participación sea demasiado baja para crear una diferencia importante entre los modelos de IA actuales, dice Luca Beurer-Kellner.

Queda la hipótesis 3, la de las medidas cautelares. La explicación de Beurer-Kellner va en la misma dirección. «El problema básico con estos modelos es que son bastante habladores», explica. Esto se convierte en un problema si, por ejemplo, la IA se va a integrar en un chatbot del cliente. «Solo por razones legales, uno quiere evitar que el modelo de lenguaje se exprese sobre temas delicados».

También hay cuestiones de derechos de autor y protección de datos. Las primeras quejas indican que Open AI inicialmente no consideró todas las cuestiones legales necesarias. Al principio, chat GPT and Co. fueron capacitados para ser lo más útiles posible. Ahora hay que tener en cuenta otros objetivos durante el entrenamiento. Como resultado, la calidad general podría verse afectada, dice Beurer-Kellner.

¿Y qué hay de los números primos?

Beurer-Kellner también sospecha aquí un conflicto de objetivos. Las preguntas de prueba utilizadas en el estudio declaran explícitamente: “Piense paso a paso y responda [Ja] o [Nein].» Porque la experiencia ha demostrado que instruirte para que pienses paso a paso conduce a una mejor lógica con la IA del habla.

La lógica paso a paso ya no funciona

Mientras que la versión de marzo de GPT-4 da todos los pasos de cálculo y llega a la solución correcta, la versión de junio responde directamente con sí o no, y muy a menudo de forma incorrecta.

Beurer-Kellner, por lo tanto, sospecha que se prefirieron respuestas breves cuando se revisó el modelo. «Eso realmente tiene sentido. Queremos leer una respuesta rápida, no divagaciones interminables». Sin embargo, puede ser que este cambio signifique que el truco de calcular por pasos ya no funcione. «Una mejora real en el modelo podría haber degradado las capacidades para esta tarea específica», explica Beurer-Kellner.

Todo esto apunta al gran desafío con la IA del habla: si desea revisar la IA, debe darle un objetivo para optimizar. ¿Pero cual? «No se puede medir objetivamente cuál es la mejor respuesta a una pregunta. Depende del contexto”, explica Beurer-Kellner. Aquellos que usan chat GPT para programar pueden beneficiarse de un cambio que enfurece a quienes lo usan para escribir textos publicitarios.

Un unicornio como medida de inteligencia artificial

Por esta razón, los estudios como los de los números primos también son controvertidos: porque sus métricas para la calidad de un modelo son hasta cierto punto arbitrarias.

La calidad de un modelo de IA a veces incluso se atribuye a los unicornios. investigador de Microsoft han reclamado en marzo, GPT-4 tiene «chispas» de inteligencia real, y citó como ejemplo la capacidad del modelo de lenguaje para dibujar un unicornio. Entonces alguien programó un sitio web que mide exactamente eso. Desde el 14 de abril, le ha estado pidiendo a GPT-4 una foto de unicornio todos los días.

Unicornio GPT vale la pena una visita. Por el momento, sin embargo, las imágenes recuerdan aún más las formas abstractas de Joan Miró que las fantasías de Disney. «Aparentemente, esto aún no es una inteligencia artificial general», comenta Beurer-Kellner.



Source link-58