OpenAI nos trae GPT-4, la próxima evolución del chatbot favorito de todos, ChatGPT. Además de un modelo de lenguaje más avanzado que «muestra un rendimiento a nivel humano en varias pruebas profesionales y académicas», la nueva versión acepta entradas de imágenes y promete un comportamiento de rechazo más estricto para evitar que cumpla con sus solicitudes adversas.
El informe técnico adjunto de GPT-4 (se abre en una pestaña nueva) (PDF) advierte, sin embargo, que el nuevo modelo todavía tiene una capacidad relativamente alta para lo que los investigadores llaman «alucinaciones». Lo cual suena totalmente seguro.
Lo que los investigadores quieren decir cuando se refieren a las alucinaciones es que el nuevo modelo ChatGPT, al igual que la versión anterior, tiene la tendencia a «producir contenido sin sentido o falso en relación con ciertas fuentes».
Aunque los investigadores dejan en claro que «GPT-4 fue entrenado para reducir la tendencia del modelo a alucinar al aprovechar los datos de modelos anteriores como ChatGPT». Entonces, no solo lo están entrenando en sus propios balones sueltos, sino que también lo han estado entrenando a través de la evaluación humana. (se abre en una pestaña nueva).
«Recopilamos datos del mundo real que habían sido marcados como no fácticos, los revisamos y creamos un conjunto ‘fáctico’ donde era posible hacerlo. Usamos esto para evaluar las generaciones de modelos en relación con los ‘fácticos’ establecer y facilitar las evaluaciones humanas».
El proceso parece haber ayudado significativamente cuando se trata de temas cerrados, aunque el chatbot todavía tiene problemas cuando se trata de temas más amplios. Como señala el documento, GPT-4 es un 29 % mejor que GPT-3.5 cuando se trata de chats de «dominio cerrado», pero solo un 19 % mejor para evitar las alucinaciones de «dominio abierto».
SIGUIENTE (se abre en una pestaña nueva) explica la diferencia entre dominio abierto y dominio cerrado, en el sentido de que «el control de calidad de dominio cerrado es un tipo de sistema de control de calidad que brinda respuestas basadas en un conjunto limitado de información dentro de un dominio específico o base de conocimientos». En cambio, los sistemas de control de calidad de dominio abierto «brindan respuestas basadas en una amplia gama de información disponible en Internet y son más adecuados para necesidades de información específicas y limitadas».
Así que sí, es probable que todavía veamos a Chat GPT-4 mintiéndonos sobre cosas.
Por supuesto, los usuarios estarán molestos porque el chatbot les proporcione información falsa, aunque este no es el mayor problema. Uno de los principales problemas es la «dependencia excesiva». La tendencia a alucinar «puede ser particularmente dañina a medida que los modelos se vuelven cada vez más convincentes y creíbles, lo que hace que los usuarios confíen demasiado en ellos», dice el documento.
«En contra de la intuición, las alucinaciones pueden volverse más peligrosas a medida que los modelos se vuelven más veraces, ya que los usuarios generan confianza en el modelo cuando proporciona información veraz en áreas en las que están familiarizados». Es natural para nosotros confiar en una fuente si ha sido precisa antes, pero un reloj averiado da la hora correcta dos veces al día, como se suele decir.
La confianza excesiva se vuelve particularmente problemática cuando el chatbot se integra en sistemas automatizados que nos ayudan a tomar decisiones dentro de la sociedad. Esto puede causar un ciclo de retroalimentación que puede conducir a una «degradación de la calidad general de la información».
«Es crucial reconocer que el modelo no siempre es preciso al admitir sus limitaciones, como lo demuestra su tendencia a alucinar».
Dejando de lado los problemas, los desarrolladores parecen bastante optimistas sobre el nuevo modelo, al menos según la descripción general de GPT-4. (se abre en una pestaña nueva) en el sitio de OpenAI.
«Encontramos y solucionamos algunos errores y mejoramos nuestros fundamentos teóricos. Como resultado, nuestra ejecución de entrenamiento de GPT-4 fue (¡al menos para nosotros!) Estable sin precedentes».
Veremos eso cuando comience con la luz de gas nuevamente, aunque los colapsos (se abre en una pestaña nueva) de los que hemos oído hablar provienen principalmente de la integración ChatGPT de Bing.
ChatGPT-4 está disponible en este momento para los usuarios de ChatGPT Pro, aunque incluso los clientes que pagan deben esperar que el servicio tenga una «capacidad severamente limitada».