Estas pistas dan pistas sobre la verdadera naturaleza del proyecto Shadowy Q* de OpenAI


Hay otras pistas sobre lo que podría ser Q*. El nombre puede ser una alusión a Q-learning, una forma de aprendizaje por refuerzo que implica un algoritmo que aprende a resolver un problema a través de retroalimentación positiva o negativa, que se ha utilizado para crear robots de juego y ajustar ChatGPT para que sea más útil. Algunos han sugerido que el nombre también puede estar relacionado con el algoritmo de búsqueda A*, ampliamente utilizado para que un programa encuentre el camino óptimo hacia un objetivo.

La información arroja otra pista a la mezcla: «El avance de Sutskever permitió a OpenAI superar las limitaciones para obtener suficientes datos de alta calidad para entrenar nuevos modelos», dice su historia. “La investigación implicó el uso de datos generados por computadora. [data], en lugar de datos del mundo real como texto o imágenes extraídas de Internet, para entrenar nuevos modelos”. Esto parece ser una referencia a la idea de entrenar algoritmos con los llamados datos de entrenamiento sintéticos, que ha surgido como una forma de entrenar modelos de IA más potentes.

Subbarao Kambhampati, profesor de la Universidad Estatal de Arizona que investiga las limitaciones de razonamiento de los LLM, cree que Q* puede implicar el uso de enormes cantidades de datos sintéticos, combinados con aprendizaje reforzado, para entrenar a los LLM en tareas específicas como la aritmética simple. Kambhampati señala que no hay garantía de que el enfoque se generalice en algo que pueda resolver cualquier posible problema matemático.

Para obtener más especulaciones sobre lo que podría ser Q*, lea esta publicación de un científico del aprendizaje automático que reúne el contexto y las pistas con un detalle impresionante y lógico. La versión TLDR es que Q* podría ser un esfuerzo para utilizar el aprendizaje por refuerzo y algunas otras técnicas para mejorar la capacidad de un modelo de lenguaje grande para resolver tareas razonando a través de pasos a lo largo del camino. Aunque eso podría hacer que ChatGPT sea mejor en acertijos matemáticos, no está claro si sugeriría automáticamente que los sistemas de inteligencia artificial podrían evadir el control humano.

Que OpenAI intente utilizar el aprendizaje por refuerzo para mejorar los LLM parece plausible porque muchos de los primeros proyectos de la compañía, como los robots para videojuegos, se centraron en esta técnica. El aprendizaje por refuerzo también fue fundamental para la creación de ChatGPT, porque puede usarse para hacer que los LLM produzcan respuestas más coherentes al pedir a los humanos que brinden retroalimentación mientras conversan con un chatbot. Cuando WIRED habló con Demis Hassabis, director ejecutivo de Google DeepMind, a principios de este año, insinuó que la empresa estaba tratando de combinar ideas del aprendizaje por refuerzo con avances observados en grandes modelos de lenguaje.

Resumiendo las pistas disponibles sobre Q*, no parece un motivo para entrar en pánico. Pero claro, todo depende de tu valor P(perdición) personal: la probabilidad que atribuyes a la posibilidad de que la IA destruya a la humanidad. Mucho antes de ChatGPT, los científicos y líderes de OpenAI inicialmente estaban tan asustados por el desarrollo de GPT-2, un generador de texto de 2019 que ahora parece ridículamente insignificante, que dijeron que no podía publicarse. Ahora la empresa ofrece acceso gratuito a sistemas mucho más potentes.

OpenAI se negó a comentar sobre Q*. Quizás obtengamos más detalles cuando la compañía decida que es hora de compartir más resultados de sus esfuerzos para hacer que ChatGPT no solo sea bueno para hablar sino también para razonar.



Source link-46