¿Nervioso por ChatGPT? Prueba ChatGPT con un martillo


El pasado mes de marzo, apenas Dos semanas después del lanzamiento de GPT-4, los investigadores de Microsoft anunciaron silenciosamente un plan para compilar millones de API (herramientas que pueden hacer de todo, desde pedir una pizza hasta resolver ecuaciones físicas y controlar el televisor de la sala de estar) en un compendio que sería hecho accesible a grandes modelos de lenguaje (LLM). Este fue solo un hito en la carrera entre la industria y el mundo académico para encontrar las mejores formas de enseñar a los LLM cómo manipular herramientas, lo que potenciaría el potencial de la IA más que cualquiera de los impresionantes avances que hemos visto hasta la fecha.

El proyecto de Microsoft tiene como objetivo enseñar a la IA cómo utilizar todas y cada una de las herramientas digitales de una sola vez, un enfoque inteligente y eficiente. Hoy en día, los LLM pueden hacer un buen trabajo recomendándole ingredientes para pizza si describe sus preferencias dietéticas y puede redactar un diálogo que podría utilizar cuando llame al restaurante. Pero la mayoría de las herramientas de inteligencia artificial no pueden realizar pedidos, ni siquiera en línea. En contraste, la herramienta Asistente de Google, de siete años de antigüedad, puede sintetizar una voz en el teléfono y completar un formulario de pedido en línea, pero no puede elegir un restaurante ni adivinar su pedido. Sin embargo, al combinar estas capacidades, una herramienta que utilice IA podría hacerlo todo. Un LLM con acceso a sus conversaciones pasadas y a herramientas como calculadoras de calorías, una base de datos de menús de restaurantes y su billetera de pago digital podría determinar que está tratando de perder peso y desea una opción baja en calorías; encuentre el restaurante más cercano con los ingredientes que le gusten. y realizar el pedido de entrega. Si tiene acceso a su historial de pagos, podría incluso adivinar con qué generosidad suele dar propinas. Si tiene acceso a los sensores de su reloj inteligente o rastreador de actividad física, podría detectar cuándo su nivel de azúcar en la sangre es bajo y pedir el pastel antes de que se dé cuenta de que tiene hambre.

Quizás las aplicaciones potenciales más convincentes del uso de herramientas sean aquellas que brindan a las IA la capacidad de mejorar. Supongamos, por ejemplo, que le pide ayuda a un chatbot para interpretar alguna faceta de la antigua ley romana de la que nadie había pensado incluir ejemplos en la capacitación original del modelo. Un LLM facultado para buscar en bases de datos académicas y desencadenar su propio proceso de formación podría afinar su comprensión del derecho romano antes de responder. El acceso a herramientas especializadas podría incluso ayudar a que un modelo como este se explique mejor. Si bien los LLM como GPT-4 ya hacen un trabajo bastante bueno al explicar su razonamiento cuando se les pregunta, estas explicaciones surgen de una «caja negra» y son vulnerables a errores y alucinaciones. Pero un LLM que utilice herramientas podría analizar sus propios aspectos internos, ofreciendo evaluaciones empíricas de su propio razonamiento y explicaciones deterministas de por qué produjo la respuesta que produjo.

Si se le da acceso a herramientas para solicitar comentarios humanos, un LLM que utilice herramientas podría incluso generar conocimiento especializado que aún no está capturado en la web. Podría publicar una pregunta en Reddit o Quora o delegar una tarea a un humano en Mechanical Turk de Amazon. Incluso podría buscar datos sobre las preferencias humanas mediante encuestas, ya sea para proporcionarle una respuesta directamente o para perfeccionar su propia capacitación para poder responder mejor a las preguntas en el futuro. Con el tiempo, las IA que utilizan herramientas podrían empezar a parecerse mucho a los humanos que utilizan herramientas. Un LLM puede generar código mucho más rápido que cualquier programador humano, por lo que puede manipular los sistemas y servicios de su computadora con facilidad. También podría usar el teclado y el cursor de su computadora como lo haría una persona, permitiéndole usar cualquier programa que usted utilice. Y podría mejorar sus propias capacidades, utilizando herramientas para hacer preguntas, realizar investigaciones y escribir código para incorporarlo a sí mismo.

Es fácil ver cómo este tipo de uso de herramientas conlleva enormes riesgos. Imagine que un LLM pudiera encontrar el número de teléfono de alguien, llamarlo y grabar subrepticiamente su voz, adivinar qué banco usa según los proveedores más importantes de su área, hacerse pasar por él en una llamada telefónica con el servicio de atención al cliente para restablecer su contraseña y liquidar su cuenta para hacer una donación a un partido político. Cada una de estas tareas invoca una herramienta simple (una búsqueda en Internet, un sintetizador de voz, una aplicación bancaria) y el LLM escribe la secuencia de acciones utilizando las herramientas.

Todavía no sabemos qué tan exitosos serán estos intentos. Por muy fluidos que sean los LLM, no fueron creados específicamente para operar herramientas, y queda por ver cómo sus primeros éxitos en el uso de herramientas se traducirán en casos de uso futuros como los que se describen aquí. Como tal, darle a la IA generativa actual acceso repentino a millones de API, como planea hacer Microsoft, podría ser un poco como dejar suelto a un niño pequeño en un depósito de armas.



Source link-46