En lugar de ajustar un LLM como primer enfoque, intente diseñar una arquitectura rápida.


En medio de lo generativo Con la irrupción de la IA, los directores de innovación están reforzando el departamento de TI de sus empresas en busca de chatbots o LLM personalizados. Quieren ChatGPT pero con información específica del dominio que respalde una amplia funcionalidad, seguridad y cumplimiento de los datos, y mayor precisión y relevancia.

A menudo surge la pregunta: ¿Deberían crear un LLM desde cero o perfeccionar uno existente con sus propios datos? Para la mayoría de las empresas, ambas opciones no son prácticas. Este es el por qué.

TL; DR: Dada la secuencia correcta de indicaciones, los LLM son notablemente inteligentes a la hora de ceder a su voluntad. No es necesario modificar el LLM en sí ni sus datos de capacitación para adaptarlo a datos o información de dominio específicos.

Se recomienda realizar esfuerzos exhaustivos para construir una “arquitectura rápida” integral antes de considerar alternativas más costosas. Este enfoque está diseñado para maximizar el valor extraído de una variedad de mensajes, mejorando las herramientas basadas en API.

TL; DR: Dada la secuencia correcta de indicaciones, los LLM son notablemente inteligentes a la hora de ceder a su voluntad.

Si esto resulta insuficiente (en una minoría de casos), entonces Se podría considerar un proceso de ajuste (que a menudo es más costoso debido a la preparación de datos que implica). Construir uno desde cero casi siempre está fuera de discusión.

El resultado buscado es encontrar una manera de aprovechar sus documentos existentes para crear soluciones personalizadas que automaticen de manera precisa, rápida y segura la ejecución de tareas frecuentes o la respuesta a consultas frecuentes. La arquitectura rápida se destaca como el camino más eficiente y rentable para lograrlo.

¿Cuál es la diferencia entre arquitectura rápida y ajuste fino?

Si está pensando en realizar una arquitectura rápida, probablemente ya haya explorado el concepto de ajuste. Aquí está la distinción clave entre los dos:

Si bien el ajuste implica modificar el LLM fundamental subyacente, la arquitectura rápida no.

El ajuste es un esfuerzo sustancial que implica volver a capacitar a un segmento de un LLM con un gran conjunto de datos nuevo, idealmente su conjunto de datos patentado. Este proceso dota al LLM de conocimientos específicos de un dominio, intentando adaptarlo a su industria y contexto empresarial.

Por el contrario, la arquitectura rápida implica aprovechar los LLM existentes sin modificar el modelo en sí ni sus datos de entrenamiento. En cambio, combina una serie de indicaciones complejas e inteligentemente diseñadas para ofrecer resultados consistentes.

El ajuste es apropiado para empresas con los requisitos de privacidad de datos más estrictos (por ejemplo, bancos)



Source link-48