5 pasos para garantizar que las startups implementen con éxito LLM


Se marcó el comienzo del lanzamiento de ChatGPT en la era de los grandes modelos lingüísticos. Además de las ofertas de OpenAI, otros LLM incluyen la familia de LLM LaMDA de Google (incluido Bard), el proyecto BLOOM (una colaboración entre grupos de Microsoft, Nvidia y otras organizaciones), LLaMA de Meta y Claude de Anthropic.

Sin duda se crearán más. De hecho, una encuesta de Arize de abril de 2023 encontró que el 53% de los encuestados planeaba implementar LLM durante el próximo año o antes. Una forma de hacerlo es crear un LLM “vertical” que comience con un LLM existente y lo vuelva a capacitar cuidadosamente en conocimientos específicos de un dominio en particular. Esta táctica puede funcionar en ciencias biológicas, productos farmacéuticos, seguros, finanzas y otros sectores empresariales.

Implementar un LLM puede proporcionar una poderosa ventaja competitiva, pero sólo si se hace bien.

Los LLM ya han dado lugar a problemas de interés periodístico, como su tendencia a «alucinar» información incorrecta. Ése es un problema grave y puede distraer al liderazgo de preocupaciones esenciales con los procesos que generan esos resultados, que pueden ser igualmente problemáticos.

Los desafíos de formar e implementar un LLM

Un problema con el uso de LLM es su enorme gasto operativo porque la demanda computacional para entrenarlos y ejecutarlos es muy intensa (no en vano se les llama modelos de lenguaje grandes).

Los LLM son apasionantes, pero desarrollarlos y adoptarlos requiere superar varios obstáculos de viabilidad.

Primero, el hardware para ejecutar los modelos es costoso. La GPU H100 de Nvidia, una opción popular para los LLM, se ha estado vendiendo en el mercado secundario por alrededor de 40.000 dólares por chip. Una fuente estimó que se necesitarían aproximadamente 6.000 chips para entrenar un LLM comparable a ChatGPT-3.5. Eso es aproximadamente 240 millones de dólares sólo en GPU.

Otro gasto importante es alimentar esos chips. Se estima que simplemente entrenar un modelo requiere alrededor de 10 gigavatios-hora (GWh) de energía, equivalente al uso eléctrico anual de 1.000 hogares estadounidenses. Una vez entrenado el modelo, su costo de electricidad variará pero puede llegar a ser exorbitante. Esa fuente estimó que el consumo de energía para hacer funcionar ChatGPT-3.5 es de aproximadamente 1 GWh por día, o el uso diario combinado de energía de 33.000 hogares.

El consumo de energía también puede ser un obstáculo potencial para la experiencia del usuario cuando ejecuta LLM en dispositivos portátiles. Esto se debe a que el uso intensivo de un dispositivo podría agotar su batería muy rápidamente, lo que sería una barrera importante para la adopción por parte de los consumidores.



Source link-48