El idioma que está utilizando para un modelo de idioma grande (LLM) puede tener un gran efecto en su costo y crear una división de IA entre los angloparlantes y el resto del mundo. Un estudio reciente muestra que, debido a la forma en que los servicios como OpenAI miden y facturan los costos del servidor, las entradas y salidas en inglés son mucho más baratas que las de otros idiomas. El chino simplificado cuesta aproximadamente el doble y el español cuesta 1,5 veces más. y el idioma Shan va por 15 veces más.
El usuario de Twitter Dylan Patel (@dlan522p) compartió una fotografía que conduce a una investigación realizada por la Universidad de Oxford que descubrió que pedirle a un LLM que procese una oración escrita en birmano cuesta 198 tokens, mientras que la misma oración en inglés cuesta solo 17 tokens. Tokens que representan el costo de poder de cómputo de acceder a un LLM a través de una API (como ChatGPT de OpenAI o Claude 2 de Anthropic), esto significa que la oración en birmano cuesta 11 veces más a través del servicio que la escrita en inglés.
El costo de la inferencia LLM varía enormemente según el idioma para GPT-4 y la mayoría de los otros LLM comunes. El inglés es el más barato. El chino es 2 veces más inglés. Los idiomas como Shan + Birmano son 15 veces más caros. necesito generar más tokens pic.twitter.com/Y7De09pb4w28 de julio de 2023
El modelo de tokenización (en el que las empresas de inteligencia artificial convierten la entrada del usuario en costo computacional) significa que, en un mundo menos que ideal, los modelos a los que se accede fuera de la ventana del idioma inglés son mucho más costosos para acceder y capacitarse. Esto se debe a que los idiomas como el chino tienen una estructura diferente y más compleja (ya sea gramaticalmente o por el número de caracteres) que el inglés, lo que da como resultado una mayor tasa de tokenización.
Por ejemplo, según el tokenizador GPT3 de OpenAI, dar a alguien una muestra de «tu afecto» sería solo dos tokens en inglés pero ocho tokens en chino simplificado. Esto es cierto a pesar de que el texto en chino simplificado tiene solo 4 caracteres (你的爱意) y el inglés tiene 14 caracteres. La página Equidad de tokenización de Aleksandar Petrov et al tiene una serie de gráficos y herramientas que puede usar para ver la disparidad entre idiomas.
OpenAI en sí tiene una página bastante útil que explica cómo monetiza el acceso a la API y el uso de su modelo ChatGPT, que incluso incluye acceso a una herramienta de tokenización que puede usar para probar el costo del token por aviso. Allí, vemos que 1 token tiene alrededor de 4 caracteres en inglés y que 100 tokens serían alrededor de 75 palabras en inglés. Pero esa matemática simplemente no se puede aplicar a ningún otro idioma, como lo expresa claramente OpenAI.
Realmente no hay competencia contra la rentabilidad del inglés en los costos relacionados con la IA; El chino, por ejemplo, cuesta el doble que el inglés en términos de tokens requeridos por salida. Pero es simplemente un reflejo de los datos de entrenamiento disponibles que las empresas de IA han utilizado (hasta ahora) para entrenar sus modelos. Si hay algo que la explosión de la IA ha hecho por el mundo es mostrar cuán valiosos son realmente los datos emergentes de alta calidad (aquellos que se crean como un registro de la vida).
Este problema se vincula directamente con el deseo de las empresas de IA de lograr un entrenamiento recursivo, o la capacidad de entrenar modelos de IA en sus propios resultados. Si eso se logra, los modelos futuros seguirán mostrando la misma rentabilidad del inglés en comparación con otros idiomas cuya complejidad y disponibilidad más limitada de datos básicos de capacitación. Y cuando eso sucede, no es solo este círculo vicioso de intolerancia algorítmica con el que tenemos que lidiar: también es que, por ahora, la investigación apunta a que las redes de IA se vuelven LOCAS cuando se entrenan más de cinco veces con sus propios resultados (datos sintéticos).
Para complicar aún más el problema, parece que otras formas de cuantificar los costos (aparte de la tokenización) terminarían encontrando los mismos problemas. Ya sea a través del conteo de bits o de caracteres, aparentemente ningún idioma puede superar la practicidad pragmática del inglés: aún presentaría costos más bajos debido a su «compresibilidad» inherentemente más alta en un conteo de tokens más bajo.
Eso significa que el problema no está en la forma en que se monetizaron los modelos; es una limitación real de la tecnología y los modelos base considerados para el entrenamiento. Y no debería sorprendernos saber que el problema afecta a varios modelos de idioma en sus versiones. Después de todo, todos están construidos en su mayoría de la misma manera.
Este problema parece predecible si consideramos que las empresas que realmente están introduciendo Modelos de lenguaje extenso (como ChatGPT) o redes de imágenes generativas (como Midjourney) tienen su sede principalmente en Estados Unidos. Los costos de uso más bajos y la mayor disponibilidad de datos de calidad vienen con el territorio, en cierto modo.
Esta diferencia de costos ya ha llevado a varios países a lanzar sus propias iniciativas para capacitar e implementar un LLM en el idioma nativo. Tanto China como India lo han hecho, y ambos afirmaron lo mismo: que sus planes eran necesarios para acompañar el ritmo de innovación permitido por las redes de IA basadas en inglés. Y esa tasa está mayormente limitada por los costos de acceso y capacitación.
Es natural que todo el mundo busque pagar lo menos posible por lo máximo posible; y estas dinámicas afectan directamente el costo de la capacitación y el despliegue de LLM según el idioma base. Es casi como si este negocio de la IA fuera tan complejo y sus consecuencias de tan largo alcance que tenemos que tener mucho cuidado con cada pequeño paso que damos.