Si cree que FLAC es el amigo del audiófilo cuando se trata de archivos de música sin pérdidas, un modelo de lenguaje grande (LLM) tiene noticias para usted, ya que ahora también reclama la compresión como parte del creciente ámbito de influencia de la IA.
Un estudio titulado «El modelado del lenguaje es compresión» (a través de ArsTechnica) analiza un hallazgo sobre un LLM de DeepMind llamado Chinchilla 70B y su capacidad para realizar una compresión de datos sin pérdidas mejor que FLAC para audio y PNG para imágenes.
Chinchilla 70B podría reducir significativamente el tamaño de los parches de imágenes de la base de datos ImageNet, reduciéndolos a sólo el 43,4% de su tamaño original sin perder ningún detalle. Este rendimiento es mejor que el algoritmo PNG, que sólo pudo reducir el tamaño de las imágenes al 58,5%.
Además, Chinchilla comprime los datos de audio de LibriSpeech a sólo el 16,4% de su tamaño real para archivos de sonido. Esto es impresionante, especialmente comparado con la compresión FLAC, que sólo pudo reducir el tamaño del audio al 30,3%.
La compresión sin pérdidas significa que no se pierde ni se omite nada cuando los datos se comprimen en paquetes más pequeños. Esto difiere de la compresión con pérdida, que es lo que utiliza el formato de compresión de imágenes JPEG. Eso elimina algunos datos y luego adivina cómo debería verse cuando abres el archivo nuevamente, todo para hacer que el tamaño del archivo sea mucho más pequeño.
Los hallazgos del estudio muestran que, aunque Chinchilla 70B fue diseñada principalmente para trabajar con texto, también es sorprendentemente hábil para hacer otros tipos de datos mucho más pequeños. Y, a menudo, es mejor que los programas diseñados específicamente para hacerlo.
Los investigadores del estudio sugieren que predecir y comprimir datos va en ambos sentidos. Esto significa que si tiene una buena herramienta para reducir el tamaño de los datos, como gzip, también puede utilizarla para crear nueva información basada en lo que aprendió durante todo el proceso de reducción del tamaño de los datos.
En una parte de su investigación, probaron esta idea intentando crear texto, imágenes y sonido nuevos usando gzip y otra herramienta, Chinchilla, después de darles una muestra de datos. Como era de esperar, gzip no funcionó muy bien y generó en su mayoría tonterías.
Esto muestra que, si bien gzip puede crear datos, es posible que esos datos deban ser más significativos. Por otro lado, Chinchilla, que está diseñada específicamente para procesar el lenguaje, obtuvo resultados mucho mejores en la creación de resultados nuevos y significativos.
Hace casi 20 años, los investigadores argumentaron que la compresión era una forma de inteligencia general y dijeron que «la compresión de texto ideal, si fuera posible, equivaldría a pasar la prueba de Turing para inteligencia artificial».
Sin embargo, como señala ArsTechnica, este artículo aún no ha sido revisado por pares. La idea de que reducir el tamaño de los datos está relacionado con la inteligencia es un tema del que probablemente seguiremos escuchando en el futuro. Todavía estamos apenas arañando la superficie de lo que estos LLM pueden hacer.