Parece que las empresas de IA, incluidas Microsoft, OpenAI y Cohere, están haciendo todo lo posible para encontrar datos sintéticos con los que entrenar sus productos de IA. Citando la disponibilidad limitada de datos «orgánicos» generados por humanos en la red mundial, estas empresas tienen como objetivo utilizar datos (sintéticos) generados por IA en una especie de ciclo infinito, donde el entrenamiento se logra con datos que ya se han creado de forma generativa.
“Si pudiera obtener todos los datos que necesita de la web, eso sería fantástico”, dijo Aidan Gomez, director ejecutivo de Cohere, la empresa emergente LLM de $ 2 mil millones, al Financial Times. “En realidad, la web es tan ruidosa y desordenada que no es realmente representativa de los datos que desea. La web simplemente no hace todo lo que necesitamos”.
Y también está la cuestión del costo, ya que los datos generados por humanos, según Gómez, son «extremadamente costosos». Esto ya ha llevado a la fundación de algunas empresas de «datos sintéticos», como Gretel.ai, que se especializa en producir conjuntos de datos sintéticos que luego se venden con fines de capacitación.
El problema de la disponibilidad y procedencia de los datos es uno de los mayores factores limitantes en nuestra era actual de IA. Hoy en día, existen riesgos reales al entrenar redes de IA con datos sintéticos que ya han sido «masticados» y generados por las propias IA. Por un lado, está el problema de agravar las deficiencias en los datos de entrenamiento base: si el conjunto de datos de entrenamiento no sintético original ya sufría sesgos, esos mismos sesgos se incluirán, digerirán y amplificarán en iteraciones de entrenamiento posteriores, lo que aumentará su relevancia.
Pero otro problema, quizás mucho más impactante, se deriva de un límite descubierto recientemente: la calidad de salida se degrada severamente después de cinco rondas de entrenamiento en datos sintéticos generados por IA. Si esta condición «MAD» presenta un límite blando o duro para el entrenamiento de IA parece una pregunta en el corazón de la intención de Microsoft y OpenAI de entrenar recursivamente sus redes de IA. Sin embargo, este es un espacio que probablemente verá una ráfaga de estudios; Microsoft Research, por ejemplo, ha publicado artículos sobre historias cortas generadas recursivamente (lo que significa que un modelo fue entrenado en historias generadas por otro modelo) y una red de IA de codificación que fue entrenada en documentación generada por IA en torno a la programación de Python. La verificación de los riesgos de la degeneración de datos en estos y otros modelos de mayor tamaño (como el Llama 2 de 70B-parámetro, lanzado recientemente al código abierto por Meta) será clave para saber hasta dónde (y qué tan rápido) evolucionará la IA en el futuro previsible.
Con las empresas orientadas a la IA que claman por más y más datos, tiene sentido que intenten generar conjuntos de datos de alta calidad de forma recursiva. Esto se puede hacer de varias maneras, pero quizás la que tiene la mayor probabilidad de éxito proviene simplemente de permitir que dos redes de IA interactúen entre sí, una de las cuales asume el papel de tutor y la otra asume el papel de estudiante. Sin embargo, la intervención humana sería (y siempre será) necesaria para seleccionar puntos de datos de menor calidad y controlar las «alucinaciones» (afirmaciones de IA que no son verdaderas).
Hay algunos obstáculos en el camino hacia el sueño tecnocrático de una IA autodidacta y autodidacta; modelos que pueden tener discusiones internas, descubrimientos internos y que producen nuevos conocimientos que no se limitan a mezclar y combinar (aunque, después de todo, ese es uno de los sellos distintivos de la producción creativa).
Eso sí, hay que tener en cuenta que no todos los sueños son agradables. Ya tenemos problemas para lidiar con las pesadillas inducidas por humanos; no se sabe cuán impactantes pueden ser las «pesadillas» de una máquina.