Los LASER de Microsoft eliminan las imprecisiones del LLM


durante el enero Foro de investigación de MicrosoftDipendra Misra, investigadora senior de Microsoft Research Lab NYC y AI Frontiers, explicó cómo la reducción de rango selectiva por capas (o LASER) puede hacer que los modelos de lenguaje grandes sean más precisos.

Con LASER, los investigadores pueden «intervenir» y reemplazar una matriz de peso por otra aproximadamente más pequeña. Los pesos son las conexiones contextuales que hacen los modelos. Cuanto mayor es el peso, más depende del modelo. Entonces, ¿reemplazar algo con más correlaciones y contextos hace que el modelo sea menos preciso? Según los resultados de sus pruebas, la respuesta, sorprendentemente, es no.

“Estamos haciendo una intervención usando LASER en el LLM, por lo que uno esperaría que la pérdida del modelo aumentara a medida que hacemos más aproximaciones, lo que significa que el modelo funcionará mal, cierto, porque estamos desechando información de un LLM. , que está entrenado con grandes cantidades de datos”, dijo Misra. «Pero, para nuestra sorpresa, descubrimos que si se realiza el tipo correcto de intervención LÁSER, la pérdida del modelo no aumenta sino que en realidad disminuye».

Misra dijo que su equipo utilizó LASER con éxito en tres modelos diferentes de código abierto: RoBERTa, Llama 2 y GPT-J de Eleuther. Dijo que, en ocasiones, la mejora del modelo aumentaba entre 20 y 30 puntos porcentuales. Por ejemplo, el rendimiento de GPT-J para la predicción de género basada en biografías pasó del 70,9 por ciento de precisión al 97,5 por ciento después de una intervención LÁSER.



Source link-37