Intel detalla el funcionamiento interno de XeSS


Intel lanzó un video explicativo de su próxima tecnología de mejora XeSS AI y mostró cómo funciona la tecnología en sus GPU Arc Alchemist casi listas para su lanzamiento público. Usó el Arc A770 más rápido para las demostraciones, aunque es difícil decir cómo se comparará el rendimiento con las mejores tarjetas gráficas según los detalles de rendimiento limitado que se muestran.

Si está familiarizado con el DLSS de Nvidia, que ha existido durante cuatro años en varias encarnaciones, el video debería despertar una aguda sensación de Deja Vu. Tom Petersen, quien anteriormente trabajó para Nvidia y realizó algunas de las presentaciones antiguas de DLSS, explica los fundamentos de XeSS. Para resumir, XeSS se parece mucho a una versión reflejada de DLSS de Nvidia, excepto que está diseñado para funcionar con los núcleos XMX de aprendizaje profundo de Intel en lugar de los núcleos tensoriales de Nvidia. Sin embargo, la tecnología también puede funcionar con otras GPU utilizando el modo DP4a, lo que podría convertirla en una alternativa interesante al escalador FSR 2.0 de AMD.

En las demostraciones mostradas por Intel, XeSS parecía estar funcionando bien. Por supuesto, es difícil decir con certeza cuándo el video de origen es una versión comprimida de 1080p del contenido real, pero guardaremos las comparaciones detalladas de calidad de imagen para otro momento. Las ganancias de rendimiento parecen ser similares a las que hemos visto con DLSS, con un aumento de la velocidad de fotogramas de más del 100 % en algunas situaciones cuando se usa el modo XeSS Performance.

Cómo funciona

Si ya sabe cómo funciona DLSS, la solución de Intel es prácticamente la misma, pero con algunos ajustes menores. XeSS es un algoritmo de mejora de resolución acelerado por IA, diseñado para aumentar la velocidad de fotogramas en los videojuegos.

Comienza con el entrenamiento, el primer paso en la mayoría de los algoritmos de aprendizaje profundo. La red de IA toma fotogramas de muestra de menor resolución de un juego y los procesa, generando lo que deberían ser imágenes de salida mejoradas. Luego, la red compara los resultados con la imagen de destino deseada y propaga hacia atrás los ajustes de peso para tratar de corregir cualquier «error». Al principio, las imágenes resultantes no se verán muy bien, pero el algoritmo de IA aprende lentamente de sus errores. Después de miles (o más) de imágenes de entrenamiento, la red finalmente converge hacia los pesos ideales que generarán «mágicamente» los resultados deseados.

Una vez que el algoritmo se ha entrenado completamente, utilizando muestras de muchos juegos diferentes, en teoría puede tomar cualquier entrada de imagen de cualquier videojuego y mejorarla casi perfectamente. Al igual que con DLSS (y FSR 2.0), el algoritmo XeSS también asume la función de suavizado y reemplaza soluciones clásicas como AA temporal.

(Crédito de la imagen: Intel)

Nuevamente, nada hasta ahora es particularmente digno de mención. DLSS y FSR 2.0 e incluso los algoritmos AA temporales estándar tienen muchas de las mismas funciones básicas, menos las cosas de IA para FSR y TAA. Los juegos integrarán XeSS en su proceso de renderizado, generalmente después de que se hayan realizado el renderizado principal y los efectos iniciales, pero antes de que se dibujen los efectos de posprocesamiento y los elementos GUI/HUD. De esa manera, la interfaz de usuario se mantiene nítida mientras que la difícil tarea de la representación 3D se ejecuta a una resolución más baja.

XeSS opera en los núcleos Arc XMX de Intel, pero también puede ejecutarse en otras GPU en un modo ligeramente diferente. Las instrucciones DP4a son básicamente cuatro cálculos INT8 (entero de 8 bits) realizados con un solo registro de 32 bits, a lo que normalmente tendría acceso a través de un núcleo GPU shader. Mientras tanto, los núcleos XMX admiten de forma nativa INT8 y pueden operar en 128 valores a la vez.

Eso puede parecer muy desequilibrado, pero como ejemplo, un Arc A380 tiene 1024 núcleos de sombreado que podrían realizar cuatro operaciones INT8 al mismo tiempo. Alternativamente, el A380 tiene 128 unidades MXM que pueden realizar 128 operaciones INT8 cada una. Eso hace que el rendimiento MXM sea cuatro veces más rápido que el rendimiento DP4a, pero aparentemente el modo DP4a aún debería ser suficiente para cierto nivel de bondad XeSS.

Tenga en cuenta que DP4a parece usar un diferente red entrenada, una que es quizás menos intensiva computacionalmente. Queda por ver cómo se traducirá eso en rendimiento y calidad de imagen en el mundo real, y parece que los desarrolladores de juegos deberán incluir explícitamente soporte para los modos XMX y DP4a si quieren admitir GPU que no sean Arc.

Expectativas de rendimiento de Intel XeSS



Source link-41