https://www.tomshardware.com/pc-compone ... 80-percentBENCHMARKING DE NVIDIA'S RTX NEURAL TEXTURE COMPRESSION, LA TECNOLOGÍA QUE PUEDE REDUCIR EL USO DE VRAM POR ENCIMA DEL 80%Pusimos a prueba la compresión de texturas neuronales RTX con varias GPU y en un ordenador portátil.
Hoy vamos a realizar pruebas comparativas y analizar una de las nuevas tecnologías más interesantes que Nvidia está desarrollando: RTX Neural Texture Compression (NTC), una tecnología basada en IA que utiliza Tensor Cores para comprimir y descomprimir datos, reduciendo así los requisitos de VRAM hasta en un 80 %.
Cuando Nvidia presentó las tarjetas gráficas de la serie RTX 50, también anunció varias tecnologías de renderizado neuronal junto con esas GPU. Estas tecnologías mejoran la representación de los materiales, proporcionan una compresión más eficiente de las texturas y aumentan la calidad de la luz indirecta mediante rayos trazados por inferencia.
Todo esto forma parte de un nuevo paradigma para gráficos en tiempo real llamado sombreado neuronal, que permite entrenar parte del pipeline gráfico. Se ejecutan pequeñas redes neuronales dentro de los sombreadores, que trabajan conjuntamente con el resto del motor de renderizado y son aceleradas por hardware mediante vectores cooperativos para lograr un rendimiento eficiente en tiempo real.
En lugar de tener que escribir código de sombreado complejo, los desarrolladores pueden entrenar modelos de IA para estimar el resultado que habría calculado dicho código. Este enfoque permite abordar desafíos de renderizado difíciles de resolver con métodos tradicionales.
Hoy nos centraremos en una de estas tecnologías en particular: la compresión de texturas neuronales RTX. Explicaremos cómo funciona NTC, realizaremos pruebas de rendimiento en varias GPU y compartiremos algunas ideas de Alexey Panteleev, ingeniero de desarrollo de tecnología de Nvidia y desarrollador de NTC.
¿QUÉ ES LA COMPRESIÓN DE TEXTURAS NEURONALES RTX?RTX Neural Texture Compression (NTC) es un método de compresión y descompresión de texturas basado en aprendizaje automático. En DirectX 12, puede ejecutarse en tres modos diferentes: Inferencia al cargar, Inferencia al muestrear e Inferencia al recibir retroalimentación. En Vulkan , la Inferencia al recibir retroalimentación no es compatible, por lo que los únicos dos modos disponibles son Inferencia al cargar e Inferencia al muestrear.
La fase de compresión consiste en transformar las texturas originales en una combinación de pesos para una pequeña red neuronal y características latentes. En el modo de inferencia sobre muestra, la fase de descompresión consiste en leer los datos latentes y realizar una operación de inferencia pasándolos a través de una pequeña red de perceptrón multicapa (MLP) cuyos pesos se determinaron durante la fase de compresión. Cada texel se descomprime cuando es necesario. NTC es determinista; no es generativo.
Para reducir los artefactos visuales, se utiliza el filtrado de texturas estocástico (STF) para introducir aleatoriedad y obtener texturas filtradas. Las GPU Blackwell ofrecen una mejora de 2x en la tasa de filtrado de texturas por muestreo puntual, por lo que el proceso es especialmente rápido en estas tarjetas gráficas.
La técnica de descompresión mencionada se conoce como Inferencia sobre Muestra, que es lo que la mayoría de la gente piensa cuando se habla de compresión de texturas neuronales. Ofrece la mayor reducción en el consumo de VRAM, pero puede resultar poco práctica para algunas GPU debido a su impacto en el rendimiento. Por suerte, también existen soluciones para hardware de gama baja.
La inferencia bajo carga descomprime las texturas NTC durante la carga del juego o mapa y las transcodifica a formatos comprimidos por bloques (BCn) simultáneamente. La descompresión se realiza completamente en la GPU. En la práctica, esto mantiene el mismo rendimiento que las texturas comprimidas por bloques, por lo que no hay penalización de rendimiento como ocurre con la inferencia bajo muestreo. Además, reduce significativamente el espacio que ocupan las texturas en el disco y disminuye el tráfico PCIe. La desventaja es que no reduce el uso de VRAM en comparación con las texturas comprimidas por bloques.
La inferencia basada en retroalimentación utiliza la retroalimentación del muestreador y descomprime únicamente el conjunto de mosaicos de textura necesarios para renderizar la vista actual. Este modo ofrece un punto intermedio entre los dos modos anteriores. Proporciona una gran reducción en el uso de VRAM, aunque no al mismo nivel que la inferencia basada en muestra. Esto se debe a que la retroalimentación del muestreador requiere una asignación adicional de memoria dinámica. Su rendimiento suele estar entre el de la inferencia basada en carga y el de la inferencia basada en muestra.
Gracias a las extensiones de vectores cooperativos para Vulkan y Direct3D 12, los sombreadores de píxeles pueden aprovechar la aceleración por hardware mediante unidades de aceleración de IA en las GPU modernas (Nvidia Tensor Cores, AMD AI Accelerators o motores Intel XMX). Esto permite a NTC sacar partido de esta aceleración por hardware para lograr una mejora significativa en el rendimiento de la inferencia.
¿POR QUÉ UTILIZAR COMPRESIÓN DE TEXTURAS NEURONALES?La compresión de textura neuronal logra índices de compresión más altos que otros formatos como BCn. Además, admite materiales con un alto número de canales, ya que procesa hasta 16 canales simultáneamente. La compresión por bloques solo procesa imágenes de 1 a 4 canales.
Los datos que se muestran a continuación se obtuvieron al ejecutar el ejemplo de compresión de texturas neuronales RTX en GitHub con la escena base Intel Sponza y el paquete Colorful Curtains (consulte los detalles de nuestro sistema de prueba más abajo para obtener información sobre la configuración).

En comparación con NTC Inference on Load, que transcodifica las texturas a un formato comprimido por bloques para la memoria de trabajo, se puede observar que Inference on Sample ofrece una enorme reducción del 85 % en la memoria de textura necesaria.
La inferencia basada en muestras no solo reduce drásticamente el consumo de VRAM, sino que, como se puede observar a continuación, genera una imagen más cercana a la de referencia que las texturas transcodificadas con BCn. Las texturas en el modo de inferencia basada en muestras son prácticamente idénticas a las texturas de referencia.
Sin embargo, no está exento de problemas. Las imágenes anteriores se tomaron con DLSS activado. El filtrado de textura estocástico (STF) se utiliza para obtener texturas filtradas en NTC mediante la introducción de aleatoriedad. Como resultado, activar STF sin utilizar ningún tipo de suavizado de bordes puede producir una imagen con mucho ruido. Este ruido se elimina por completo con DLSS. TAA limpia la imagen en gran medida, pero no del todo. El modo de inferencia en muestra requiere el uso de STF, por lo que no se puede desactivar. Por lo tanto, este modo requiere el uso de suavizado de bordes, preferiblemente DLSS, para obtener los mejores resultados.
El año pasado, durante una presentación sobre la compresión de texturas neuronales RTX en Vulkanised 2025, Nvidia explicó que, además de reducir la memoria de texturas, la NTC también se puede utilizar para proporcionar una calidad de textura drásticamente superior incluso con las mismas limitaciones de memoria.

En la escena anterior, se utiliza la misma cantidad de VRAM tanto para BCn como para NTC, pero NTC logra conservar significativamente más detalles de textura y fidelidad visual. A continuación, analizaremos las pruebas de rendimiento, pero no olvides leer más abajo para obtener información adicional sobre NTC proporcionada por un técnico de Nvidia.
¿QUÉ TAL FUNCIONA?Las ventajas de esta tecnología son evidentes, pero ¿cómo se comporta en la práctica? Analizaremos varias GPU y cómo gestionan la compresión de texturas neuronales (NTC) en el ejemplo RTX Neural Texture Compression disponible en GitHub.
La inferencia en carga transcodifica las texturas NTC a BCn durante la carga del juego o mapa, por lo que no genera sobrecarga de rendimiento en comparación con la compresión por bloques. Por otro lado, la inferencia en muestreo conlleva una pérdida de rendimiento en todas las GPU, ya que realiza la decodificación neuronal sobre la marcha durante el muestreo. Idealmente, esta pérdida de rendimiento debería ser mínima para que resulte práctica.
La muestra se probará utilizando la escena base Intel Sponza con el paquete Colorful Curtains para simular una carga de trabajo de juego más exigente que la del modelo predeterminado. Sin embargo, es importante destacar que, si bien la escena base Intel Sponza es más realista que el modelo predeterminado, la muestra aún cuenta únicamente con un pase hacia adelante básico y TAA/DLSS.
Un juego tendrá muchas más pasadas de renderizado que esta, y la mayoría de ellas no se verán afectadas por NTC. Por lo tanto, el coste relativo de tiempo de fotograma en un juego real puede ser menor que el que experimentamos en esta muestra. Esta es también la razón por la que medimos el rendimiento en términos de tiempo de fotograma. Dado que la mayoría de las demás pasadas de renderizado en un juego pueden no verse afectadas por NTC, la cantidad de milisegundos que añade en esta muestra podría darnos una mejor idea del coste absoluto de tiempo de fotograma en un juego real.
Las pruebas de rendimiento se centrarán en la resolución más adecuada para cada GPU.
La implementación de vectores cooperativos en DirectX 12 requiere Microsoft DirectX 12 Agility SDK 1.717.x-preview y el controlador para desarrolladores de Nvidia 590.26 para la funcionalidad de Shader Model 6.9. Por lo tanto, utilizamos este controlador para todos los escenarios probados a lo largo del artículo.
La función NTC on Feedback solo está disponible en DirectX 12 debido a la falta de un equivalente en Vulkan para DirectX 12 Sampler Feedback.
-Sistema de prueba
-AMD Ryzen 7 9800X3D
-64 GB (2 x 32 GB) G.Skill Flare X5 DDR5 a 6200 MHz CL30
-SSD Crucial T700 Gen5
-Asus ROG STRIX B850-F Gaming WiFi
-Refrigerador todo en uno Corsair Nautilus 360 RS
-HAGS habilitado
-Windows 11 25H2 (Compilación 26200.8117)
-Controlador para desarrolladores de Nvidia 590.26
-----------------------
La RTX 5090 es la primera en aparecer, y como se puede observar, incluso a 4K, el coste en tiempo de fotograma de Inferencia en Muestra con TAA es bastante bajo en comparación con las texturas transcodificadas BC en Inferencia en Carga. Habilitar DLSS supone un coste adicional, ya que exige más a los núcleos Tensor. Sin embargo, en un juego real con más pasadas de renderizado y mucha más acción en pantalla, el rendimiento debería seguir beneficiándose del renderizado a una resolución menor gracias al uso de DLSS.
-----------------------
En la RTX 5070 a 1440p, el coste del modo Inferencia en Muestra, comparado con las texturas transcodificadas con BCn, oscila entre 0,50 y 0,70 ms, según el escenario. La diferencia es inferior a 1 ms. Cabe destacar que los juegos reales implican muchas más pasadas de renderizado (no todas afectadas por NTC) y suelen tener tiempos de fotograma totales significativamente mayores que los de esta muestra. Por consiguiente, el coste de rendimiento relativo de NTC probablemente sea mucho más aceptable en la práctica.
A 4K, el coste es de aproximadamente 1,20 ms.
-----------------------
En la RTX 5060 a 1080p, el coste de rendimiento de la inferencia en muestras oscila entre 0,60 y 0,70 ms, dependiendo del escenario. A una resolución adecuada para esta GPU, volvemos a estar dentro de 1 ms.
Sin embargo, la 5060 tiene dificultades con resoluciones más altas. A 1440p, el tiempo de respuesta supera 1 ms, y a 4K, se acerca a los 2 ms, aunque esto es de esperar para una GPU de este nivel.
Ahora veamos un sistema de gama baja: un portátil con una GPU móvil RTX 4060.
Sistema de prueba móvilTarjeta gráfica para portátil RTX 4060
Intel Core i7-13620H
SSD Gen4
16 GB DDR5
HAGS habilitado
Windows 11 25H2 (Compilación 26200.8117)
Controlador para desarrolladores de Nvidia 590.26

El coste de rendimiento del modo de inferencia por muestra a 1080p en la GPU 4060 para portátiles es de aproximadamente 0,70-0,85, dependiendo del escenario.
El coste de la 4060 se acerca a 1 ms. Aún podría haber situaciones en las que la 4060, con su memoria intermedia de 8 GB, se beneficie de la inferencia por muestreo. Si la VRAM es la principal limitación, entonces podría valer la pena usar este modo. Como menciona Alexey Panteleev más adelante, si un juego te obliga a reducir la calidad de las texturas porque de otro modo no cabrían en la VRAM, pero el juego funciona con suficiente fluidez al hacerlo, entonces la inferencia por muestreo podría resultar beneficiosa.
INFORMACIÓN DE UN DESARROLLADOR DE COMPRESIÓN DE TEXTURAS NEURONALES EN NVIDIACuando subí un par de videos de NTC al canal de YouTube de Compusemble en octubre de 2025, Alexey Panteleev, ingeniero de DevTech distinguido en Nvidia y desarrollador de NTC, se unió generosamente a la sección de comentarios. Compartió información adicional y respondió preguntas de los espectadores.
¿Qué GPU se recomiendan para cada modo?Alexey Panteleev: La inferencia en muestras solo es viable en las GPU más rápidas, y por eso también ofrecemos el modo de inferencia bajo carga, que transcodifica a BCn y solo proporciona una reducción del tamaño del disco o del tamaño de descarga, no beneficios de VRAM.
La velocidad de una GPU para realizar inferencias sobre muestras depende principalmente de la implementación específica del juego. Por ejemplo, si se utilizan texturas de materiales en alguna pasada además del búfer G, la complejidad del modelo de materiales y el tamaño de los sombreadores, etc. Estamos trabajando para mejorar la eficiencia de la inferencia.
¿Cómo se podría implementar NTC en los juegos para garantizar una buena experiencia para todos?Alexey Panteleev: Nuestra idea es que los juegos incluyan texturas NTC y ofrezcan la opción de seleccionar el modo de carga/retroalimentación frente a la opción de muestreo. Los usuarios podrían elegir la que prefieran según el rendimiento del juego en su equipo. Creo que la regla general sería: si un juego te obliga a bajar la calidad de las texturas porque, de lo contrario, no caben en la VRAM, pero al hacerlo funciona con suficiente fluidez, entonces debería ser un buen candidato para la opción NTC de muestreo.
Otro aspecto importante: los juegos no tienen por qué usar NTC en todas sus texturas; puede ser una decisión que se tome para cada textura individualmente. Por ejemplo, si una textura sufre una pérdida de calidad inaceptable, se puede mantener como una textura sin NTC. O si una textura se usa por separado de otras texturas en un material, como un mapa de desplazamiento, probablemente debería mantenerse como una textura independiente sin NTC.
¿Cómo se comportaría NTC en un juego real en comparación con su rendimiento en la muestra?Alexey Panteleev: El modo On Sample es notablemente más lento que On Load, que no tiene costo en el tiempo de renderizado. Sin embargo, tenga en cuenta que un juego real tendría muchos más pases de renderizado que solo el pase directo básico y TAA/DLSS que tenemos aquí, y la mayoría de ellos no se verían afectados, lo que hace que la diferencia general en el tiempo de fotograma no sea tan grande. La diferencia de rendimiento relativa entre On Load y On Sample dentro de la misma familia de GPU debería ser similar. Si una GPU se queda sin VRAM, On Load no ayudaría en absoluto, porque no reduce el tamaño del conjunto de trabajo, y las cargas a través de PCIe solo ocurren cuando se transmiten nuevas texturas o mosaicos.
Sobre el efecto del filtrado de textura estocástico (STF) en la imagenCuando se publicó la muestra NTC el año pasado, algunos usuarios notaron que la imagen presentaba mucho ruido al desactivar el suavizado de bordes (anti-aliasing). Este ruido se eliminó por completo al usar DLSS y, en gran medida, al usar TAA, aunque no del todo. Esto se debe al uso de STF. Al desactivar STF, ya no se observó ruido en la imagen con el suavizado de bordes desactivado. Sin embargo, STF es necesario para la inferencia en la muestra.
Alexey Panteleev: Cabe destacar que el filtrado estocástico de texturas (STF) influye significativamente en el aspecto de elementos con reflejos especulares detallados, como las cortinas. En los modos Referencia y Carga, se puede activar o desactivar el STF, pero no en el modo Muestra, ya que este último requiere STF y siempre está activado. El STF está activado por defecto en todos los modos para facilitar la comparación.
UN VISTAZO AL FUTURO DEL RENDERIZADOLa muestra analizada aquí ofrece una visión fascinante del futuro de la renderización de gráficos. La compresión de texturas neuronales (NTC) puede ofrecer índices de compresión extremadamente altos sin sacrificar la calidad de la imagen y, de hecho, parece ofrecer una mejor calidad de imagen que los formatos comprimidos por bloques en algunos casos.
Resulta muy impresionante que el modo de inferencia sobre muestra produjera una calidad de imagen ligeramente superior a la de las texturas transcodificadas BCn en la escena base de Intel Sponza, al tiempo que reducía la memoria de texturas en un 85 %. El modo de inferencia sobre muestra se ajustó casi a la perfección a los materiales de referencia (sin comprimir).
Dicho esto, aún quedan algunas salvedades. El filtrado de textura estocástico (STF) introduce ruido visible cuando el suavizado de bordes está completamente desactivado, y puede aparecer algo de ruido residual incluso al usar el suavizado de bordes temporal (TAA). Actualmente, NTC requiere que DLSS ofrezca su mejor rendimiento al usar STF, lo cual es obligatorio para la inferencia en muestras.
También destacó la compatibilidad de esta tecnología con una amplia gama de GPU. Los desarrolladores pueden comprimir texturas usando NTC, pero también ofrecen un modo de inferencia bajo carga, que transcodifica las texturas NTC a BCn durante la carga del juego o mapa. Si bien esto no reduce el uso de VRAM, no afecta el rendimiento y disminuye considerablemente el espacio que ocupan los juegos en disco. La tecnología también es compatible con GPU de AMD e Intel.
La compresión de texturas neuronales está llamada a desempeñar un papel crucial en el futuro de los gráficos en tiempo real, y será emocionante ver cómo evoluciona y madura con el tiempo.