Quiero corregir algo en el artículo. Afirman que el rendimiento de ray tracing de Switch 2 es "10 gigarayos por segundo, duplicándose hasta 20 gigarayos cuando está acoplada". No aclaran lo que eso significa (aunque encuentran tiempo para un comentario sobre no ver efectos RT en uso, a pesar de la existencia de Star Wars Outlaws), pero no puede ser correcto ni como cifra de rendimiento del mundo real ni como máximo teórico de pruebas de intersección rayo-triángulo u otras operaciones. Sería absolutamente descabellado si fuera cierto, ya que la medición de rendimiento en el mundo real de Nvidia para la RTX 2080 Ti de 68 SM y 1,55 GHz era de 10+ gigarayos por segundo, pero lamentablemente no es así. Y no puede ser un número teórico o máximo, como el rendimiento de intersección rayo-triángulo o similar, porque el valor no tiene sentido para eso.
El valor indicado en la documentación es "1,66 rayos/ciclo". Digital Foundry asumió erróneamente que este es un número por núcleo, y por lo tanto multiplicó por 12, y luego por 0,561 o 1,007 para las velocidades de reloj, para obtener sus supuestos 10 o 20 gigarayos por segundo. No es un número por núcleo, pero la parte realmente inexcusable es simplemente imprimir el resultado de este cálculo cuando claramente no tienen idea de lo que significaría. O bien necesitas investigar y descubrir qué significa el número para poder explicarlo, o dejarlo fuera de tu artículo. Pero, bueno, la documentación no dice qué significa, y ¿qué se supone que debemos hacer, no usar algo en el documento para más contenido?
Como mencioné, un valor de 1,66 por ciclo no puede ser un rendimiento teórico, porque no puedes hacer "1 rayo completo y el 66% del siguiente rayo" en un ciclo. Si tratas el 1,66 como si necesitara ser multiplicado por 12, como hizo DF, entonces casualmente obtienes unos agradables 20 rayos por ciclo para toda la GPU, pero eso no soluciona el problema de que cada núcleo independiente necesite hacer 1,66 para lograrlo, lo cual no tiene sentido. Un número fraccional* por ciclo como 1,66 simplemente no puede ser un máximo teórico/arquitectónico duro como la mayoría de los otros números que se encuentran en las especificaciones. Debe ser algún tipo de valor medido.
Resulta que, antes de que comenzaran a ser más vagos y abstractos con Ampere, Nvidia sí publicó números de rendimiento RT del mundo real para Turing, que expresaron en gigarayos por segundo:
Al igual que los rayos por ciclo de la documentación de Switch 2, Nvidia no explica exactamente a qué se refieren con este valor, pero los resultados dejan claro que estaban midiendo el rendimiento real en alguna capacidad en modelos específicos (unos pocos modelos estándar de Stanford de aproximadamente 1 millón de triángulos cada uno, y dos coches).
Asumiendo que esta es la misma medición utilizada para la cifra de la documentación de Switch 2 (y sigue siendo una suposición), entonces podemos ver cómo se comparan. No voy a mantenerte en suspense; la respuesta es que Switch 2 está justo donde esperaríamos que estuviera, que es obviamente mucho menos potente que la RTX 2080 Ti, pero más eficiente, porque tiene una GPU Ampere, y Ampere es mejor en ray tracing que Turing. Como con muchas cosas que he publicado recientemente, realmente quiero impresionar a la gente con que el rendimiento de Switch 2 está exactamente donde esperábamos que estuviera durante mucho tiempo. No hay sorpresas ocultas que cambien el panorama para mejor o peor.
En cuanto a las matemáticas reales, la RTX 2080 Ti obtiene alrededor de 10 gigarayos/segundo de sus 68 SMs a una velocidad de impulso de 1545 MHz. Factorizando la velocidad de reloj, eso es aproximadamente 6,47 rayos/ciclo. Si logra eso con 68 SMs, y T239 logra 1,66 rayos/ciclo con 12 SMs, entonces T239 (barra Ampere en general) tiene un rendimiento RT aproximadamente un 45% más alto que Turing dados núcleos y relojes iguales. Este es un resultado muy creíble que respalda la conclusión de que el valor de rayos/ciclo de T239 es una medición similar a la de Turing. La única comparación concreta de rendimiento RT de Turing a Ampere de Nvidia que conozco fue que la intersección rayo-triángulo se volvió dos veces más rápida, mientras que otras comparaciones se hacen vagamente en los "RT TFLOPS" de GPU específicas, lo que no significa nada para mí, pero en general este tipo de salto de rendimiento parece bastante correcto.
* Específicamente, fraccional y mayor que 1 no es posible. Un número por ciclo podría ser una fracción menor que 1 si lo que se está midiendo toma más de un ciclo para completarse. Pero en ese caso, el resultado todavía tiene que ser un número racional, ya que la operación debe tomar algún número entero de ciclos, y las matemáticas no funcionan para eso aquí.