[HILO] Inteligencia artificial en videojuegos DEEP LEARNING

MeshGPT
ChatGPT puede darte respuestas a casi cualquier pregunta, pero ¿y si también pudiera crear mallas 3D? Investigadores de la Universidad Técnica de Munich, Politecnico di Torino y AUDI AG se preguntaron lo mismo y luego presentaron MeshGPT, un nuevo método para generar mallas triangulares "que refleja la compacidad típica de las mallas creadas por artistas".

Hemos visto herramientas de inteligencia artificial que pueden generar modelos 3D, pero lo interesante de MeshGPT es que utiliza un modelo de lenguaje grande (LLM) para hacerlo.

Primero aprendemos un vocabulario de incrustaciones cuantificadas latentes, utilizando convoluciones de gráficos, que informan a estas incrustaciones de la geometría y la topología de la malla local. Estas incrustaciones se secuencian y decodifican en triángulos mediante un decodificador, lo que garantiza que puedan reconstruir la malla de manera efectiva. Un transformador Luego se entrena con este vocabulario aprendido para predecir el índice de la siguiente incrustación dadas las incrustaciones anteriores. Una vez entrenado, nuestro modelo puede muestrearse autorregresivamente para generar nuevas mallas triangulares, generando directamente mallas compactas con bordes afilados".

Si bien el vocabulario que conoce MeshGPT garantiza que obtenga el objeto que solicitó, este enfoque también puede generar formas novedosas, agregando variedad a la escena. Si le das una forma sin terminar, te sugerirá posibles terminaciones.

Los investigadores dicen que MeshGPT funciona mejor que los métodos de generación de mallas de última generación, con un aumento del 9% en la cobertura de formas. Como resultado, obtienes mallas compactas con detalles geométricos nítidos para tu escena 3D.

Move AI
Crea animaciones para juegos con simplemente un vídeo 2d


YA LO TENEMOS AQUÍ - FILTROS REALISTAS (no tiempo real)
Los filtros realistas serán un estándar en la industria en 5 años y son los que traerán el realismo visual a los videojuegos, por otra parte convertirán juegos antiguos en juegos modernos.


GRAN TURISMO 1 PSX1
Imagen
Filtro AI que reconstruye la imagen
Imagen




Imagen
Imagen

Imagen
Imagen


Forza original
Imagen
Forza filtrado
Imagen



@katatsumuri La virgen! Si esto es real, es impresionante.

Estaba esperando a las Super, pero ahora sí que me salto esta generación de nVidia no les vaya a dar por implementar algo de IA en la serie 5000.

Gracias por toda la información que compartes, compi. [oki]
Increíble, en unos años veremos como juegos antiguos tendrán millones de filtros a elegir y jugar de manera moderna y seguro que también que saldrán juegos nuevos reimaginados.
SMERF: campos de radiación eficientes en memoria transmitibles para exploración de escenas grandes en tiempo real


Las técnicas recientes para la síntesis de vistas en tiempo real han avanzado rápidamente en fidelidad y velocidad, y los métodos modernos son capaces de reproducir escenas casi fotorrealistas a velocidades de cuadro interactivas. Al mismo tiempo, un Ha surgido tensión entre representaciones de escenas explícitas susceptibles de rasterización y campos neuronales basados ​​en la marcha de rayos, con tecnología de punta casos en los que este último supera al primero en calidad y al mismo tiempo prohibitivamente caro para aplicaciones en tiempo real. En este trabajo presentamos SMERF, un enfoque de síntesis de vistas que logra una precisión de vanguardia entre métodos en tiempo real en escenas grandes con huellas hasta 300 m^2 en un volumen resolución de 3,5 mm^3. Nuestro método se basa en dos contribuciones principales: una Esquema de partición jerárquica del modelo, que aumenta la capacidad del modelo mientras limitar el consumo de computación y memoria, y un entrenamiento de destilación estrategia que produce simultáneamente alta fidelidad y consistencia interna. Nuestro El enfoque permite la navegación completa con seis grados de libertad (6DOF) dentro de una web. navegador y renderiza en tiempo real en teléfonos inteligentes y portátiles. Amplios experimentos demuestran que nuestro método supera el estado actual de la técnica. en síntesis de vista novedosa en tiempo real de 0,78 dB en puntos de referencia estándar y 1,78 dB en escenas grandes, renderiza fotogramas tres órdenes de magnitud más rápido que Modelos de campo de radiación de última generación y logra un rendimiento en tiempo real. en una amplia variedad de dispositivos básicos, incluidos los teléfonos inteligentes.

https://smerf-3d.github.io/?ref=aiartweekly
LA IA DE SORA NOS ACERCA AÚN MÁS A LOS JUEGOS PROCEDURALES CON GRÁFICOS ALUCINANTES
Esto podría ser perfectamente un GTA o un nuevo Forza.

https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4


Si crees que OpenAI Sora es un juguete creativo como DALLE,... piénsalo de nuevo. Sora es un motor de física basado en datos. Es una simulación de muchos mundos, reales o fantásticos. El simulador aprende una representación compleja, física "intuitiva", razonamiento a largo plazo y bases semánticas, todo ello mediante algunas matemáticas de gradiente y eliminación de ruido. No me sorprenderá que Sora esté entrenado con muchos datos sintéticos usando Unreal Engine 5. ¡Tiene que ser así! Analicemos el siguiente vídeo. Mensaje: "Video fotorrealista en primer plano de dos barcos piratas luchando entre sí mientras navegan dentro de una taza de café". - El simulador crea instancias de dos recursos 3D exquisitos: barcos piratas con diferentes decoraciones. Sora tiene que resolver la conversión de texto a 3D implícitamente en su espacio latente. - Los objetos 3D se animan constantemente mientras navegan y evitan el camino de los demás. - Dinámica de fluidos del café, incluso de las espumas que se forman alrededor de los barcos. La simulación de fluidos es un subcampo completo de los gráficos por computadora, que tradicionalmente requiere algoritmos y ecuaciones muy complejos. - Fotorrealismo, casi como renderizado con raytracing. - El simulador tiene en cuenta el pequeño tamaño de la copa en comparación con los océanos y aplica fotografía con cambio de inclinación para dar una sensación "minúscula". - La semántica de la escena no existe en el mundo real, pero el motor aún implementa las reglas físicas correctas que esperamos. A continuación: agregue más modalidades y acondicionamiento, luego tendremos un UE completamente basado en datos que reemplazará todos los canales de gráficos diseñados a mano.



GSDF: 3DGS se une a SDF para mejorar el renderizado y la reconstrucción
Mulin Yu , Tao Lu , Linning Xu , Lihan Jiang , Yuanbo Xiangli , Bo Dai

Presentar una escena 3D a partir de imágenes de vista múltiple sigue siendo un desafío central y de larga data en la visión por computadora y los gráficos por computadora. Dos requisitos principales se encuentran en el renderizado y la reconstrucción. En particular, la calidad de renderizado SOTA generalmente se logra con técnicas de renderizado volumétrico neuronal, que se basan en colores agregados de puntos/primitivos y descuidan la geometría de la escena subyacente. El aprendizaje de las superficies neuronales implícitas surge del éxito de la representación neuronal. Los trabajos actuales restringen la distribución de los campos de densidad o la forma de las primitivas, lo que da como resultado una calidad de representación degradada y fallas en las superficies de la escena aprendidas. La eficacia de tales métodos está limitada por las limitaciones inherentes de la representación neuronal elegida, que lucha por capturar detalles finos de la superficie, especialmente para escenas más grandes e intrincadas. Para abordar estos problemas, presentamos GSDF, una novedosa arquitectura de doble rama que combina los beneficios de una representación 3D Gaussian Splatting (3DGS) flexible y eficiente con campos de distancia con signo neuronales (SDF). La idea central es aprovechar y mejorar las fortalezas de cada rama y al mismo tiempo aliviar sus limitaciones mediante la orientación mutua y la supervisión conjunta. Mostramos en diversas escenas que nuestro diseño desbloquea el potencial para reconstrucciones de superficies más precisas y detalladas y, mientras tanto, beneficia la representación 3DGS con estructuras que están más alineadas con la geometría subyacente.
https://arxiv.org/abs/2403.16964


Imagen
Esta web castiga a la gente agradecida, con lo que, al no poder darte +1 porque he sido demasiado agradecido para los estandares de EOL, me toca escribirte un post para ello por seguir aportando estas noticias. [oki]

Sigo bien atento a tu hilo desde los arbustos.

Imagen
Genie de Google DeepMind crea juegos tipo Super Mario a partir de imágenes https://aibusiness.com/nlp/google-deepm ... lose-modal
Imagen

Genie transforma imágenes en juegos interactivos tipo Super Mario.

Imagen

DeepMind se hizo un nombre en el espacio de la IA mediante el uso de videojuegos para evaluar sus ideas algorítmicas. Unos 14 años después y una adquisición por parte de Google , los juegos siguen estando en el centro de su investigación, con su nuevo modelo Genie que permite a los usuarios convertir imágenes en escenas de videojuegos.

Genie (abreviatura de Generative Interactive Environments) se formó con vídeos de Internet, pero puede crear escenas reproducibles a partir de imágenes, vídeos e incluso bocetos que no ha visto antes.
Imagen
Los usuarios pueden ingresar fotografías del mundo real de, por ejemplo, una escultura de arcilla, y Genie puede generar una representación 2D al estilo de un juego de plataformas 2D (piense en Super Mario Bros. en Nintendo). El modelo puede construir estos entornos de juego a partir de una sola imagen.
Imagen
Puede parecer una idea divertida para un modelo de IA, pero Google DeepMind cree que este modelo generativo tiene implicaciones para los agentes generalistas: sistemas de IA diseñados para manejar una variedad de tareas de IA.

La idea es que Genie sea un método general: aprender acciones latentes a partir de cosas como vídeos que pueden transferirse a entornos diseñados por humanos. El método podría aplicarse a otros dominios sin requerir ningún conocimiento adicional del dominio.
Imagen
Google DeepMind tomó Genie y lo aplicó a diferentes escenarios entrenándolo en videos en los que no se realizaban acciones específicas. El modelo pudo comprender esas acciones y aprender de nuevos entornos sin necesidad de instrucciones adicionales.

El equipo detrás de Genie dijo que el proyecto era “sólo rascando la superficie de lo que podría ser posible en el futuro”.

Imagen

Genie alimentó a la fuerza 200.000 horas de vídeos de Internet de juegos de plataformas 2D como Super Mario y datos robóticos (RT-1). A pesar de que los videos de Internet a menudo no están etiquetados, aprendió controles detallados, incluidas qué partes de la entrada son controlables, pero también infiere diversas acciones latentes que son consistentes en todos los entornos generados.

El modelo aprende de haber visto miles de videos en Internet, comprender acciones como saltar y aplicarlas a un entorno similar a un juego. Muéstrele a Genie una imagen de un personaje cerca de una repisa, por ejemplo, y el modelo inferirá que ese personaje saltará y generará una escena basada en esa acción

Imagen

Es como cómo los humanos aprendemos de los videos: miramos y eventualmente captamos cosas. Genie hace lo mismo e incluso puede darle sentido a bocetos dibujados por humanos y convertirlos en representaciones similares a juegos.

Imagen

Genie tiene un tamaño de 11 mil millones de parámetros, y Google DeepMind lo llama un "modelo mundial fundamental": un modelo mundial es un sistema que aprende de cómo funciona el mundo. Para obtener una explicación detallada, lea la definición de X del científico jefe de IA de Meta, Yann LeCun.

https://sites.google.com/view/genie-2024/home
Brutal



Estamos orgullosos de mostrar algunos trabajos recientes en tiempo real con salpicaduras gaussianas 3D/4D.

En enero de 2024 adquirimos una licencia comercial completa de 3DGS con Inria para permitirnos ofrecer servicios 4DGS a clientes de todo el mundo. Hemos pasado los últimos 10 meses desarrollando nuestra cartera de software 4DGS personalizado, utilizando nuestro propio clúster de GPU para procesar por lotes 100.000 fotogramas 4DGS rápidamente, combinado con nuestro(s) sistema(s) de captura volumétrica personalizados de última generación. Podemos capturar cualquier cosa, desde interacciones complejas de personajes para tomas de efectos visuales o escenas dinámicas de lucha rápida, deportes, actuación, ¡incluso capturar y almacenar recuerdos de familiares y amigos para el futuro! Las posibilidades son infinitas. Nuestro objetivo es siempre la calidad y la alta fidelidad. No tomamos atajos.

El siguiente vídeo muestra algunas capturas espaciales de 6 grados de resolución que tomamos de la familia de Henry Pearce. Estas escenas se reproducen en tiempo real a 30 fps dentro de un motor de terceros que se ejecuta en un entorno virtual de 120 fps. Esta es la culminación de años de arduo trabajo y dedicación y estamos interesados ​​en comercializar esta tecnología. Comuníquese con nosotros si está interesado en nuestros sistemas de captura y servicios de procesamiento 3D/4DGS.


LA VEGETACIÓN DEL FUTURO EN JUEGOS
ScoreHMR DIFFUSIVE 3D HUMAN RECOVERY APPROACH Nuevo enfoque difusivo de recuperación humana en 3D
https://80.lv/articles/new-diffusive-3d ... -approach/
https://statho.github.io/ScoreHMR/

La Universidad de Rutgers presentó ScoreHMR, un nuevo enfoque para resolver problemas inversos para la reconstrucción de formas y posturas humanas en 3D, imitando técnicas de ajuste de modelos, pero alineándose con la observación de la imagen a través de la guía de puntuación en el espacio latente de un modelo de difusión.
Imagen

Durante CVPR 2024, un grupo de investigadores de la Universidad de Rutgers presentó Score-Guided Human Mesh Recovery (ScoreHMR), un enfoque novedoso para resolver problemas inversos para la reconstrucción de formas y posturas humanas en 3D. Al igual que los enfoques tradicionales de ajuste de modelos, ScoreHMR ajusta un modelo de cuerpo humano a las observaciones de imágenes, pero la alineación con la observación de la imagen se logra mediante la guía de puntuación en el espacio latente de un modelo de difusión.

Este modelo de difusión está entrenado para capturar la distribución condicional de los parámetros del modelo humano dada una imagen de entrada y, al guiar su proceso de eliminación de ruido con una puntuación específica de la tarea, ScoreHMR resuelve problemas inversos para diversas aplicaciones sin necesidad de volver a entrenar el modelo independiente de la tarea. . Según los desarrolladores, ScoreHMR es superior a varios puntos de referencia y configuraciones, incluido el ajuste de modelos de un solo cuadro y la reconstrucción a partir de múltiples vistas y secuencias de video no calibradas.

Imagen

Esta es una comparación de ScoreHMR con un enfoque de optimización (ajuste ProHMR) para el ajuste del modelo temporal a detecciones de puntos clave 2D. El ajuste ProHMR tiene más fluctuaciones y, a veces, puede fallar en posturas difíciles o puntos de vista inusuales.

Imagen

En la demostración siguiente, ScoreHMR y ProHMR-fitting se ejecutan además de la regresión ProHMR. ScoreHMR puede refinar eficazmente la estimación de regresión ProHMR menos precisa y da como resultado reconstrucciones 3D más fieles que las líneas de base.

Imagen

Los desarrolladores también compararon su enfoque (verde) con el ajuste ProHMR (azul) y SMPLify (gris). ScoreHMR logra reconstrucciones más fieles que las líneas de base de optimización.
Imagen
Todos los documentos, códigos y modelos están disponibles aquí . Échales un vistazo y no olvides unirte a nuestra plataforma 80 Level Talent y a nuestro canal Telegram , síguenos en Instagram , Twitter y LinkedIn , donde compartimos desgloses, las últimas noticias, obras de arte increíbles y más.




Más gaussian splats





GAUSSIAN SPLATS EN VR





GAUSSIAN SPLATS EN UNREAL ENGINE 5
RTX HDR I HDR EN CUALQUIER JUEGO O FUENTE DE VÍDEO https://blogs.nvidia.com/blog/rtx-video ... io-driver/
DESCARGAR DRIVER MOD (solo tarjetas RTX): https://www.nexusmods.com/site/mods/781
Actualmente el driver oficial de NVIDIA no permite la ejecución de HDR en juegos, solo en vídeo, pero este mod abre esa funcionalidad.

Funciona en emuladores si usas la API de vulkan, que es la de uso más común hoy en día en la mayoría de ellos.

Para ver las diferencias en los vídeos tienes que activar el HDR de la pantalla, y si, tienes que tener una pantalla con HDR.
---------------------------------------------------------------------------------------------------------


NVIDIA RTX Video HDR con tecnología de inteligencia artificial transforma el video estándar en un impresionante alto rango dinámico

RTX Video HDR, anunciado por primera vez en CES, ahora está disponible para descargar a través del Studio Driver de enero. Utiliza IA para transformar la reproducción de video de rango dinámico estándar en navegadores de Internet en un sorprendente alto rango dinámico (HDR) en pantallas HDR10.

Utilizando el poder de Tensor Cores en las GPU GeForce RTX, RTX Video HDR permite a los jugadores y creadores maximizar la capacidad de su panel HDR para mostrar colores vívidos y dinámicos, preservando detalles intrincados que pueden perderse inadvertidamente debido a la compresión de video.




Compartir

Nota del editor: esta publicación es parte de nuestra serie semanal In the NVIDIA Studio , que celebra a los artistas destacados, ofrece consejos y trucos creativos y demuestra cómo la tecnología NVIDIA Studio mejora los flujos de trabajo creativos. También profundizamos en las nuevas funciones, tecnologías y recursos de la GPU GeForce RTX serie 40 , y en cómo aceleran drásticamente la creación de contenido.

RTX Video HDR, anunciado por primera vez en CES, ahora está disponible para descargar a través del Studio Driver de enero. Utiliza IA para transformar la reproducción de video de rango dinámico estándar en navegadores de Internet en un sorprendente alto rango dinámico (HDR) en pantallas HDR10.

Los modders de juegos de PC ahora tienen un nuevo y poderoso conjunto de herramientas para usar con el lanzamiento de la versión beta abierta de NVIDIA RTX Remix .

Cuenta con trazado de rayos completo, NVIDIA DLSS , NVIDIA Reflex , activos de renderizado físicos modernos y herramientas de texturas de IA generativa para que los modders puedan remasterizar juegos de manera más eficiente que nunca.

Elija la nueva GeForce RTX 4070 Ti SUPER disponible a través de socios de placas personalizadas en configuraciones con reloj estándar y overclockeado de fábrica para mejorar las tareas de creación, juegos y IA.



Obtén superpoderes creativos con la GeForce RTX 4070 Ti SUPER disponible ahora.
Como parte de la serie 40 SUPER anunciada en CES , está equipada con más núcleos CUDA que el RTX 4070, un frame buffer aumentado a 16 GB y un bus de 256 bits, perfecto para editar videos y renderizar grandes escenas 3D. Funciona hasta 1,6 veces más rápido que el RTX 3070 Ti y 2,5 veces más rápido con DLSS 3 en los juegos con mayor uso de gráficos.

Y el artista técnico destacado de esta semana en NVIDIA Studio, Vishal Ranga, comparte su vívida escena 3D Disowned , impulsada por NVIDIA RTX y Unreal Engine con DLSS.

RTX Video HDR ofrece detalles deslumbrantes
Utilizando el poder de Tensor Cores en las GPU GeForce RTX, RTX Video HDR permite a los jugadores y creadores maximizar la capacidad de su panel HDR para mostrar colores vívidos y dinámicos, preservando detalles intrincados que pueden perderse inadvertidamente debido a la compresión de video.



RTX Video HDR y RTX Video Super Resolution se pueden usar juntos para producir la transmisión de video más clara en cualquier lugar y en cualquier momento. Estas funciones funcionan en navegadores basados ​​en Chromium, como Google Chrome o Microsoft Edge.

Para habilitar el vídeo RTX HDR:

-Descargue e instale el controlador de enero Studio.
-Asegúrese de que las funciones HDR de Windows estén habilitadas navegando a Sistema > Pantalla > HDR.
-Abra el Panel de control de NVIDIA y navegue hasta Ajustar la configuración de imagen de video> Mejora de video RTX y luego habilite HDR.
-El video de rango dinámico estándar se convertirá automáticamente a HDR, mostrando detalles y nitidez notablemente mejorados.



RTX Video HDR se encuentra entre las aplicaciones con tecnología RTX que mejoran el uso diario de la PC, la productividad, la creación y los juegos. NVIDIA Broadcast potencia micrófonos y cámaras; NVIDIA Canvas convierte simples pinceladas en imágenes de paisajes realistas; y NVIDIA Omniverse conecta perfectamente aplicaciones 3D y flujos de trabajo creativos. Explore herramientas exclusivas de Studio, incluidos los controladores NVIDIA Studio líderes en la industria, gratuitos para propietarios de tarjetas gráficas RTX , que admiten las últimas actualizaciones de aplicaciones creativas, funciones impulsadas por IA y más.

RTX Video HDR requiere una GPU RTX conectada a un monitor o televisor compatible con HDR10. Para obtener información adicional, consulte las preguntas frecuentes sobre videos RTX .

Neil Druckman habla sobre la inteligencia artificial en los videojuegos y creo que se moja bastante porque en un entorno como en el que está debe escocer mucho que diga estas cosas, pero son la realidad:
Imagen

—— ¿Cómo imagina que evolucionará la fusión de la narración y la tecnología durante los próximos 10 años?
Estamos viendo esta emocionante combinación de tecnología de vanguardia con la narración tradicional que nos está empujando hacia un futuro donde la fidelidad mejorada no se trata sólo de lograr realismo, sino de ampliar el espectro desde imágenes muy estilizadas a imágenes ultrarrealistas. Esta ampliación de posibilidades está impulsada por herramientas cada vez más accesibles que permiten incluso a personas sin conocimientos técnicos usar su imaginación y crear mundos y narrativas a su gusto. Además, la IA realmente va a revolucionar la forma en que se crea el contenido, aunque plantea algunas cuestiones éticas que debemos abordar. Con tecnologías como la inteligencia artificial y la capacidad de capturar movimiento directamente desde casa, estamos reduciendo costos y obstáculos técnicos, lo que nos abre la puerta para emprender proyectos más aventureros y superar los límites de la narración en los juegos. Esta evolución realmente está empoderando a los creadores para que hagan realidad sus visiones sin los obstáculos tradicionales.

—— ¿Cómo fomentarán las tecnologías emergentes la colaboración global y la narración transmedia en el entretenimiento?
Ya estamos integrando tecnologías de videojuegos en decorados virtuales, mejorando la eficiencia al reducir la necesidad de construir decorados físicos. La traducción de los recursos del juego a otros medios será más fácil a medida que se vuelvan más realistas. Es posible que puedas extraer un entorno de un juego para incorporarlo directamente a otros medios o permitir que los actores vean e interactúen con los entornos a través de auriculares. Los avances tecnológicos también respaldan la colaboración global y la retroalimentación en tiempo real. Las herramientas de trabajo remoto, cruciales durante la pandemia, han reducido los viajes y agilizado los procesos de producción. Por ejemplo, pude supervisar la producción de la segunda temporada de "The Last of Us" desde Los Ángeles por teléfono o computadora, mientras se filma en Canadá.

—— ¿Qué consejo tienes para la nueva generación de creadores que se espera que amplíen los límites de los juegos, el cine y la televisión?
Hago hincapié en dominar los fundamentos sobre las herramientas; Con la IA, tu creatividad establece los límites. Comprender la historia del arte, la composición y la narración es esencial para una dirección eficaz. Las herramientas evolucionan rápidamente : algunas herramientas que alguna vez fueron esenciales ahora están obsoletas. En Naughty Dog, pasamos de animar manualmente 'Jak y Daxter' a usar la captura de movimiento en 'Uncharted', mejorando significativamente nuestra narración. La IA nos permitirá crear diálogos y personajes matizados, ampliando las posibilidades creativas. Sin embargo, es crucial dirigir con precisión estas herramientas para lograr los resultados previstos.

La educación en diseño de juegos ha avanzado notablemente y los nuevos diseñadores que salen de la escuela son mucho más talentosos y capaces que yo cuando tenía su edad. Me emociona pensar en cómo puedo crear una cultura de estudio que los apoye. Por eso, en Naughty Dog promovemos la colaboración abierta, permitiendo que ideas de cualquier nivel influyan en nuestros proyectos, lo que garantiza que las mejores ideas siempre prevalezcan.

—— ¿Cómo evolucionará la interacción entre lo físico y lo virtual en el entretenimiento durante la próxima década?
La experiencia de Last of Us en Universal Studios Hollywood fue especial porque te permitió tocar, oler y sentir, lo que te afecta de manera diferente a los juegos. El máximo sueño es crear experiencias que encapsule completamente todos sus sentidos. Todavía existen muchas barreras tecnológicas para lograrlo, pero como creadores, experimentar con diferentes medios nos ayudará a encontrar nuevas formas de estimular los sentidos y crear mejores simulaciones.

—— ¿Cómo puede Sony promover el entretenimiento y la narración interactivos e inmersivos con sus diversas capacidades?
En Sony, veo dos áreas clave para promover el entretenimiento interactivo e inmersivo. En primer lugar, mejorar las capacidades del hardware es esencial : no solo admite juegos complejos de alta fidelidad, sino que también simplifica el desarrollo de juegos más simples al reducir la necesidad de una optimización exhaustiva del código. En segundo lugar, el desarrollo de herramientas sofisticadas es crucial. Estas herramientas aumentan nuestra eficiencia, permitiéndonos lograr más con menos. Por ejemplo, en Naughty Dog utilizamos un motor patentado que automatiza el diseño ambiental mediante reglas predefinidas, lo que permite que el software cree paisajes automáticamente. Si pudiéramos hacer captura de movimiento sin ningún marcador, podría revolucionar la captura de rendimiento en juegos y más, reduciendo las barreras para los creadores y reduciendo la dependencia de grandes presupuestos, dejando que la creatividad lidere. Un aspecto importante que no está directamente relacionado con la producción ni con la tecnología de Sony Interactive Entertainment es la libertad creativa que ofrece la empresa. Hay que correr riesgos para encontrar nuevas ideas que conecten con el público, y aunque Uncharted fue un éxito en las listas, era importante para nuestro estudio innovar nuevamente con una nueva franquicia como The Last of Us. Muchas empresas insistirían en apegarse a franquicias rentables, pero la cultura y la filosofía de SIE nos permiten perseguir nuevas ideas. El arte requiere riesgo; No se puede diseñar perfectamente y predecir qué tan exitoso será. Estoy increíblemente agradecido de que SIE confíe en nosotros para aprovechar nuestros éxitos pasados ​​y explorar nuevas vías creativas.

—— ¿Podrías compartir una visión personal o un proyecto soñado que esperas ver realizado en el futuro del entretenimiento?
He tenido la suerte de trabajar en varios proyectos de ensueño y actualmente estoy entusiasmado con uno nuevo, que quizás sea el más emocionante hasta ahora. Hay un aprecio cada vez mayor por los juegos que trasciende todos los grupos de edad, a diferencia de cuando yo era niño. Este cambio se destaca por nuestra incursión en la televisión con The Last of Us, que esperaba cerrara la brecha entre los jugadores y los no jugadores. El éxito del programa ha puesto de relieve los juegos, ilustrando las experiencias ricas e inmersivas que ofrecen. Esta visibilidad me entusiasma no sólo por nuestro proyecto actual sino también por el potencial más amplio de los juegos para cautivar a una audiencia global. Estoy ansioso por ver cómo resuena este nuevo juego, especialmente después del éxito de The Last of Us, ya que podría redefinir las percepciones dominantes sobre los juegos.

Ahí va la fuente @VanSouls https://www.sony.com/en/SonyInfo/creati ... iew/2.html
@VanSouls Por cierto, al final borraron la entrevista creo porque Neil no estaba muy de acuerdo en lo que se publicó, tiene twitts recientes sobre ello, y se la hizo la misma sony ya que estaba en la web de sony.

Project G-Assist
Project G-Assist toma entradas de voz o texto del jugador, junto con una instantánea de lo que hay en la ventana del juego. La instantánea se introduce en modelos de visión de IA que brindan conocimiento del contexto y comprensión específica de la aplicación para el modelo de lenguaje grande (LLM), que está conectado a una base de datos de conocimiento del juego, como una wiki. El resultado del LLM es una respuesta reveladora y personalizada, ya sea texto o voz de la IA, basada en lo que sucede en el juego.

NVIDIA se asoció con Studio Wildcard para hacer una demostración de la tecnología con ARK: Survival Ascended. Project G-Assist puede ayudar a responder preguntas sobre criaturas, misiones, elementos, historia, jefes difíciles de enfrentar y más. Y como Project G-Assist tiene en cuenta el contexto, personaliza sus respuestas según la reproducción del usuario.

Además, Project G-Assist puede evaluar la configuración y el rendimiento de su sistema y ajustarlo instantáneamente para una experiencia óptima. Aplique la configuración de juego optimizada de la aplicación NVIDIA, basada en pruebas exhaustivas en miles de configuraciones de hardware; habilite Performance Tuning para aplicar un overclock seguro de GPU; active NVIDIA Reflex para reducir la latencia del sistema y lograr juegos con mayor capacidad de respuesta; y mucho más.

Imaginamos asistentes de inteligencia artificial que transformen la forma en que interactuamos con nuestros juegos y aplicaciones favoritos. Imagine recibir asistencia instantánea y contextual con un flujo de trabajo creativo complejo en una aplicación de fotografía o vídeo. O un entrenador de IA que analiza tus repeticiones multijugador y te enseña estrategias para ascender de rango en partidos competitivos. Project G-Assist es un vistazo a ese futuro.

Project G-Assist no jugará un juego para ti como sugerimos en nuestro profético video del Día de los Inocentes de 2017 , pero puede ayudarte a sacar más provecho de tus juegos favoritos y encontrar ayuda para un jefe problemático. Sin embargo, los pedidos de comida para llevar... definitivamente podríamos agregar eso a la hoja de ruta.

Para obtener más detalles, consulte nuestro artículo dedicado al Proyecto G-Assist .



Los humanos digitales NVIDIA ACE llegarán a las PC RTX AI

NVIDIA anunció hoy la disponibilidad general de los microservicios de IA generativa NVIDIA ACE en la nube para acelerar la próxima ola de humanos digitales. Los desarrolladores de servicios al cliente, juegos y atención médica son los primeros en adoptar las tecnologías ACE para simplificar la creación, animación y operación de seres humanos digitales realistas.

Además, la tecnología NVIDIA ACE ahora llega a las PC y estaciones de trabajo RTX AI con microservicios ACE PC NIM. Los NIM de ACE ofrecerán inferencia de alta calidad ejecutándose localmente en GPU RTX para la comprensión del lenguaje natural, el habla y la animación facial.

En Computex, el debut en juegos de NVIDIA ACE NIM en PC se presentará en la última demostración tecnológica de Covert Protocol , desarrollada en colaboración con Inworld AI . Ahora presenta el reconocimiento automático de voz NVIDIA Audio2Face y NVIDIA Riva ejecutándose localmente en dispositivos RTX.

Para obtener más información, consulte nuestro comunicado de prensa de ACE .

https://www.nvidia.com/en-us/geforce/ne ... sff-ready/
Publico esto para que todos ustedes puedan opinar: ¿Qué los hace estar tan seguros de que necesitaremos modelos 3D en el sentido más tradicional en un futuro muy cercano? Estos clips se crearon con Runway Gen 3 y se ven mejor que el 95 % de cualquier cosa creada con canales 3D tradicionales.


Esto es genial porque podría reconstruir escenarios incompletos escaneados, por ejemplo, se escanea una ciudad con drones con cámaras minuciosamente pero no se llega a todos los rincones, esto reconstruiría las partes no visibles.

MVSGaussian https://mvsgaussian.github.io/
Reconstrucción rápida y generalizable de salpicaduras gaussianas a partir de imágenes estéreo de múltiples vistas

MVSGaussian es un método basado en Gaussian diseñado para la reconstrucción eficiente de escenas no vistas a partir de vistas dispersas en una sola pasada hacia adelante. Ofrece inicialización de alta calidad para un entrenamiento rápido y renderizado en tiempo real.



Presentamos MVSGaussian, un nuevo enfoque de representación gaussiana 3D generalizable derivado de Multi-View Stereo (MVS) que puede reconstruir de manera eficiente escenas no vistas. Específicamente, 1) aprovechamos MVS para codificar representaciones gaussianas que tienen en cuenta la geometría y decodificarlas en parámetros gaussianos. 2) Para mejorar aún más el rendimiento, proponemos una representación gaussiana híbrida que integra un diseño de representación de volumen eficiente para una nueva síntesis de vistas. 3) Para respaldar un ajuste fino rápido para escenas específicas, presentamos una estrategia de agregación geométrica consistente de múltiples vistas para agregar de manera efectiva las nubes de puntos generadas por el modelo generalizable, que sirve como inicialización para la optimización por escena. En comparación con los métodos generalizables anteriores basados ​​en NeRF, que generalmente requieren minutos de ajuste fino y segundos de renderización por imagen, MVSGaussian logra una renderización en tiempo real con una mejor calidad de síntesis para cada escena. En comparación con el 3D-GS estándar, MVSGaussian logra una mejor síntesis de vistas con un menor costo computacional de entrenamiento. Los experimentos exhaustivos en los conjuntos de datos DTU, Real Forward-facing, NeRF Synthetic y Tanks and Temples validan que MVSGaussian logra un rendimiento de vanguardia con una generalización convincente, velocidad de renderizado en tiempo real y una rápida optimización por escena.
MÁS GAUSSIAN SPLATTINGS EN UNREAL ENGINE 5











Implementar Gaussian Splatts en Unreal Engine 5


Añadir Mesh a Gaussian Splats


Humanos Gaussianos en Unreal Engine 5
Posteo para darte las gracias por el contenido. Hilo interesantísimo.
Yo soy de los que piensa que en menos de 10 años los juegos van a ser únicos para cada jugador, así como las películas o las series. Vamos a ser nosotros mismos los que creemos el entretenimiento de forma procedural.
LilJEiK escribió:Posteo para darte las gracias por el contenido. Hilo interesantísimo.
Yo soy de los que piensa que en menos de 10 años los juegos van a ser únicos para cada jugador, así como las películas o las series. Vamos a ser nosotros mismos los que creemos el entretenimiento de forma procedural.

En 10 años no sabría decir, quizás algo aparezca así, pero no que sea perfecto, veremos, pero si, el futuro debería de ser ese, los juegos que queramos y como los queramos, además de compartir experiencias nuestras o probar las de otras personas, sería lo genial.

MÁS IMPLEMENTACIONES EN GAUSSIAN SPLATS

Físicas en Gaussian Splats, aún bastante mejorables, pero ya es mucho
https://x.com/janusch_patas/status/1816859925194100950



Esta es bastante alucinante porque hace que todo lo que supuestamente sobra al no ser estático lo hace desaparecer, por lo que sería más sencillo capturar escenarios aunque pasen personas, de hecho no dudo que en un futuro se pueda pedir que quieres que quite de la escena en tiempo real.



MÁS COSILLAS






HOY A LAS 22:30 JENSEN HUANG Y MARK ZUCKERBERG


TENCENT PRESENTA UN PAPER SOBRE UN MODELO DE GENERACIÓN PROCEDURAL DE MUNDOS ABIERTOS Universidad de Ciencia y Tecnología de Hong Kong; Universidad de Ciencia y Tecnología de China; LightSpeed ​​Studios, Tencent
https://gamegen-o.github.io/

Se puede observar que el dataset es de juegos actuales, entre ellos encontramos RDR2, Ghost of tsushima, Cyberpunk, the witcher 3, etc...



Presentamos GameGen-O , el primer modelo de transformador de difusión diseñado para la generación de videojuegos de mundo abierto. Este modelo facilita la generación de dominio abierto de alta calidad mediante la simulación de una amplia gama de características del motor de juego, como personajes innovadores, entornos dinámicos, acciones complejas y diversos eventos. Además, proporciona capacidad de control interactiva, lo que permite la simulación del juego. El desarrollo de GameGen-O implica un esfuerzo integral de recopilación y procesamiento de datos desde cero. Recopilamos y construimos el primer conjunto de datos de videojuegos de mundo abierto ( OGameData ), que reunió datos extensos de más de cien juegos de mundo abierto de próxima generación, empleando una canalización de datos patentada para una clasificación, puntuación, filtrado y subtítulos desacoplados eficientes. Este OGameData robusto y extenso forma la base del proceso de entrenamiento de nuestro modelo. GameGen-O se somete a un proceso de entrenamiento de dos etapas, que consiste en el preentrenamiento del modelo base y el ajuste de instrucciones. En la primera fase, el modelo se entrena previamente en OGameData mediante la conversión de texto a vídeo y la continuación del vídeo, lo que otorga a GameGen-O la capacidad de generar videojuegos de dominio abierto. En la segunda fase, el modelo entrenado previamente se congela y se ajusta mediante un InstructNet entrenable, que permite la producción de fotogramas posteriores basados ​​en instrucciones estructurales multimodales. Todo este proceso de entrenamiento confiere al modelo la capacidad de generar y controlar contenido de forma interactiva. En resumen, GameGen-O representa un notable primer paso adelante en el ámbito de la generación de videojuegos de mundo abierto mediante modelos generativos. Subraya el potencial de los modelos generativos para servir como alternativa a las técnicas de renderizado, que pueden combinar de forma eficiente la generación creativa con capacidades interactivas.

Imagen

Construcción de OGameData: Comenzamos la construcción de OGameData recopilando 32 000 videos sin procesar de Internet. Expertos humanos identificaron y filtraron meticulosamente estos videos, lo que dio como resultado aproximadamente 15 000 videos utilizables. Luego, los videos seleccionados se agruparon en clips mediante la detección de escenas. Estos clips se sometieron a un riguroso proceso de clasificación y filtrado basado en la estética, el flujo óptico y el contenido semántico. Luego, se aplicaron anotaciones estructuradas utilizando modelos expertos y modelos grandes multimodales. Además, para lograr la capacidad de control interactivo, seleccionamos los clips de mayor calidad de este conjunto de datos anotados y realizamos un etiquetado desacoplado. Este etiquetado se diseñó para describir los cambios en el estado del contenido del clip, lo que garantiza un conjunto de datos más refinado e interactivo para entrenar nuestro modelo.

Imagen

Entrenamiento previo básico: para la fase de entrenamiento previo básico, empleamos un VAE 2+1D (Magvit-v2) para comprimir los clips. Para adaptar el VAE al dominio de los juegos, realizamos adaptaciones específicas del dominio mediante el ajuste del decodificador VAE. Adoptamos una estrategia de entrenamiento mixta que varía las velocidades de cuadros y las resoluciones para fomentar la generalización entre frecuencias de cuadros y resoluciones. La arquitectura general del modelo sigue los principios de los marcos Latte y OpenSora V1.2. Al utilizar un mecanismo de atención de enmascaramiento, dotamos a GameGen-O de las capacidades duales de generación de texto a video y continuación de video. Este enfoque de entrenamiento, combinado con OGameData, dio como resultado una generación de videojuegos de dominio abierto estable y de alta calidad. Además, estableció las capacidades fundamentales necesarias para la posterior capacidad de control interactivo.

Ajuste de instrucciones: la capacidad de control interactivo en GameGen-O se logra al predecir y modificar el contenido futuro en función del contenido actual. Basándose en las capacidades de continuación de video del preentrenamiento básico, GameGen-O incorpora una rama adicional, InstructNet, para controlar el contenido de la continuación. InstructNet está diseñado para aceptar una variedad de entradas multimodales, incluido texto estructurado, señales de operación y avisos de video. Durante el ajuste de la rama InstructNet, el contenido actual se utiliza como condición, estableciendo así una relación de mapeo entre el contenido del clip actual y el contenido del clip futuro bajo señales de control multimodales. En el momento de la inferencia, GameGen-O permite a los usuarios generar y controlar continuamente el siguiente clip generado en función del clip actual.
Imagen






NPGA: NEURAL PARAMETRIC GAUSSIAN AVATARS https://simongiebenhain.github.io/NPGA/
Imagen
Aprovechamos una representación paramétrica neuronal para facilitar un control preciso sobre gaussianas 3D para obtener avatares de alta fidelidad.



Presentamos NPGA , un método basado en 3DGS para crear avatares virtuales sobre el rico espacio de expresión de NPHM. A la izquierda, mostramos nuestros avatares en el espacio canónico, junto con nuestras características latentes per-gaussianas. A la derecha, mostramos un NPGA animado que utiliza la expresión de la figura insertada.

Resultados de autorrecreación de NPGA Izquierda : secuencia mantenida; Derecha : autorrecreación.Imagen

Abstracto
La creación de versiones digitales de alta fidelidad de cabezas humanas es un paso importante en el proceso de integración de componentes virtuales en nuestra vida cotidiana. La construcción de estos avatares es un problema de investigación desafiante, debido a la alta demanda de fotorrealismo y rendimiento de renderizado en tiempo real. En este trabajo, proponemos avatares gaussianos paramétricos neuronales (NPGA), un enfoque basado en datos para crear avatares controlables de alta fidelidad a partir de grabaciones de video de múltiples vistas. Construimos nuestro método en torno a salpicaduras gaussianas 3D para su renderizado altamente eficiente y para heredar la flexibilidad topológica de las nubes de puntos. A diferencia de trabajos anteriores, condicionamos la dinámica de nuestros avatares en el rico espacio de expresión de los modelos de cabeza paramétricos neuronales (NPHM), en lugar de 3DMM basados ​​en mallas. Con este fin, destilamos el campo de deformación hacia atrás de nuestro NPHM subyacente en deformaciones hacia adelante que son compatibles con el renderizado basado en rasterización. Todos los detalles restantes de escala fina, dependientes de la expresión, se aprenden de los videos de múltiples vistas. Para aumentar la capacidad de representación de nuestros avatares, aumentamos la nube de puntos gaussiana canónica utilizando características latentes preprimitivas que gobiernan su comportamiento dinámico. Para regularizar esta expresividad dinámica aumentada, proponemos términos laplacianos sobre las características latentes y la dinámica predicha. Evaluamos nuestro método en el conjunto de datos público NeRSemble, demostrando que NPGA supera significativamente a los avatares de última generación anteriores en la tarea de autorrecreación por ~2.6PSNR. Además, demostramos capacidades de animación precisas a partir de videos monoculares del mundo real.

Interpolación de expresiones latentes
Aquí se muestra un visualizador interactivo que permite la interpolación de expresiones latentes. Arrastre el cursor azul para interpolar linealmente entre cuatro expresiones de conducción diferentes. Se muestran dos avatares animados a la derecha.
Imagen

Recreaciones cruzadas.
Los códigos de expresión rastreados del video de múltiples vistas (izquierda) se transfieren a los NPGA de la derecha.
Imagen

Aplicación en el mundo real.
Los códigos de expresión rastreados del video RGB monocular (izquierda) se transfieren a los NPGA de la derecha.
Imagen

Descripción general del método
Imagen

a) Nuestro método se basa en el modelo MonoNPHM. Hacemos un seguimiento de MonoNPHM en relación con las nubes de puntos COLMAP calculadas en el conjunto de datos NeRSemble, lo que da como resultado un seguimiento basado en modelos geométricamente preciso.

b) Proponemos un objetivo de consistencia cíclica para invertir el campo de deformación hacia atrás de MonoNPHM. El campo de deformación hacia adelante resultante es directamente compatible con la representación basada en rasterización.

c) Los NPGA consisten en una nube de puntos gaussiana canónica, que se deforma hacia adelante utilizando la deformación destilada previa F y la segunda red G, responsable de aprender detalles dinámicos a escala fina.

d) Al asociar características latentes a cada primitivo, elevamos la entrada a los campos de deformación a un espacio dimensional superior, de modo que el comportamiento dinámico de cada primitivo se puede describir con mayor precisión.

GEN-3 GENERA VÍDEOS QUE PARECEN JUEGOS






https://x.com/WorldEverett/status/1808478507405656065
Primero fue DOOM, ¡y ahora tenemos a Mario sin fin!

Generación de videojuegos: un estudio práctico usando Mario

Más o menos el mismo principio que el modelo Doom, pero... ¡Mario!

MarioVGG, es un modelo de difusión de texto a video para la generación de video controlable en el juego Super Mario Bros. MarioVGG demuestra la capacidad de generar escenas y niveles consistentes y significativos de manera continua, así como simular la física y los movimientos de un jugador controlable a lo largo del video.

Y al igual que Doom, hay algunos problemas. Noté que en el video de la segunda fila izquierda, Mario rueda sobre un poco de lava.

¡Pero aún así, es un trabajo interesante y muy genial!

Enlace al documento del proyecto a continuación: https://huggingface.co/virtuals-protoco ... ameGen.pdf


Gaussian Splat siendo utilizado en la TV americana para simular una inundación ¿Cuándo en videojuegos?
71 respuestas
1, 2