[HILO] Inteligencia artificial en videojuegos DEEP LEARNING / MACHINE LEARNING

MeshGPT
ChatGPT puede darte respuestas a casi cualquier pregunta, pero ¿y si también pudiera crear mallas 3D? Investigadores de la Universidad Técnica de Munich, Politecnico di Torino y AUDI AG se preguntaron lo mismo y luego presentaron MeshGPT, un nuevo método para generar mallas triangulares "que refleja la compacidad típica de las mallas creadas por artistas".

Hemos visto herramientas de inteligencia artificial que pueden generar modelos 3D, pero lo interesante de MeshGPT es que utiliza un modelo de lenguaje grande (LLM) para hacerlo.

Primero aprendemos un vocabulario de incrustaciones cuantificadas latentes, utilizando convoluciones de gráficos, que informan a estas incrustaciones de la geometría y la topología de la malla local. Estas incrustaciones se secuencian y decodifican en triángulos mediante un decodificador, lo que garantiza que puedan reconstruir la malla de manera efectiva. Un transformador Luego se entrena con este vocabulario aprendido para predecir el índice de la siguiente incrustación dadas las incrustaciones anteriores. Una vez entrenado, nuestro modelo puede muestrearse autorregresivamente para generar nuevas mallas triangulares, generando directamente mallas compactas con bordes afilados".

Si bien el vocabulario que conoce MeshGPT garantiza que obtenga el objeto que solicitó, este enfoque también puede generar formas novedosas, agregando variedad a la escena. Si le das una forma sin terminar, te sugerirá posibles terminaciones.

Los investigadores dicen que MeshGPT funciona mejor que los métodos de generación de mallas de última generación, con un aumento del 9% en la cobertura de formas. Como resultado, obtienes mallas compactas con detalles geométricos nítidos para tu escena 3D.

Move AI
Crea animaciones para juegos con simplemente un vídeo 2d


YA LO TENEMOS AQUÍ - FILTROS REALISTAS (no tiempo real)
Los filtros realistas serán un estándar en la industria en 5 años y son los que traerán el realismo visual a los videojuegos, por otra parte convertirán juegos antiguos en juegos modernos.


GRAN TURISMO 1 PSX1
Imagen
Filtro AI que reconstruye la imagen
Imagen




Imagen
Imagen

Imagen
Imagen


Forza original
Imagen
Forza filtrado
Imagen



@katatsumuri La virgen! Si esto es real, es impresionante.

Estaba esperando a las Super, pero ahora sí que me salto esta generación de nVidia no les vaya a dar por implementar algo de IA en la serie 5000.

Gracias por toda la información que compartes, compi. [oki]
Increíble, en unos años veremos como juegos antiguos tendrán millones de filtros a elegir y jugar de manera moderna y seguro que también que saldrán juegos nuevos reimaginados.
SMERF: campos de radiación eficientes en memoria transmitibles para exploración de escenas grandes en tiempo real


Las técnicas recientes para la síntesis de vistas en tiempo real han avanzado rápidamente en fidelidad y velocidad, y los métodos modernos son capaces de reproducir escenas casi fotorrealistas a velocidades de cuadro interactivas. Al mismo tiempo, un Ha surgido tensión entre representaciones de escenas explícitas susceptibles de rasterización y campos neuronales basados ​​en la marcha de rayos, con tecnología de punta casos en los que este último supera al primero en calidad y al mismo tiempo prohibitivamente caro para aplicaciones en tiempo real. En este trabajo presentamos SMERF, un enfoque de síntesis de vistas que logra una precisión de vanguardia entre métodos en tiempo real en escenas grandes con huellas hasta 300 m^2 en un volumen resolución de 3,5 mm^3. Nuestro método se basa en dos contribuciones principales: una Esquema de partición jerárquica del modelo, que aumenta la capacidad del modelo mientras limitar el consumo de computación y memoria, y un entrenamiento de destilación estrategia que produce simultáneamente alta fidelidad y consistencia interna. Nuestro El enfoque permite la navegación completa con seis grados de libertad (6DOF) dentro de una web. navegador y renderiza en tiempo real en teléfonos inteligentes y portátiles. Amplios experimentos demuestran que nuestro método supera el estado actual de la técnica. en síntesis de vista novedosa en tiempo real de 0,78 dB en puntos de referencia estándar y 1,78 dB en escenas grandes, renderiza fotogramas tres órdenes de magnitud más rápido que Modelos de campo de radiación de última generación y logra un rendimiento en tiempo real. en una amplia variedad de dispositivos básicos, incluidos los teléfonos inteligentes.

https://smerf-3d.github.io/?ref=aiartweekly
LA IA DE SORA NOS ACERCA AÚN MÁS A LOS JUEGOS PROCEDURALES CON GRÁFICOS ALUCINANTES
Esto podría ser perfectamente un GTA o un nuevo Forza.

https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4


Si crees que OpenAI Sora es un juguete creativo como DALLE,... piénsalo de nuevo. Sora es un motor de física basado en datos. Es una simulación de muchos mundos, reales o fantásticos. El simulador aprende una representación compleja, física "intuitiva", razonamiento a largo plazo y bases semánticas, todo ello mediante algunas matemáticas de gradiente y eliminación de ruido. No me sorprenderá que Sora esté entrenado con muchos datos sintéticos usando Unreal Engine 5. ¡Tiene que ser así! Analicemos el siguiente vídeo. Mensaje: "Video fotorrealista en primer plano de dos barcos piratas luchando entre sí mientras navegan dentro de una taza de café". - El simulador crea instancias de dos recursos 3D exquisitos: barcos piratas con diferentes decoraciones. Sora tiene que resolver la conversión de texto a 3D implícitamente en su espacio latente. - Los objetos 3D se animan constantemente mientras navegan y evitan el camino de los demás. - Dinámica de fluidos del café, incluso de las espumas que se forman alrededor de los barcos. La simulación de fluidos es un subcampo completo de los gráficos por computadora, que tradicionalmente requiere algoritmos y ecuaciones muy complejos. - Fotorrealismo, casi como renderizado con raytracing. - El simulador tiene en cuenta el pequeño tamaño de la copa en comparación con los océanos y aplica fotografía con cambio de inclinación para dar una sensación "minúscula". - La semántica de la escena no existe en el mundo real, pero el motor aún implementa las reglas físicas correctas que esperamos. A continuación: agregue más modalidades y acondicionamiento, luego tendremos un UE completamente basado en datos que reemplazará todos los canales de gráficos diseñados a mano.



GSDF: 3DGS se une a SDF para mejorar el renderizado y la reconstrucción
Mulin Yu , Tao Lu , Linning Xu , Lihan Jiang , Yuanbo Xiangli , Bo Dai

Presentar una escena 3D a partir de imágenes de vista múltiple sigue siendo un desafío central y de larga data en la visión por computadora y los gráficos por computadora. Dos requisitos principales se encuentran en el renderizado y la reconstrucción. En particular, la calidad de renderizado SOTA generalmente se logra con técnicas de renderizado volumétrico neuronal, que se basan en colores agregados de puntos/primitivos y descuidan la geometría de la escena subyacente. El aprendizaje de las superficies neuronales implícitas surge del éxito de la representación neuronal. Los trabajos actuales restringen la distribución de los campos de densidad o la forma de las primitivas, lo que da como resultado una calidad de representación degradada y fallas en las superficies de la escena aprendidas. La eficacia de tales métodos está limitada por las limitaciones inherentes de la representación neuronal elegida, que lucha por capturar detalles finos de la superficie, especialmente para escenas más grandes e intrincadas. Para abordar estos problemas, presentamos GSDF, una novedosa arquitectura de doble rama que combina los beneficios de una representación 3D Gaussian Splatting (3DGS) flexible y eficiente con campos de distancia con signo neuronales (SDF). La idea central es aprovechar y mejorar las fortalezas de cada rama y al mismo tiempo aliviar sus limitaciones mediante la orientación mutua y la supervisión conjunta. Mostramos en diversas escenas que nuestro diseño desbloquea el potencial para reconstrucciones de superficies más precisas y detalladas y, mientras tanto, beneficia la representación 3DGS con estructuras que están más alineadas con la geometría subyacente.
https://arxiv.org/abs/2403.16964


Imagen
Esta web castiga a la gente agradecida, con lo que, al no poder darte +1 porque he sido demasiado agradecido para los estandares de EOL, me toca escribirte un post para ello por seguir aportando estas noticias. [oki]

Sigo bien atento a tu hilo desde los arbustos.

Imagen
Genie de Google DeepMind crea juegos tipo Super Mario a partir de imágenes https://aibusiness.com/nlp/google-deepm ... lose-modal
Imagen

Genie transforma imágenes en juegos interactivos tipo Super Mario.

Imagen

DeepMind se hizo un nombre en el espacio de la IA mediante el uso de videojuegos para evaluar sus ideas algorítmicas. Unos 14 años después y una adquisición por parte de Google , los juegos siguen estando en el centro de su investigación, con su nuevo modelo Genie que permite a los usuarios convertir imágenes en escenas de videojuegos.

Genie (abreviatura de Generative Interactive Environments) se formó con vídeos de Internet, pero puede crear escenas reproducibles a partir de imágenes, vídeos e incluso bocetos que no ha visto antes.
Imagen
Los usuarios pueden ingresar fotografías del mundo real de, por ejemplo, una escultura de arcilla, y Genie puede generar una representación 2D al estilo de un juego de plataformas 2D (piense en Super Mario Bros. en Nintendo). El modelo puede construir estos entornos de juego a partir de una sola imagen.
Imagen
Puede parecer una idea divertida para un modelo de IA, pero Google DeepMind cree que este modelo generativo tiene implicaciones para los agentes generalistas: sistemas de IA diseñados para manejar una variedad de tareas de IA.

La idea es que Genie sea un método general: aprender acciones latentes a partir de cosas como vídeos que pueden transferirse a entornos diseñados por humanos. El método podría aplicarse a otros dominios sin requerir ningún conocimiento adicional del dominio.
Imagen
Google DeepMind tomó Genie y lo aplicó a diferentes escenarios entrenándolo en videos en los que no se realizaban acciones específicas. El modelo pudo comprender esas acciones y aprender de nuevos entornos sin necesidad de instrucciones adicionales.

El equipo detrás de Genie dijo que el proyecto era “sólo rascando la superficie de lo que podría ser posible en el futuro”.

Imagen

Genie alimentó a la fuerza 200.000 horas de vídeos de Internet de juegos de plataformas 2D como Super Mario y datos robóticos (RT-1). A pesar de que los videos de Internet a menudo no están etiquetados, aprendió controles detallados, incluidas qué partes de la entrada son controlables, pero también infiere diversas acciones latentes que son consistentes en todos los entornos generados.

El modelo aprende de haber visto miles de videos en Internet, comprender acciones como saltar y aplicarlas a un entorno similar a un juego. Muéstrele a Genie una imagen de un personaje cerca de una repisa, por ejemplo, y el modelo inferirá que ese personaje saltará y generará una escena basada en esa acción

Imagen

Es como cómo los humanos aprendemos de los videos: miramos y eventualmente captamos cosas. Genie hace lo mismo e incluso puede darle sentido a bocetos dibujados por humanos y convertirlos en representaciones similares a juegos.

Imagen

Genie tiene un tamaño de 11 mil millones de parámetros, y Google DeepMind lo llama un "modelo mundial fundamental": un modelo mundial es un sistema que aprende de cómo funciona el mundo. Para obtener una explicación detallada, lea la definición de X del científico jefe de IA de Meta, Yann LeCun.

https://sites.google.com/view/genie-2024/home
Brutal



Estamos orgullosos de mostrar algunos trabajos recientes en tiempo real con salpicaduras gaussianas 3D/4D.

En enero de 2024 adquirimos una licencia comercial completa de 3DGS con Inria para permitirnos ofrecer servicios 4DGS a clientes de todo el mundo. Hemos pasado los últimos 10 meses desarrollando nuestra cartera de software 4DGS personalizado, utilizando nuestro propio clúster de GPU para procesar por lotes 100.000 fotogramas 4DGS rápidamente, combinado con nuestro(s) sistema(s) de captura volumétrica personalizados de última generación. Podemos capturar cualquier cosa, desde interacciones complejas de personajes para tomas de efectos visuales o escenas dinámicas de lucha rápida, deportes, actuación, ¡incluso capturar y almacenar recuerdos de familiares y amigos para el futuro! Las posibilidades son infinitas. Nuestro objetivo es siempre la calidad y la alta fidelidad. No tomamos atajos.

El siguiente vídeo muestra algunas capturas espaciales de 6 grados de resolución que tomamos de la familia de Henry Pearce. Estas escenas se reproducen en tiempo real a 30 fps dentro de un motor de terceros que se ejecuta en un entorno virtual de 120 fps. Esta es la culminación de años de arduo trabajo y dedicación y estamos interesados ​​en comercializar esta tecnología. Comuníquese con nosotros si está interesado en nuestros sistemas de captura y servicios de procesamiento 3D/4DGS.


LA VEGETACIÓN DEL FUTURO EN JUEGOS
59 respuestas
1, 2