[HILO] Inteligencia artificial en videojuegos en Multiplataforma

katatsumuri 26 mar 2024 19:58 *

14.321 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 26/03/2024 - 20:05:52 por katatsumuri.

Genie de Google DeepMind crea juegos tipo Super Mario a partir de imágenes https://aibusiness.com/nlp/google-deepm ... lose-modal

Genie transforma imágenes en juegos interactivos tipo Super Mario.

Imagen

DeepMind se hizo un nombre en el espacio de la IA mediante el uso de videojuegos para evaluar sus ideas algorítmicas. Unos 14 años después y una adquisición por parte de Google , los juegos siguen estando en el centro de su investigación, con su nuevo modelo Genie que permite a los usuarios convertir imágenes en escenas de videojuegos.

Genie (abreviatura de Generative Interactive Environments) se formó con vídeos de Internet, pero puede crear escenas reproducibles a partir de imágenes, vídeos e incluso bocetos que no ha visto antes.
Imagen

Los usuarios pueden ingresar fotografías del mundo real de, por ejemplo, una escultura de arcilla, y Genie puede generar una representación 2D al estilo de un juego de plataformas 2D (piense en Super Mario Bros. en Nintendo). El modelo puede construir estos entornos de juego a partir de una sola imagen.
Imagen

Puede parecer una idea divertida para un modelo de IA, pero Google DeepMind cree que este modelo generativo tiene implicaciones para los agentes generalistas: sistemas de IA diseñados para manejar una variedad de tareas de IA.

La idea es que Genie sea un método general: aprender acciones latentes a partir de cosas como vídeos que pueden transferirse a entornos diseñados por humanos. El método podría aplicarse a otros dominios sin requerir ningún conocimiento adicional del dominio.
Imagen

Google DeepMind tomó Genie y lo aplicó a diferentes escenarios entrenándolo en videos en los que no se realizaban acciones específicas. El modelo pudo comprender esas acciones y aprender de nuevos entornos sin necesidad de instrucciones adicionales.

El equipo detrás de Genie dijo que el proyecto era “sólo rascando la superficie de lo que podría ser posible en el futuro”.

Imagen

Genie alimentó a la fuerza 200.000 horas de vídeos de Internet de juegos de plataformas 2D como Super Mario y datos robóticos (RT-1). A pesar de que los videos de Internet a menudo no están etiquetados, aprendió controles detallados, incluidas qué partes de la entrada son controlables, pero también infiere diversas acciones latentes que son consistentes en todos los entornos generados.

El modelo aprende de haber visto miles de videos en Internet, comprender acciones como saltar y aplicarlas a un entorno similar a un juego. Muéstrele a Genie una imagen de un personaje cerca de una repisa, por ejemplo, y el modelo inferirá que ese personaje saltará y generará una escena basada en esa acción

Imagen

Es como cómo los humanos aprendemos de los videos: miramos y eventualmente captamos cosas. Genie hace lo mismo e incluso puede darle sentido a bocetos dibujados por humanos y convertirlos en representaciones similares a juegos.

Imagen

Genie tiene un tamaño de 11 mil millones de parámetros, y Google DeepMind lo llama un "modelo mundial fundamental": un modelo mundial es un sistema que aprende de cómo funciona el mundo. Para obtener una explicación detallada, lea la definición de X del científico jefe de IA de Meta, Yann LeCun.

https://sites.google.com/view/genie-2024/home

katatsumuri 20 abr 2024 21:03 *

14.321 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 22/04/2024 - 13:29:34 por katatsumuri.

Brutal

Estamos orgullosos de mostrar algunos trabajos recientes en tiempo real con salpicaduras gaussianas 3D/4D.

En enero de 2024 adquirimos una licencia comercial completa de 3DGS con Inria para permitirnos ofrecer servicios 4DGS a clientes de todo el mundo. Hemos pasado los últimos 10 meses desarrollando nuestra cartera de software 4DGS personalizado, utilizando nuestro propio clúster de GPU para procesar por lotes 100.000 fotogramas 4DGS rápidamente, combinado con nuestro(s) sistema(s) de captura volumétrica personalizados de última generación. Podemos capturar cualquier cosa, desde interacciones complejas de personajes para tomas de efectos visuales o escenas dinámicas de lucha rápida, deportes, actuación, ¡incluso capturar y almacenar recuerdos de familiares y amigos para el futuro! Las posibilidades son infinitas. Nuestro objetivo es siempre la calidad y la alta fidelidad. No tomamos atajos.

El siguiente vídeo muestra algunas capturas espaciales de 6 grados de resolución que tomamos de la familia de Henry Pearce. Estas escenas se reproducen en tiempo real a 30 fps dentro de un motor de terceros que se ejecuta en un entorno virtual de 120 fps. Esta es la culminación de años de arduo trabajo y dedicación y estamos interesados en comercializar esta tecnología. Comuníquese con nosotros si está interesado en nuestros sistemas de captura y servicios de procesamiento 3D/4DGS.

LA VEGETACIÓN DEL FUTURO EN JUEGOS

katatsumuri 07 may 2024 14:22 *

14.321 mensajes
desde ene 2019
en bios

Editado 10 veces. Última: 27/07/2024 - 07:10:00 por katatsumuri.

ScoreHMR DIFFUSIVE 3D HUMAN RECOVERY APPROACH Nuevo enfoque difusivo de recuperación humana en 3D
https://80.lv/articles/new-diffusive-3d ... -approach/
https://statho.github.io/ScoreHMR/

La Universidad de Rutgers presentó ScoreHMR, un nuevo enfoque para resolver problemas inversos para la reconstrucción de formas y posturas humanas en 3D, imitando técnicas de ajuste de modelos, pero alineándose con la observación de la imagen a través de la guía de puntuación en el espacio latente de un modelo de difusión.
Imagen

Durante CVPR 2024, un grupo de investigadores de la Universidad de Rutgers presentó Score-Guided Human Mesh Recovery (ScoreHMR), un enfoque novedoso para resolver problemas inversos para la reconstrucción de formas y posturas humanas en 3D. Al igual que los enfoques tradicionales de ajuste de modelos, ScoreHMR ajusta un modelo de cuerpo humano a las observaciones de imágenes, pero la alineación con la observación de la imagen se logra mediante la guía de puntuación en el espacio latente de un modelo de difusión.

Este modelo de difusión está entrenado para capturar la distribución condicional de los parámetros del modelo humano dada una imagen de entrada y, al guiar su proceso de eliminación de ruido con una puntuación específica de la tarea, ScoreHMR resuelve problemas inversos para diversas aplicaciones sin necesidad de volver a entrenar el modelo independiente de la tarea. . Según los desarrolladores, ScoreHMR es superior a varios puntos de referencia y configuraciones, incluido el ajuste de modelos de un solo cuadro y la reconstrucción a partir de múltiples vistas y secuencias de video no calibradas.

Imagen

Esta es una comparación de ScoreHMR con un enfoque de optimización (ajuste ProHMR) para el ajuste del modelo temporal a detecciones de puntos clave 2D. El ajuste ProHMR tiene más fluctuaciones y, a veces, puede fallar en posturas difíciles o puntos de vista inusuales.

Imagen

En la demostración siguiente, ScoreHMR y ProHMR-fitting se ejecutan además de la regresión ProHMR. ScoreHMR puede refinar eficazmente la estimación de regresión ProHMR menos precisa y da como resultado reconstrucciones 3D más fieles que las líneas de base.

Imagen

Los desarrolladores también compararon su enfoque (verde) con el ajuste ProHMR (azul) y SMPLify (gris). ScoreHMR logra reconstrucciones más fieles que las líneas de base de optimización.
Imagen

Todos los documentos, códigos y modelos están disponibles aquí . Échales un vistazo y no olvides unirte a nuestra plataforma 80 Level Talent y a nuestro canal Telegram , síguenos en Instagram , Twitter y LinkedIn , donde compartimos desgloses, las últimas noticias, obras de arte increíbles y más.

Más gaussian splats

GAUSSIAN SPLATS EN VR

GAUSSIAN SPLATS EN UNREAL ENGINE 5

katatsumuri 15 may 2024 12:33 *

14.321 mensajes
desde ene 2019
en bios

Editado 8 veces. Última: 16/05/2024 - 23:29:14 por katatsumuri.

RTX HDR I HDR EN CUALQUIER JUEGO O FUENTE DE VÍDEO https://blogs.nvidia.com/blog/rtx-video ... io-driver/
DESCARGAR DRIVER MOD (solo tarjetas RTX): https://www.nexusmods.com/site/mods/781
Actualmente el driver oficial de NVIDIA no permite la ejecución de HDR en juegos, solo en vídeo, pero este mod abre esa funcionalidad.

Funciona en emuladores si usas la API de vulkan, que es la de uso más común hoy en día en la mayoría de ellos.

Para ver las diferencias en los vídeos tienes que activar el HDR de la pantalla, y si, tienes que tener una pantalla con HDR.
---------------------------------------------------------------------------------------------------------

NVIDIA RTX Video HDR con tecnología de inteligencia artificial transforma el video estándar en un impresionante alto rango dinámico

RTX Video HDR, anunciado por primera vez en CES, ahora está disponible para descargar a través del Studio Driver de enero. Utiliza IA para transformar la reproducción de video de rango dinámico estándar en navegadores de Internet en un sorprendente alto rango dinámico (HDR) en pantallas HDR10.

Utilizando el poder de Tensor Cores en las GPU GeForce RTX, RTX Video HDR permite a los jugadores y creadores maximizar la capacidad de su panel HDR para mostrar colores vívidos y dinámicos, preservando detalles intrincados que pueden perderse inadvertidamente debido a la compresión de video.

Compartir

Nota del editor: esta publicación es parte de nuestra serie semanal In the NVIDIA Studio , que celebra a los artistas destacados, ofrece consejos y trucos creativos y demuestra cómo la tecnología NVIDIA Studio mejora los flujos de trabajo creativos. También profundizamos en las nuevas funciones, tecnologías y recursos de la GPU GeForce RTX serie 40 , y en cómo aceleran drásticamente la creación de contenido.

RTX Video HDR, anunciado por primera vez en CES, ahora está disponible para descargar a través del Studio Driver de enero. Utiliza IA para transformar la reproducción de video de rango dinámico estándar en navegadores de Internet en un sorprendente alto rango dinámico (HDR) en pantallas HDR10.

Los modders de juegos de PC ahora tienen un nuevo y poderoso conjunto de herramientas para usar con el lanzamiento de la versión beta abierta de NVIDIA RTX Remix .

Cuenta con trazado de rayos completo, NVIDIA DLSS , NVIDIA Reflex , activos de renderizado físicos modernos y herramientas de texturas de IA generativa para que los modders puedan remasterizar juegos de manera más eficiente que nunca.

Elija la nueva GeForce RTX 4070 Ti SUPER disponible a través de socios de placas personalizadas en configuraciones con reloj estándar y overclockeado de fábrica para mejorar las tareas de creación, juegos y IA.

Obtén superpoderes creativos con la GeForce RTX 4070 Ti SUPER disponible ahora.
Como parte de la serie 40 SUPER anunciada en CES , está equipada con más núcleos CUDA que el RTX 4070, un frame buffer aumentado a 16 GB y un bus de 256 bits, perfecto para editar videos y renderizar grandes escenas 3D. Funciona hasta 1,6 veces más rápido que el RTX 3070 Ti y 2,5 veces más rápido con DLSS 3 en los juegos con mayor uso de gráficos.

Y el artista técnico destacado de esta semana en NVIDIA Studio, Vishal Ranga, comparte su vívida escena 3D Disowned , impulsada por NVIDIA RTX y Unreal Engine con DLSS.

RTX Video HDR ofrece detalles deslumbrantes
Utilizando el poder de Tensor Cores en las GPU GeForce RTX, RTX Video HDR permite a los jugadores y creadores maximizar la capacidad de su panel HDR para mostrar colores vívidos y dinámicos, preservando detalles intrincados que pueden perderse inadvertidamente debido a la compresión de video.

RTX Video HDR y RTX Video Super Resolution se pueden usar juntos para producir la transmisión de video más clara en cualquier lugar y en cualquier momento. Estas funciones funcionan en navegadores basados en Chromium, como Google Chrome o Microsoft Edge.

Para habilitar el vídeo RTX HDR:

-Descargue e instale el controlador de enero Studio.
-Asegúrese de que las funciones HDR de Windows estén habilitadas navegando a Sistema > Pantalla > HDR.
-Abra el Panel de control de NVIDIA y navegue hasta Ajustar la configuración de imagen de video> Mejora de video RTX y luego habilite HDR.
-El video de rango dinámico estándar se convertirá automáticamente a HDR, mostrando detalles y nitidez notablemente mejorados.

RTX Video HDR se encuentra entre las aplicaciones con tecnología RTX que mejoran el uso diario de la PC, la productividad, la creación y los juegos. NVIDIA Broadcast potencia micrófonos y cámaras; NVIDIA Canvas convierte simples pinceladas en imágenes de paisajes realistas; y NVIDIA Omniverse conecta perfectamente aplicaciones 3D y flujos de trabajo creativos. Explore herramientas exclusivas de Studio, incluidos los controladores NVIDIA Studio líderes en la industria, gratuitos para propietarios de tarjetas gráficas RTX , que admiten las últimas actualizaciones de aplicaciones creativas, funciones impulsadas por IA y más.

RTX Video HDR requiere una GPU RTX conectada a un monitor o televisor compatible con HDR10. Para obtener información adicional, consulte las preguntas frecuentes sobre videos RTX .

katatsumuri 24 may 2024 15:54 *

14.321 mensajes
desde ene 2019
en bios

Editado 2 veces. Última: 24/05/2024 - 17:00:31 por katatsumuri.

Neil Druckman habla sobre la inteligencia artificial en los videojuegos y creo que se moja bastante porque en un entorno como en el que está debe escocer mucho que diga estas cosas, pero son la realidad:
Imagen

—— ¿Cómo imagina que evolucionará la fusión de la narración y la tecnología durante los próximos 10 años?
Estamos viendo esta emocionante combinación de tecnología de vanguardia con la narración tradicional que nos está empujando hacia un futuro donde la fidelidad mejorada no se trata sólo de lograr realismo, sino de ampliar el espectro desde imágenes muy estilizadas a imágenes ultrarrealistas. Esta ampliación de posibilidades está impulsada por herramientas cada vez más accesibles que permiten incluso a personas sin conocimientos técnicos usar su imaginación y crear mundos y narrativas a su gusto. Además, la IA realmente va a revolucionar la forma en que se crea el contenido, aunque plantea algunas cuestiones éticas que debemos abordar. Con tecnologías como la inteligencia artificial y la capacidad de capturar movimiento directamente desde casa, estamos reduciendo costos y obstáculos técnicos, lo que nos abre la puerta para emprender proyectos más aventureros y superar los límites de la narración en los juegos. Esta evolución realmente está empoderando a los creadores para que hagan realidad sus visiones sin los obstáculos tradicionales.

—— ¿Cómo fomentarán las tecnologías emergentes la colaboración global y la narración transmedia en el entretenimiento?
Ya estamos integrando tecnologías de videojuegos en decorados virtuales, mejorando la eficiencia al reducir la necesidad de construir decorados físicos. La traducción de los recursos del juego a otros medios será más fácil a medida que se vuelvan más realistas. Es posible que puedas extraer un entorno de un juego para incorporarlo directamente a otros medios o permitir que los actores vean e interactúen con los entornos a través de auriculares. Los avances tecnológicos también respaldan la colaboración global y la retroalimentación en tiempo real. Las herramientas de trabajo remoto, cruciales durante la pandemia, han reducido los viajes y agilizado los procesos de producción. Por ejemplo, pude supervisar la producción de la segunda temporada de "The Last of Us" desde Los Ángeles por teléfono o computadora, mientras se filma en Canadá.

—— ¿Qué consejo tienes para la nueva generación de creadores que se espera que amplíen los límites de los juegos, el cine y la televisión?
Hago hincapié en dominar los fundamentos sobre las herramientas; Con la IA, tu creatividad establece los límites. Comprender la historia del arte, la composición y la narración es esencial para una dirección eficaz. Las herramientas evolucionan rápidamente : algunas herramientas que alguna vez fueron esenciales ahora están obsoletas. En Naughty Dog, pasamos de animar manualmente 'Jak y Daxter' a usar la captura de movimiento en 'Uncharted', mejorando significativamente nuestra narración. La IA nos permitirá crear diálogos y personajes matizados, ampliando las posibilidades creativas. Sin embargo, es crucial dirigir con precisión estas herramientas para lograr los resultados previstos.

La educación en diseño de juegos ha avanzado notablemente y los nuevos diseñadores que salen de la escuela son mucho más talentosos y capaces que yo cuando tenía su edad. Me emociona pensar en cómo puedo crear una cultura de estudio que los apoye. Por eso, en Naughty Dog promovemos la colaboración abierta, permitiendo que ideas de cualquier nivel influyan en nuestros proyectos, lo que garantiza que las mejores ideas siempre prevalezcan.

—— ¿Cómo evolucionará la interacción entre lo físico y lo virtual en el entretenimiento durante la próxima década?
La experiencia de Last of Us en Universal Studios Hollywood fue especial porque te permitió tocar, oler y sentir, lo que te afecta de manera diferente a los juegos. El máximo sueño es crear experiencias que encapsule completamente todos sus sentidos. Todavía existen muchas barreras tecnológicas para lograrlo, pero como creadores, experimentar con diferentes medios nos ayudará a encontrar nuevas formas de estimular los sentidos y crear mejores simulaciones.

—— ¿Cómo puede Sony promover el entretenimiento y la narración interactivos e inmersivos con sus diversas capacidades?
En Sony, veo dos áreas clave para promover el entretenimiento interactivo e inmersivo. En primer lugar, mejorar las capacidades del hardware es esencial : no solo admite juegos complejos de alta fidelidad, sino que también simplifica el desarrollo de juegos más simples al reducir la necesidad de una optimización exhaustiva del código. En segundo lugar, el desarrollo de herramientas sofisticadas es crucial. Estas herramientas aumentan nuestra eficiencia, permitiéndonos lograr más con menos. Por ejemplo, en Naughty Dog utilizamos un motor patentado que automatiza el diseño ambiental mediante reglas predefinidas, lo que permite que el software cree paisajes automáticamente. Si pudiéramos hacer captura de movimiento sin ningún marcador, podría revolucionar la captura de rendimiento en juegos y más, reduciendo las barreras para los creadores y reduciendo la dependencia de grandes presupuestos, dejando que la creatividad lidere. Un aspecto importante que no está directamente relacionado con la producción ni con la tecnología de Sony Interactive Entertainment es la libertad creativa que ofrece la empresa. Hay que correr riesgos para encontrar nuevas ideas que conecten con el público, y aunque Uncharted fue un éxito en las listas, era importante para nuestro estudio innovar nuevamente con una nueva franquicia como The Last of Us. Muchas empresas insistirían en apegarse a franquicias rentables, pero la cultura y la filosofía de SIE nos permiten perseguir nuevas ideas. El arte requiere riesgo; No se puede diseñar perfectamente y predecir qué tan exitoso será. Estoy increíblemente agradecido de que SIE confíe en nosotros para aprovechar nuestros éxitos pasados y explorar nuevas vías creativas.

—— ¿Podrías compartir una visión personal o un proyecto soñado que esperas ver realizado en el futuro del entretenimiento?
He tenido la suerte de trabajar en varios proyectos de ensueño y actualmente estoy entusiasmado con uno nuevo, que quizás sea el más emocionante hasta ahora. Hay un aprecio cada vez mayor por los juegos que trasciende todos los grupos de edad, a diferencia de cuando yo era niño. Este cambio se destaca por nuestra incursión en la televisión con The Last of Us, que esperaba cerrara la brecha entre los jugadores y los no jugadores. El éxito del programa ha puesto de relieve los juegos, ilustrando las experiencias ricas e inmersivas que ofrecen. Esta visibilidad me entusiasma no sólo por nuestro proyecto actual sino también por el potencial más amplio de los juegos para cautivar a una audiencia global. Estoy ansioso por ver cómo resuena este nuevo juego, especialmente después del éxito de The Last of Us, ya que podría redefinir las percepciones dominantes sobre los juegos.

Ahí va la fuente @VanSouls https://www.sony.com/en/SonyInfo/creati ... iew/2.html

VanSouls 24 may 2024 16:34

Haciendo streams

5.527 mensajes
desde ago 2020

@katatsumuri Pon la fuente porfavor

katatsumuri 02 jun 2024 16:13 *

14.321 mensajes
desde ene 2019
en bios

Editado 2 veces. Última: 2/06/2024 - 16:16:02 por katatsumuri.

@VanSouls Por cierto, al final borraron la entrevista creo porque Neil no estaba muy de acuerdo en lo que se publicó, tiene twitts recientes sobre ello, y se la hizo la misma sony ya que estaba en la web de sony.

Project G-Assist
Project G-Assist toma entradas de voz o texto del jugador, junto con una instantánea de lo que hay en la ventana del juego. La instantánea se introduce en modelos de visión de IA que brindan conocimiento del contexto y comprensión específica de la aplicación para el modelo de lenguaje grande (LLM), que está conectado a una base de datos de conocimiento del juego, como una wiki. El resultado del LLM es una respuesta reveladora y personalizada, ya sea texto o voz de la IA, basada en lo que sucede en el juego.

NVIDIA se asoció con Studio Wildcard para hacer una demostración de la tecnología con ARK: Survival Ascended. Project G-Assist puede ayudar a responder preguntas sobre criaturas, misiones, elementos, historia, jefes difíciles de enfrentar y más. Y como Project G-Assist tiene en cuenta el contexto, personaliza sus respuestas según la reproducción del usuario.

Además, Project G-Assist puede evaluar la configuración y el rendimiento de su sistema y ajustarlo instantáneamente para una experiencia óptima. Aplique la configuración de juego optimizada de la aplicación NVIDIA, basada en pruebas exhaustivas en miles de configuraciones de hardware; habilite Performance Tuning para aplicar un overclock seguro de GPU; active NVIDIA Reflex para reducir la latencia del sistema y lograr juegos con mayor capacidad de respuesta; y mucho más.

Imaginamos asistentes de inteligencia artificial que transformen la forma en que interactuamos con nuestros juegos y aplicaciones favoritos. Imagine recibir asistencia instantánea y contextual con un flujo de trabajo creativo complejo en una aplicación de fotografía o vídeo. O un entrenador de IA que analiza tus repeticiones multijugador y te enseña estrategias para ascender de rango en partidos competitivos. Project G-Assist es un vistazo a ese futuro.

Project G-Assist no jugará un juego para ti como sugerimos en nuestro profético video del Día de los Inocentes de 2017 , pero puede ayudarte a sacar más provecho de tus juegos favoritos y encontrar ayuda para un jefe problemático. Sin embargo, los pedidos de comida para llevar... definitivamente podríamos agregar eso a la hoja de ruta.

Para obtener más detalles, consulte nuestro artículo dedicado al Proyecto G-Assist .

Los humanos digitales NVIDIA ACE llegarán a las PC RTX AI

NVIDIA anunció hoy la disponibilidad general de los microservicios de IA generativa NVIDIA ACE en la nube para acelerar la próxima ola de humanos digitales. Los desarrolladores de servicios al cliente, juegos y atención médica son los primeros en adoptar las tecnologías ACE para simplificar la creación, animación y operación de seres humanos digitales realistas.

Además, la tecnología NVIDIA ACE ahora llega a las PC y estaciones de trabajo RTX AI con microservicios ACE PC NIM. Los NIM de ACE ofrecerán inferencia de alta calidad ejecutándose localmente en GPU RTX para la comprensión del lenguaje natural, el habla y la animación facial.

En Computex, el debut en juegos de NVIDIA ACE NIM en PC se presentará en la última demostración tecnológica de Covert Protocol , desarrollada en colaboración con Inworld AI . Ahora presenta el reconocimiento automático de voz NVIDIA Audio2Face y NVIDIA Riva ejecutándose localmente en dispositivos RTX.

Para obtener más información, consulte nuestro comunicado de prensa de ACE .

https://www.nvidia.com/en-us/geforce/ne ... sff-ready/

katatsumuri 08 jul 2024 13:47 *

14.321 mensajes
desde ene 2019
en bios

Editado 2 veces. Última: 11/07/2024 - 01:14:27 por katatsumuri.

Publico esto para que todos ustedes puedan opinar: ¿Qué los hace estar tan seguros de que necesitaremos modelos 3D en el sentido más tradicional en un futuro muy cercano? Estos clips se crearon con Runway Gen 3 y se ven mejor que el 95 % de cualquier cosa creada con canales 3D tradicionales.

Esto es genial porque podría reconstruir escenarios incompletos escaneados, por ejemplo, se escanea una ciudad con drones con cámaras minuciosamente pero no se llega a todos los rincones, esto reconstruiría las partes no visibles.

MVSGaussian https://mvsgaussian.github.io/
Reconstrucción rápida y generalizable de salpicaduras gaussianas a partir de imágenes estéreo de múltiples vistas

MVSGaussian es un método basado en Gaussian diseñado para la reconstrucción eficiente de escenas no vistas a partir de vistas dispersas en una sola pasada hacia adelante. Ofrece inicialización de alta calidad para un entrenamiento rápido y renderizado en tiempo real.

Presentamos MVSGaussian, un nuevo enfoque de representación gaussiana 3D generalizable derivado de Multi-View Stereo (MVS) que puede reconstruir de manera eficiente escenas no vistas. Específicamente, 1) aprovechamos MVS para codificar representaciones gaussianas que tienen en cuenta la geometría y decodificarlas en parámetros gaussianos. 2) Para mejorar aún más el rendimiento, proponemos una representación gaussiana híbrida que integra un diseño de representación de volumen eficiente para una nueva síntesis de vistas. 3) Para respaldar un ajuste fino rápido para escenas específicas, presentamos una estrategia de agregación geométrica consistente de múltiples vistas para agregar de manera efectiva las nubes de puntos generadas por el modelo generalizable, que sirve como inicialización para la optimización por escena. En comparación con los métodos generalizables anteriores basados en NeRF, que generalmente requieren minutos de ajuste fino y segundos de renderización por imagen, MVSGaussian logra una renderización en tiempo real con una mejor calidad de síntesis para cada escena. En comparación con el 3D-GS estándar, MVSGaussian logra una mejor síntesis de vistas con un menor costo computacional de entrenamiento. Los experimentos exhaustivos en los conjuntos de datos DTU, Real Forward-facing, NeRF Synthetic y Tanks and Temples validan que MVSGaussian logra un rendimiento de vanguardia con una generalización convincente, velocidad de renderizado en tiempo real y una rápida optimización por escena.

katatsumuri 27 jul 2024 06:33 *

14.321 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 27/07/2024 - 08:47:07 por katatsumuri.

MÁS GAUSSIAN SPLATTINGS EN UNREAL ENGINE 5

Implementar Gaussian Splatts en Unreal Engine 5

Añadir Mesh a Gaussian Splats

Humanos Gaussianos en Unreal Engine 5

LilJEiK 29 jul 2024 17:50

Adicto

492 mensajes
desde jul 2020

Posteo para darte las gracias por el contenido. Hilo interesantísimo.
Yo soy de los que piensa que en menos de 10 años los juegos van a ser únicos para cada jugador, así como las películas o las series. Vamos a ser nosotros mismos los que creemos el entretenimiento de forma procedural.

katatsumuri 29 jul 2024 18:47 *

14.321 mensajes
desde ene 2019
en bios

Editado 4 veces. Última: 30/07/2024 - 08:05:47 por katatsumuri.

LilJEiK escribió:Posteo para darte las gracias por el contenido. Hilo interesantísimo.
Yo soy de los que piensa que en menos de 10 años los juegos van a ser únicos para cada jugador, así como las películas o las series. Vamos a ser nosotros mismos los que creemos el entretenimiento de forma procedural.

En 10 años no sabría decir, quizás algo aparezca así, pero no que sea perfecto, veremos, pero si, el futuro debería de ser ese, los juegos que queramos y como los queramos, además de compartir experiencias nuestras o probar las de otras personas, sería lo genial.

MÁS IMPLEMENTACIONES EN GAUSSIAN SPLATS

Físicas en Gaussian Splats, aún bastante mejorables, pero ya es mucho
https://x.com/janusch_patas/status/1816859925194100950

Esta es bastante alucinante porque hace que todo lo que supuestamente sobra al no ser estático lo hace desaparecer, por lo que sería más sencillo capturar escenarios aunque pasen personas, de hecho no dudo que en un futuro se pueda pedir que quieres que quite de la escena en tiempo real.

MÁS COSILLAS

HOY A LAS 22:30 JENSEN HUANG Y MARK ZUCKERBERG

katatsumuri 13 sep 2024 17:46 *

14.321 mensajes
desde ene 2019
en bios

Editado 8 veces. Última: 17/09/2024 - 08:14:00 por katatsumuri.

TENCENT PRESENTA UN PAPER SOBRE UN MODELO DE GENERACIÓN PROCEDURAL DE MUNDOS ABIERTOS Universidad de Ciencia y Tecnología de Hong Kong; Universidad de Ciencia y Tecnología de China; LightSpeed Studios, Tencent
https://gamegen-o.github.io/

Se puede observar que el dataset es de juegos actuales, entre ellos encontramos RDR2, Ghost of tsushima, Cyberpunk, the witcher 3, etc...

Presentamos GameGen-O , el primer modelo de transformador de difusión diseñado para la generación de videojuegos de mundo abierto. Este modelo facilita la generación de dominio abierto de alta calidad mediante la simulación de una amplia gama de características del motor de juego, como personajes innovadores, entornos dinámicos, acciones complejas y diversos eventos. Además, proporciona capacidad de control interactiva, lo que permite la simulación del juego. El desarrollo de GameGen-O implica un esfuerzo integral de recopilación y procesamiento de datos desde cero. Recopilamos y construimos el primer conjunto de datos de videojuegos de mundo abierto ( OGameData ), que reunió datos extensos de más de cien juegos de mundo abierto de próxima generación, empleando una canalización de datos patentada para una clasificación, puntuación, filtrado y subtítulos desacoplados eficientes. Este OGameData robusto y extenso forma la base del proceso de entrenamiento de nuestro modelo. GameGen-O se somete a un proceso de entrenamiento de dos etapas, que consiste en el preentrenamiento del modelo base y el ajuste de instrucciones. En la primera fase, el modelo se entrena previamente en OGameData mediante la conversión de texto a vídeo y la continuación del vídeo, lo que otorga a GameGen-O la capacidad de generar videojuegos de dominio abierto. En la segunda fase, el modelo entrenado previamente se congela y se ajusta mediante un InstructNet entrenable, que permite la producción de fotogramas posteriores basados en instrucciones estructurales multimodales. Todo este proceso de entrenamiento confiere al modelo la capacidad de generar y controlar contenido de forma interactiva. En resumen, GameGen-O representa un notable primer paso adelante en el ámbito de la generación de videojuegos de mundo abierto mediante modelos generativos. Subraya el potencial de los modelos generativos para servir como alternativa a las técnicas de renderizado, que pueden combinar de forma eficiente la generación creativa con capacidades interactivas.

Imagen

Construcción de OGameData: Comenzamos la construcción de OGameData recopilando 32 000 videos sin procesar de Internet. Expertos humanos identificaron y filtraron meticulosamente estos videos, lo que dio como resultado aproximadamente 15 000 videos utilizables. Luego, los videos seleccionados se agruparon en clips mediante la detección de escenas. Estos clips se sometieron a un riguroso proceso de clasificación y filtrado basado en la estética, el flujo óptico y el contenido semántico. Luego, se aplicaron anotaciones estructuradas utilizando modelos expertos y modelos grandes multimodales. Además, para lograr la capacidad de control interactivo, seleccionamos los clips de mayor calidad de este conjunto de datos anotados y realizamos un etiquetado desacoplado. Este etiquetado se diseñó para describir los cambios en el estado del contenido del clip, lo que garantiza un conjunto de datos más refinado e interactivo para entrenar nuestro modelo.

Imagen

Entrenamiento previo básico: para la fase de entrenamiento previo básico, empleamos un VAE 2+1D (Magvit-v2) para comprimir los clips. Para adaptar el VAE al dominio de los juegos, realizamos adaptaciones específicas del dominio mediante el ajuste del decodificador VAE. Adoptamos una estrategia de entrenamiento mixta que varía las velocidades de cuadros y las resoluciones para fomentar la generalización entre frecuencias de cuadros y resoluciones. La arquitectura general del modelo sigue los principios de los marcos Latte y OpenSora V1.2. Al utilizar un mecanismo de atención de enmascaramiento, dotamos a GameGen-O de las capacidades duales de generación de texto a video y continuación de video. Este enfoque de entrenamiento, combinado con OGameData, dio como resultado una generación de videojuegos de dominio abierto estable y de alta calidad. Además, estableció las capacidades fundamentales necesarias para la posterior capacidad de control interactivo.

Ajuste de instrucciones: la capacidad de control interactivo en GameGen-O se logra al predecir y modificar el contenido futuro en función del contenido actual. Basándose en las capacidades de continuación de video del preentrenamiento básico, GameGen-O incorpora una rama adicional, InstructNet, para controlar el contenido de la continuación. InstructNet está diseñado para aceptar una variedad de entradas multimodales, incluido texto estructurado, señales de operación y avisos de video. Durante el ajuste de la rama InstructNet, el contenido actual se utiliza como condición, estableciendo así una relación de mapeo entre el contenido del clip actual y el contenido del clip futuro bajo señales de control multimodales. En el momento de la inferencia, GameGen-O permite a los usuarios generar y controlar continuamente el siguiente clip generado en función del clip actual.
Imagen

NPGA: NEURAL PARAMETRIC GAUSSIAN AVATARS https://simongiebenhain.github.io/NPGA/
Imagen

Aprovechamos una representación paramétrica neuronal para facilitar un control preciso sobre gaussianas 3D para obtener avatares de alta fidelidad.

Presentamos NPGA , un método basado en 3DGS para crear avatares virtuales sobre el rico espacio de expresión de NPHM. A la izquierda, mostramos nuestros avatares en el espacio canónico, junto con nuestras características latentes per-gaussianas. A la derecha, mostramos un NPGA animado que utiliza la expresión de la figura insertada.

Resultados de autorrecreación de NPGA Izquierda : secuencia mantenida; Derecha : autorrecreación. Imagen

Abstracto
La creación de versiones digitales de alta fidelidad de cabezas humanas es un paso importante en el proceso de integración de componentes virtuales en nuestra vida cotidiana. La construcción de estos avatares es un problema de investigación desafiante, debido a la alta demanda de fotorrealismo y rendimiento de renderizado en tiempo real. En este trabajo, proponemos avatares gaussianos paramétricos neuronales (NPGA), un enfoque basado en datos para crear avatares controlables de alta fidelidad a partir de grabaciones de video de múltiples vistas. Construimos nuestro método en torno a salpicaduras gaussianas 3D para su renderizado altamente eficiente y para heredar la flexibilidad topológica de las nubes de puntos. A diferencia de trabajos anteriores, condicionamos la dinámica de nuestros avatares en el rico espacio de expresión de los modelos de cabeza paramétricos neuronales (NPHM), en lugar de 3DMM basados en mallas. Con este fin, destilamos el campo de deformación hacia atrás de nuestro NPHM subyacente en deformaciones hacia adelante que son compatibles con el renderizado basado en rasterización. Todos los detalles restantes de escala fina, dependientes de la expresión, se aprenden de los videos de múltiples vistas. Para aumentar la capacidad de representación de nuestros avatares, aumentamos la nube de puntos gaussiana canónica utilizando características latentes preprimitivas que gobiernan su comportamiento dinámico. Para regularizar esta expresividad dinámica aumentada, proponemos términos laplacianos sobre las características latentes y la dinámica predicha. Evaluamos nuestro método en el conjunto de datos público NeRSemble, demostrando que NPGA supera significativamente a los avatares de última generación anteriores en la tarea de autorrecreación por ~2.6PSNR. Además, demostramos capacidades de animación precisas a partir de videos monoculares del mundo real.

Interpolación de expresiones latentes
Aquí se muestra un visualizador interactivo que permite la interpolación de expresiones latentes. Arrastre el cursor azul para interpolar linealmente entre cuatro expresiones de conducción diferentes. Se muestran dos avatares animados a la derecha.
Imagen

Recreaciones cruzadas.
Los códigos de expresión rastreados del video de múltiples vistas (izquierda) se transfieren a los NPGA de la derecha.
Imagen

Aplicación en el mundo real.
Los códigos de expresión rastreados del video RGB monocular (izquierda) se transfieren a los NPGA de la derecha.
Imagen

Descripción general del método
Imagen

a) Nuestro método se basa en el modelo MonoNPHM. Hacemos un seguimiento de MonoNPHM en relación con las nubes de puntos COLMAP calculadas en el conjunto de datos NeRSemble, lo que da como resultado un seguimiento basado en modelos geométricamente preciso.

b) Proponemos un objetivo de consistencia cíclica para invertir el campo de deformación hacia atrás de MonoNPHM. El campo de deformación hacia adelante resultante es directamente compatible con la representación basada en rasterización.

c) Los NPGA consisten en una nube de puntos gaussiana canónica, que se deforma hacia adelante utilizando la deformación destilada previa F y la segunda red G, responsable de aprender detalles dinámicos a escala fina.

d) Al asociar características latentes a cada primitivo, elevamos la entrada a los campos de deformación a un espacio dimensional superior, de modo que el comportamiento dinámico de cada primitivo se puede describir con mayor precisión.

GEN-3 GENERA VÍDEOS QUE PARECEN JUEGOS

https://x.com/WorldEverett/status/1808478507405656065

katatsumuri 23 sep 2024 11:08 *

14.321 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 23/09/2024 - 11:10:18 por katatsumuri.

Primero fue DOOM, ¡y ahora tenemos a Mario sin fin!

Generación de videojuegos: un estudio práctico usando Mario

Más o menos el mismo principio que el modelo Doom, pero... ¡Mario!

MarioVGG, es un modelo de difusión de texto a video para la generación de video controlable en el juego Super Mario Bros. MarioVGG demuestra la capacidad de generar escenas y niveles consistentes y significativos de manera continua, así como simular la física y los movimientos de un jugador controlable a lo largo del video.

Y al igual que Doom, hay algunos problemas. Noté que en el video de la segunda fila izquierda, Mario rueda sobre un poco de lava.

¡Pero aún así, es un trabajo interesante y muy genial!

Enlace al documento del proyecto a continuación: https://huggingface.co/virtuals-protoco ... ameGen.pdf

katatsumuri 28 sep 2024 17:05 *

14.321 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 28/09/2024 - 17:06:34 por katatsumuri.

1 valoración positiva

Gaussian Splat siendo utilizado en la TV americana para simular una inundación ¿Cuándo en videojuegos?

katatsumuri 02 nov 2024 17:52 *

14.321 mensajes
desde ene 2019
en bios

Editado 14 veces. Última: 2/11/2024 - 18:15:12 por katatsumuri.

LordVulkan escribió:La IA nunca va a sustituir al renderizado. Fin.

¿Y en qué te basas para afirmar eso? Te respondo aquí para no ensuciar el otro hilo que ya hay foreros que se han molestado y no quiero molestarlos tampoco con el tema de las IAs si quieren enfocar el hilo únicamente al pathtracing como el futuro de la siguiente gen de consolas, que ya veremos.

Por otra parte supongo que sabes que hay IAs que simulan motores gráficos, se dice que por ejemplo SORA ha sido entrenada como si fuese un motor gráfico, donde simula todo lo que proyecta en un entorno 3D, vamos, que lo que hace lo ha aprendido de un motor gráfico.

También hay IAs que copian juegos, agarran un juego y lo plagian, lo convierten a un engine propio, se ha visto con pacman o con juegos como GTA V, pero es que ya hay juegos generados por IA como DOOM o MARIO.

De hecho hasta Jensen Huang, el presidente de la empresa líder del mercado de aceleración por gráficos te lo está diciendo, que los píxeles serán generados por IA y no renderizados de forma clásica, así que no sé yo, igual se equivoca, yo siempre dudo, pero creo que sabe más que la mayoría de nosotros.

Por otra parte las muestras que has visto son renders previos clásicos simplemente pasados por un filtro de IA, digamos que la IA no ha influido en el motor del juego, que sería más precisa si lo hiciese, el render principal parte de un juego original, pero me juego un dedo a que en 20 años tendremos juegos AAA renderizados por IA en su totalidad, no solo filtros que renderizan imágenes a través de una imagen como referencia renderizada por un motor gráfico clásico.

Y ojo, que una IA se basará seguramente en un motor gráfico, de hecho las IAs imitan, por lo que hay que alimentarlas con algo, y esas serán las herramientas con IA que se vayan desarrollando durante estos años, igual que a medida que el coste de desarrollar juegos disminuya los procesos de producción con los que la gente hará juegos serán utilizados para entrenar modelos de IA para que aprendan dichos procesos de forma quirúrgica, de los que mejor produzcan contenido, para que al final la IA pueda hacer gran parte del trabajo sin soporte de nadie, aprenderá los procesos de producción de los mejores hasta el punto de que sea capaz de producir productos de alta calidad sin supervisión humana o con una supervisión muy superficial, hablamos de generar narrativa, scripting, código, mecánicas, diseño de niveles, gráficos, etc... Y eso va a ocurrir tarde o temprano ¿Qué estoy diciendo? ¡Si ya ha ocurrido parcialmente! Está ocurriendo.

De hecho la industria, ya lo he hablado muchas veces, se va a mover a una industria de consumo procedural donde es el usuario el que diseña su juego y pide como este tiene que ser, juegos a la carta ajustados al gusto de cada uno, no es que te haga un juego la empresa de pepito y te lo comes tal y como salga con sus cosas que no te gustan, que seguro que las hay, aunque se seguirán compartiendo experiencias custom por parte de otras personas, de hecho las empresas de IAs se seguirán alimentado de estas creaciones por parte de los usuarios para retroalimentarse y perfeccionar aún más la producción de contenido audiovisual para que se ajuste al gusto del consumidor.

D_a_r_z_ 02 nov 2024 22:17

MegaAdicto!!!

571 mensajes
desde jul 2024
en AMR25

PSN ID: D_a_r_z_Steam ID: D_a_r_z_

katatsumuri escribió:
De hecho la industria, ya lo he hablado muchas veces, se va a mover a una industria de consumo procedural donde es el usuario el que diseña su juego y pide como este tiene que ser, juegos a la carta ajustados al gusto de cada uno, no es que te haga un juego la empresa de pepito y te lo comes tal y como salga con sus cosas que no te gustan,

katatsumuri 02 nov 2024 22:23 *

14.321 mensajes
desde ene 2019
en bios

Editado 6 veces. Última: 2/11/2024 - 22:43:31 por katatsumuri.

D_a_r_z_ escribió:
katatsumuri escribió:
De hecho la industria, ya lo he hablado muchas veces, se va a mover a una industria de consumo procedural donde es el usuario el que diseña su juego y pide como este tiene que ser, juegos a la carta ajustados al gusto de cada uno, no es que te haga un juego la empresa de pepito y te lo comes tal y como salga con sus cosas que no te gustan,

no

Ya veremos, la realidad es que la gente quiere jugar a lo que le gusta, tiene sus propios gustos y preferencias, si a mi me gustan los westerns y me quiero pasar un año jugando a westers de forma infinita pues es lo que haré si una empresa me ofrece esa posibilidad, si me gustan los juegos de infectados pues me pasaré medio año jugado a ese tipo de juegos, es lo que haré en vez de tenerme que comer 500 juegos de superhéroes por década y juegos cutres de zombies hechos con mal gusto, o hechos con un gusto que a mi no me atrae, de hecho la IA perfilará los gustos de los jugares y sabrá que es lo que les gusta jugar y como, se adaptará a nuestros gustos y preferencias, nos servirá productos lo más parecidos a lo que le pidamos.

De hecho pronostico que muchas propiedades intelectuales van a perder gran parte de su valor y puede que caigan muchas empresas grandes al verse el internet lleno de replicas de sus juegos de forma gratuita, algo parecido a lo que pasó en los 2000s con la piratería al no haberse establecido los servicios digitales, que más o menos esto ha ocurrido con la música, yo si ahora quiero escuchar un disco puedo hacerlo gratis o como mucho escuchando anuncios, pues con los juegos ocurrirá lo mismo, de hecho ya ocurre que salen muchos juegos, aunque no AAA, pero cuando esto llegue se va a saturar aún más.

¿Qué hará capcom con sus cutre películas si un adolescente desde su casa tiene mejores ideas que capcom y las publica de forma anónima? No podrán hacer nada, imagínate cuando el internet se llene de miles de películas de resident evil que son mucho mejores que la serie burocrática y política cutre de netflix y la película que hicieron.

Los que se van a enriquecer son los que inviertan en modelos de IA que generen juegos, y estos seguramente también tendrán los días contados porque la tecnología se irá abaratando con el tiempo y se podrá ejecutar en local con pocos recursos.

Y bueno, los que piensen que serán juegos sin alma, que serán juegos cutres, que vayan pillando silla, porque al principio obviamente que no serán perfectos, pero de ahora, que ya tenemos ejemplos reales, hasta dentro de unos años, todos estos modelos se irán depurando cada vez más hasta el punto de imitar a la perfección los procesos de producción de las empresas más profesionales.

De todas formas no entiendo para que me mato a escribir por personas que escriben frases cortas sin explicar nada o directamente con monosílabos, mea culpa.

katatsumuri 02 dic 2024 21:46 *

14.321 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 2/12/2024 - 21:54:47 por katatsumuri.

Crean imágenes con IA replicando conceptualmente el motor gráfico RAGE de GTA 6
Imagen

Esto es increíble porque a nivel conceptual se pueden crear conceptos con todos los motores gráficos del mundo y de forma muy barata, imagina como se vería un juego de dinosaurios con el motor de Naughty Dog, o como se vería un juego de la época romana con el motor RAGE de GTA VI, o como se vería un Resident Evil Outbreak con el RE ENGINE, sería increíble la verdad, yo me entretendría mucho imaginando videojuegos con esos motores gráficos.

Esos conceptos a futuro también pueden servir para crear futuros videojuegos con motores gráficos, recordemos que ya hay IAs que replican motores gráficos como se ha visto en este hilo con PACMAN o GTA V, imaginad que llegamos al punto que cualquier IA puede replicar un engine al completo, todos esos conceptos que solo son imágenes se harían realidad.

Mj90 03 dic 2024 04:30

MegaAdicto!!!

6.818 mensajes
desde abr 2018
en Málaga

katatsumuri escribió:Crean imágenes con IA replicando conceptualmente el motor gráfico RAGE de GTA 6

Esto es increíble porque a nivel conceptual se pueden crear conceptos con todos los motores gráficos del mundo y de forma muy barata, imagina como se vería un juego de dinosaurios con el motor de Naughty Dog, o como se vería un juego de la época romana con el motor RAGE de GTA VI, o como se vería un Resident Evil Outbreak con el RE ENGINE, sería increíble la verdad, yo me entretendría mucho imaginando videojuegos con esos motores gráficos.

Esos conceptos a futuro también pueden servir para crear futuros videojuegos con motores gráficos, recordemos que ya hay IAs que replican motores gráficos como se ha visto en este hilo con PACMAN o GTA V, imaginad que llegamos al punto que cualquier IA puede replicar un engine al completo, todos esos conceptos que solo son imágenes se harían realidad.

Si me dijesen que esas imágenes vienen de la propia Rockstar, me lo creería perfectamente.

katatsumuri 03 dic 2024 06:45 *

14.321 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 5/12/2024 - 23:11:20 por katatsumuri.

INSTALAR MOD CHAT DE VOZ EN SKYRIM CON IA
Este tutorial está bastante bien.

GENIE 2 DE GOOGLE YA ESTÁ AQUÍ

katatsumuri 22 dic 2024 18:31 *

14.321 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 22/12/2024 - 18:34:43 por katatsumuri.

Nueva IA de reescalado, de 270p a 1080p

katatsumuri 07 abr 2025 14:28 *

14.321 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 7/04/2025 - 14:29:19 por katatsumuri.

MICROSOFT CREA UNA RÉPLICA DE QUAKE 3 CON IA, EL JUEGO SE GENERA EN TIEMPO REAL
Microsoft ha lanzado una versión experimental de Quake 2 (1997) impulsada completamente por inteligencia artificial generativa, en concreto por Muse, un nuevo modelo de IA diseñado para generar tanto gráficos como acciones dentro del juego.

Esta demo técnica está accesible desde navegador a través del sitio web de Microsoft, y su objetivo, es mostrar las capacidades de esta tecnología, aunque aclaran que "no se pretende replicar por completo la experiencia real de jugar al Quake 2 original". Una propuesta que ya ha generado numerosas críticas en redes sociales.

Puedes jugarlo en este link: https://copilot.microsoft.com/wham?feat ... am-enabled

katatsumuri 16 jun 2025 21:02 *

14.321 mensajes
desde ene 2019
en bios

Editado 6 veces. Última: 16/06/2025 - 21:26:07 por katatsumuri.

LANZAN UN MODELO DE VÍDEO INTERACTIVO QUE SIMULA MUNDOS GENERATIVOS
https://x.com/odysseyml https://experience.odyssey.world/
Odyssey es un laboratorio de IA cuya misión es empoderar a los creativos para contar historias inéditas. Comenzamos este viaje desarrollando modelos de mundo para acelerar la producción de películas y videojuegos, pero gracias a nuestra investigación, ahora estamos viendo los primeros atisbos de un medio de entretenimiento completamente nuevo.

A esto lo llamamos video interactivo: video que puedes ver e interactuar con él, imaginado íntegramente por IA en tiempo real. Es algo similar al video que ves a diario, pero con el que puedes interactuar y conectar de forma atractiva (con el teclado, el teléfono, el control y, eventualmente, el audio). Considéralo una versión preliminar del Holodeck.

Un avance de investigación del vídeo interactivo
Hoy marca el inicio de nuestro viaje para hacer realidad esto, con el lanzamiento público de nuestra primera experiencia de video interactiva. Esto se basa en un nuevo modelo de mundo que demuestra capacidades como la generación de píxeles realistas, el mantenimiento de la consistencia espacial, el aprendizaje de acciones a partir del video y la generación de secuencias de video coherentes de 5 minutos o más. Lo más destacable es su capacidad para generar y transmitir nuevos fotogramas de video realistas cada 40 ms.

La experiencia actual se siente como explorar un sueño lleno de fallos: cruda, inestable, pero innegablemente nueva. Aunque su utilidad es limitada por ahora, las mejoras no se basarán en motores de juego creados a mano, sino en modelos y datos. Creemos que este cambio rápidamente desbloqueará visuales realistas, una interactividad más profunda, una física más rica y experiencias completamente nuevas que simplemente no son posibles en el cine y los videojuegos tradicionales.

En un horizonte temporal lo suficientemente largo, esto se convierte en el simulador del mundo, donde los píxeles y las acciones se ven y se sienten indistinguibles de la realidad, lo que permite miles de experiencias nunca antes posibles.

Impulsado por un modelo mundial en tiempo real
Un modelo de mundo es, en esencia, un modelo dinámico condicionado por la acción. Dado el estado actual del mundo, una acción entrante y un historial de estados y acciones, el modelo intenta predecir el siguiente estado del mundo en forma de fotograma de vídeo. Es esta arquitectura la que está impulsando el vídeo interactivo, junto con otras aplicaciones de gran alcance.

Imagen

En comparación con los modelos de lenguaje, imagen o vídeo, los modelos de mundo aún están en sus primeras etapas, especialmente aquellos que se ejecutan en tiempo real. Uno de los mayores desafíos es que requieren modelado autorregresivo, que predice el estado futuro a partir del estado previo. Esto significa que los resultados generados se retroalimentan al contexto del modelo. En el lenguaje, esto es menos problemático debido a su espacio de estados más acotado. Sin embargo, en los modelos de mundo —con un estado de dimensiones mucho mayores— puede generar inestabilidad, ya que el modelo se desvía del soporte de su distribución de entrenamiento. Esto es particularmente cierto en los modelos en tiempo real, que tienen menor capacidad para modelar dinámicas latentes complejas. Mejorar esto es un área de investigación en la que estamos profundamente comprometidos.

Para mejorar la estabilidad autorregresiva de este avance de investigación, lo que compartimos hoy puede considerarse un modelo de distribución estrecha: se preentrena con video del mundo y se posentrena con video de un conjunto más pequeño de lugares con cobertura densa. La desventaja de este posentrenamiento es que perdemos cierta generalidad, pero ganamos una generación autorregresiva más estable y de larga duración.

Para ampliar la generalización, ya estamos avanzando rápidamente en nuestro modelo de mundo de próxima generación. Este modelo, que se muestra en los resultados brutos a continuación, ya muestra una gama más rica de píxeles, dinámicas y acciones, con una generalización notablemente más sólida.

De cara al futuro, investigamos representaciones del mundo más ricas que capturen la dinámica con mucha mayor fidelidad, a la vez que aumentan la estabilidad temporal y la persistencia del estado. Paralelamente, ampliamos el espacio de acción, del movimiento a la interacción con el mundo, aprendiendo acciones abiertas a partir de vídeos a gran escala.

Aprendiendo no sólo el video, sino las acciones que lo moldean
Las primeras investigaciones sobre vídeo interactivo se han centrado en el aprendizaje de píxeles y acciones de mundos de juegos como Minecraft o Quake , donde los píxeles están restringidos, el movimiento es básico, las acciones posibles son limitadas y la física es simplificada. Estas limitaciones y la falta de diversidad facilitan el modelado de cómo las acciones afectan a los píxeles, pero los mundos de juego imponen un límite bajo y conocido a lo que es posible con estos modelos.

Creemos que aprender tanto los píxeles como las acciones a partir de décadas de videos de la vida real (como lo que ves a continuación) tiene el potencial de levantar ese techo, desbloqueando modelos que aprenden imágenes realistas y la gama completa e ilimitada de acciones que realizamos en el mundo, más allá de la lógica del juego tradicional de caminar aquí, correr allá, disparar eso.

Aprendiendo el mundo real
Aprender de videos reales de final abierto es un problema increíblemente difícil. Las imágenes son ruidosas y diversas, las acciones son continuas e impredecibles, y la física es, en definitiva, real. Pero es lo que, en última instancia, permitirá que los modelos generen un realismo sin precedentes.

Un modelo mundial, no un modelo de vídeo.
A primera vista, el vídeo interactivo parece una aplicación ideal de los modelos de vídeo. Sin embargo, la arquitectura, el número de parámetros y los conjuntos de datos de los modelos de vídeo típicos no son propicios para generar vídeo en tiempo real influenciado por las acciones del usuario.

Modelo mundial
Predice un cuadro a la vez, reaccionando a lo que sucede.
Todo futuro es posible.
Totalmente interactivo: responde instantáneamente a la entrada del usuario en cualquier momento.

Modelo de vídeo
Genera un vídeo completo de una sola vez.
El modelo conoce el final desde el principio.
No hay interactividad: el clip se reproduce igual cada vez.

Como ejemplo de diferencia, los modelos de vídeo generan un conjunto fijo de fotogramas de una sola vez. Para ello, crean una incrustación estructurada que representa un clip completo, lo cual funciona muy bien para la generación de clips, donde no es necesario cambiar nada durante la transmisión, pero impide la interactividad. Una vez configurada la incrustación de vídeo, el usuario queda limitado, lo que significa que solo puede ajustar el vídeo a intervalos fijos.

Sin embargo, un modelo de mundo funciona de forma muy diferente. Predice el siguiente estado del mundo dado el estado actual y una acción, y puede hacerlo en un intervalo flexible. Dado que las nuevas entradas del usuario pueden ocurrir en cualquier momento, ese intervalo puede ser tan corto como un solo fotograma de vídeo, lo que permite al usuario guiar la generación de vídeo en tiempo real con sus acciones. Para el vídeo interactivo, esto es esencial.

Servido por infraestructura en tiempo real
El modelo de nuestra vista previa de investigación puede transmitir vídeo a hasta 30 FPS desde clústeres de GPU H100 en EE. UU. y la UE. En segundo plano, al pulsar una tecla, tocar una pantalla o mover un joystick, esa información se envía por cable al modelo. Con esa información y el historial de fotogramas, el modelo genera el siguiente fotograma que cree que debería ser y lo transmite en tiempo real.

Esta serie de pasos puede tardar tan solo 40 ms, lo que significa que las acciones que realiza se reflejan instantáneamente en el video que ve. El costo actual de la infraestructura que permite esta experiencia es de $1 a $2 por hora de usuario, dependiendo de la calidad del video que ofrecemos. Este costo está disminuyendo rápidamente, impulsado por la optimización de modelos, las inversiones en infraestructura y los impulsos de los modelos de lenguaje.

Ampliando la visión, creemos que será difícil ignorar las ramificaciones de cómo se “produce” el video interactivo, donde la IA puede imaginar experiencias interactivas únicas de manera instantánea a un costo relativo extremadamente bajo.

Está surgiendo una nueva forma de vídeo
Nuevas formas de contar historias siempre han surgido de las nuevas tecnologías: pintura, libros, fotografía, cine, radio, videojuegos, efectos visuales, redes sociales, streaming. Es una historia tan antigua como el tiempo.

El video interactivo, basado en modelos del mundo en tiempo real, es el futuro y abre la puerta a formas de entretenimiento completamente nuevas, donde se pueden generar y explorar historias a la carta, sin las limitaciones ni los costos de la producción tradicional. Creemos que, con el tiempo, todo lo que es video hoy en día (entretenimiento, publicidad, educación, capacitación, viajes y más) evolucionará hacia el video interactivo, todo impulsado por Odyssey.

El avance de la investigación que compartimos hoy es un humilde comienzo hacia este futuro increíblemente emocionante, ¡y estamos ansiosos por que lo pruebes y escuches lo que piensas!

Este avance de investigación fue posible gracias al increíble equipo de Odyssey.

Personal técnico
Ben Graham, Boyu Liu, Gareth Cross, James Grieve, Jeff Hawke, Jon Sadeghi, Oliver Cameron, Philip Petrakian, Richard Shen, Robin Tweedie, Ryan Burgoyne, Sarah King, Sirish Srinivasan, Vinh-Dieu Lam, Zygmunt Łenyk.

Personal operativo
Andy Kolkhorst, Jessica Inman.

Este no es un problema resuelto
Este avance de investigación no es perfecto ni se trata de un problema de investigación resuelto. Si te interesan los desafíos en la frontera de la IA, estamos contratando activamente para diversos puestos —científicos investigadores, ingenieros de investigación, ingenieros de sistemas y rendimiento de aprendizaje automático, ingenieros de datos, etc.— en Silicon Valley, Londres y de forma remota.

Para que te hagas una idea de los tipos de desafíos que afrontarías, a continuación te presentamos algunos modos de fallo divertidos que hemos observado con nuestro modelo de mundo de próxima generación. Esperamos que disfrutes de estas extrañas y maravillosas generaciones tanto como nosotros.

https://odyssey.world/introducing-interactive-video