[HILO] Inteligencias Artificiales Generativas | IMAGEN - AUDIO - VÍDEO - 3D

katatsumuri 06 mar 2026 00:04 *

17.265 mensajes
desde ene 2019
en bios

Editado 7 veces. Última: 6/03/2026 - 09:37:17 por katatsumuri.

Lightricks lanza LTX DESKTOP, un editor de vídeo de IA que usa LTX

LTX DESKTOP https://github.com/Lightricks/LTX-Desktop/releases
LTX Desktop es una aplicación de escritorio de código abierto para generar videos con modelos LTX, localmente en GPU NVIDIA de Windows compatibles, con un modo API para hardware no compatible y macOS.
Estado: Beta. Se esperan cambios importantes. La arquitectura del frontend se encuentra en proceso de refactorización; por ahora, se podrían rechazar solicitudes de modificación de interfaz de usuario de gran tamaño.
Imagen

Características
-Generación de texto a vídeo
-Generación de imagen a vídeo
-Generación de audio a vídeo
-Generación de edición de video (Retoma)
-Interfaz del editor de vídeo
-Proyectos de edición de vídeo

En el modo de solo API, las resoluciones/duraciones disponibles pueden estar limitadas a lo que admite la API.
Imagen

Requisitos del sistema
Windows (generación local)
Windows 10/11 (x64)
GPU NVIDIA con soporte CUDA y ≥32 GB de VRAM (cuanto más, mejor)
16 GB+ de RAM (se recomiendan 32 GB)
Mucho espacio libre en disco para pesos y salidas de modelos

macOS (solo API)
Silicon de Apple (arm64)
macOS 13+ (Ventura)
Conexión a Internet estable

No consigo que me salgan los modelos en local y los he descargado, quizás es que no tengo suficiente VRAM como indican los requisitos mínimos y por eso no me sale.

UPSCALEAR IMÁGENES CON COMFYUI
He encontrado este flujo de trabajo para upscalear imágenes y va bastante bien
Imagen

Ejemplos de reescalado

En general suele ser muy fiel al detalle original, simplemente lo incrementa y es un flujo sencillo que se procesa bastante rápido.

Hay que crear un archivo .json y pegar el texto para la plantilla, luego descargar los módulos necesarios que pida la plantilla en comfyui, en principio está configurado para NVIDIA pero se puede configurar para CPU

{
  "id": "d332fa4f-1f39-49d2-af15-063dc4b7515f",
  "revision": 0,
  "last_node_id": 16,
  "last_link_id": 17,
  "nodes": [
    {
      "id": 5,
      "type": "SeedVR2VideoUpscaler",
      "pos": [
        2068.181348011575,
        931.1260707749041
      ],
      "size": [
        329.956640625,
        386
      ],
      "flags": {},
      "order": 5,
      "mode": 0,
      "inputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "link": 2
        },
        {
          "name": "dit",
          "type": "SEEDVR2_DIT",
          "link": 3
        },
        {
          "name": "vae",
          "type": "SEEDVR2_VAE",
          "link": 4
        }
      ],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            1,
            17
          ]
        }
      ],
      "properties": {
        "cnr_id": "seedvr2_videoupscaler",
        "ver": "2.5.24",
        "Node name for S&R": "SeedVR2VideoUpscaler",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        9527,
        "fixed",
        2560,
        4096,
        1,
        false,
        "lab",
        0,
        0,
        0,
        0,
        "cpu",
        true
      ]
    },
    {
      "id": 2,
      "type": "SeedVR2LoadDiTModel",
      "pos": [
        1614.6994624982103,
        1090.0083715783621
      ],
      "size": [
        317.5630859375,
        202
      ],
      "flags": {},
      "order": 0,
      "mode": 0,
      "inputs": [
        {
          "name": "torch_compile_args",
          "shape": 7,
          "type": "TORCH_COMPILE_ARGS",
          "link": null
        }
      ],
      "outputs": [
        {
          "name": "SEEDVR2_DIT",
          "type": "SEEDVR2_DIT",
          "links": [
            3
          ]
        }
      ],
      "properties": {
        "cnr_id": "seedvr2_videoupscaler",
        "ver": "2.5.24",
        "Node name for S&R": "SeedVR2LoadDiTModel",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "seedvr2_ema_3b-Q4_K_M.gguf",
        "cuda:0",
        0,
        false,
        "cpu",
        false,
        "sdpa"
      ]
    },
    {
      "id": 3,
      "type": "SeedVR2LoadVAEModel",
      "pos": [
        1624.6362854154631,
        1359.4701133442259
      ],
      "size": [
        321.808203125,
        298
      ],
      "flags": {},
      "order": 1,
      "mode": 0,
      "inputs": [
        {
          "name": "torch_compile_args",
          "shape": 7,
          "type": "TORCH_COMPILE_ARGS",
          "link": null
        }
      ],
      "outputs": [
        {
          "name": "SEEDVR2_VAE",
          "type": "SEEDVR2_VAE",
          "links": [
            4
          ]
        }
      ],
      "properties": {
        "cnr_id": "seedvr2_videoupscaler",
        "ver": "2.5.24",
        "Node name for S&R": "SeedVR2LoadVAEModel",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "ema_vae_fp16.safetensors",
        "cuda:0",
        true,
        1024,
        128,
        true,
        1024,
        128,
        "false",
        "cpu",
        false
      ]
    },
    {
      "id": 4,
      "type": "SaveImage",
      "pos": [
        2540.2524058734894,
        752.0389881857375
      ],
      "size": [
        692.3956097028213,
        513.0973076654907
      ],
      "flags": {},
      "order": 6,
      "mode": 0,
      "inputs": [
        {
          "name": "images",
          "type": "IMAGE",
          "link": 1
        }
      ],
      "outputs": [],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.15.1",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "ComfyUI"
      ]
    },
    {
      "id": 14,
      "type": "Image Comparer (rgthree)",
      "pos": [
        2472.1742093154244,
        1338.7744725315279
      ],
      "size": [
        1136.207604739941,
        827.2972168047984
      ],
      "flags": {},
      "order": 7,
      "mode": 0,
      "inputs": [
        {
          "dir": 3,
          "name": "image_a",
          "type": "IMAGE",
          "link": 17
        },
        {
          "dir": 3,
          "name": "image_b",
          "type": "IMAGE",
          "link": 16
        }
      ],
      "outputs": [],
      "properties": {
        "cnr_id": "rgthree-comfy",
        "ver": "1.0.2512112053",
        "comparer_mode": "Slide",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        [
          {
            "name": "A",
            "selected": true,
            "url": "/api/view?filename=rgthree.compare._temp_zrbts_00092_.png&type=temp&subfolder=&rand=0.794164386191451"
          },
          {
            "name": "B",
            "selected": true,
            "url": "/api/view?filename=rgthree.compare._temp_zrbts_00093_.png&type=temp&subfolder=&rand=0.7237070125449392"
          }
        ]
      ]
    },
    {
      "id": 1,
      "type": "ImageScaleBy",
      "pos": [
        1648.7663993839426,
        872.3506055901372
      ],
      "size": [
        270,
        82
      ],
      "flags": {},
      "order": 4,
      "mode": 0,
      "inputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "link": 13
        }
      ],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            2
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.15.1",
        "Node name for S&R": "ImageScaleBy",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "lanczos",
        0.5
      ]
    },
    {
      "id": 16,
      "type": "Load Image Batch",
      "pos": [
        1242.276225306999,
        1315.86387345563
      ],
      "size": [
        299.708984375,
        270
      ],
      "flags": {},
      "order": 2,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "links": []
        },
        {
          "name": "filename_text",
          "type": "STRING",
          "links": null
        }
      ],
      "properties": {
        "cnr_id": "was-ns",
        "ver": "3.0.1",
        "Node name for S&R": "Load Image Batch",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "incremental_image",
        759772274022434,
        "randomize",
        0,
        "Batch 001",
        "C:\\Users\\desktop\\Pictures\\",
        "*",
        "false",
        "true"
      ]
    },
    {
      "id": 7,
      "type": "LoadImage",
      "pos": [
        1265.6886729741254,
        925.8946237418718
      ],
      "size": [
        282.798828125,
        314
      ],
      "flags": {},
      "order": 3,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            13,
            16
          ]
        },
        {
          "name": "MASK",
          "type": "MASK",
          "links": null
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.15.1",
        "Node name for S&R": "LoadImage",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "Screenshot_204png_2317d1df61.jpeg",
        "image"
      ]
    }
  ],
  "links": [
    [
      1,
      5,
      0,
      4,
      0,
      "IMAGE"
    ],
    [
      2,
      1,
      0,
      5,
      0,
      "IMAGE"
    ],
    [
      3,
      2,
      0,
      5,
      1,
      "SEEDVR2_DIT"
    ],
    [
      4,
      3,
      0,
      5,
      2,
      "SEEDVR2_VAE"
    ],
    [
      13,
      7,
      0,
      1,
      0,
      "IMAGE"
    ],
    [
      16,
      7,
      0,
      14,
      1,
      "IMAGE"
    ],
    [
      17,
      5,
      0,
      14,
      0,
      "IMAGE"
    ]
  ],
  "groups": [],
  "config": {},
  "extra": {
    "workflowRendererVersion": "LG",
    "ue_links": [],
    "ds": {
      "scale": 0.4736244074476865,
      "offset": [
        -1041.3096324764415,
        -632.5043914554459
      ]
    },
    "links_added_by_ue": [],
    "frontendVersion": "1.39.19"
  },
  "version": 0.4
}

katatsumuri 12 mar 2026 18:34 *

17.265 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 12/03/2026 - 21:57:44 por katatsumuri.

ACE STEP UI / SUNO PERO OPEN SOURCE Y EN LOCAL
https://github.com/fspecii/ace-step-ui
ACE-Step UI es una interfaz web profesional para generar música con el modelo AI ACE-Step 1.5.
Permite crear canciones completas de forma local, gratuita y sin límites.
Imagen

Funciona completamente local
Compatible con GPU NVIDIA
Los modelos se descargan automáticamente

CaracterísticaㅤㅤㅤSuno/UdioㅤㅤㅤㅤㅤInterfaz de usuario ACE-Step
Costoㅤㅤㅤㅤㅤㅤㅤ$10-50/mesㅤㅤㅤㅤㅤGRATIS para siempre
PrivacidadㅤㅤㅤㅤㅤBasado en la nubeㅤㅤ100% local
PropiedadㅤㅤㅤㅤㅤCon licenciaㅤㅤㅤㅤㅤEres dueño de todo
PersonalizaciónㅤㅤㅤLimitadoㅤㅤㅤㅤㅤㅤControl total
Límites de colaㅤㅤㅤRestringidoㅤㅤㅤㅤㅤIlimitado
Uso comercialㅤㅤㅤNiveles carosㅤㅤㅤㅤSin restricciones[/b]

¿Qué hace que ACE-Step 1.5 sea especial?
Calidad de vanguardia que rivaliza con los servicios comerciales
Generación de canciones completas de hasta 4 minutos o más con voces
Se ejecuta localmente : no requiere Internet después de la configuración
Código abierto : inspeccionar, modificar, mejorar
Desarrollo activo - mejoras constantes

Características

Generación de música con IA local
Interfaz moderna tipo Suno
Compatible con ACE-Step 1.5
Soporte para letras y estilos
Edición de audio integrada
Modelos LM seleccionables (0.6B / 1.7B / 4B)
Auto-descarga de modelos
Sin límites ni suscripciones

Requisitos

Python 3.10+
Node.js 18+
GPU recomendada (aunque puede funcionar en CPU)
ACE-Step instalado

Funciones principales
Text → Music

Introduce estilo musical
Añade letras
Genera canciones completas

Audio Editing

Editar canciones generadas
Repaint de partes
Extender canciones

AI Enhance

Mejora de calidad
Post-procesado de audio

Se puede instalar desde pinokio, con una 3080 me genera temas en unos treinta segundos
Imagen

katatsumuri 22 mar 2026 16:53 *

17.265 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 23/03/2026 - 03:03:11 por katatsumuri.

Al parecer Grok desde su web se ha vuelto de pago, posiblemente es temporal, pero ya no deja crear imágenes ni vídeos de forma gratuita, y a través de twitter es bastante limitada la edición.

Estos días me bajé LTX con PINOKIO y aún siendo limitado va bien.

Generación de hasta 20 segundos a 540p, posibilidad de meter audio.
Lo que me gustaría es que pudiera hacer vídeos más largos, por ejemplo, agarrar el último frame generado y el audio seguirlo en el punto del segundo que no ha podido procesar, y a partir de allí procesar, que es como hacen otros workflows en comfyui, simplemente lo continúan así, igual se puede desde el editor, ya que solo estoy usando el playground.

No sé si es algo común o cosa de esa imagen, pero al final siempre me sale como un letrero raro, me ha pasado con la misma imagen en casi todas las generaciones.

https://ltx.io/model/model-blog/ltx-2-3-prompt-guide

katatsumuri 26 mar 2026 08:22 *

17.265 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 26/03/2026 - 08:42:56 por katatsumuri.

Actualmente podéis usar uno de los mejores modelos generadores de imagen, NANO BANANA 2, gratis y de forma ilimitada desde https://labs.google/flow/about

Los vídeos si cuestan créditos, pero nano banana 2 y pro actualmente son gratuitos e ilimitados.

Grok a través de su web https://grok.com/ ha capado la generación de imagen y vídeo pero puede que vuelva pronto, a través de twitter se pueden generar imágenes por el moment de forma gratuita, aunque es mejor nano banana 2.

katatsumuri 22 abr 2026 20:36 *

17.265 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 22/04/2026 - 22:10:41 por katatsumuri.

OPENAI HAY LANZA GPT IMAGES 2.0 https://openai.com/index/introducing-ch ... mages-2-0/
Presentando ChatGPT Images 2.0, un modelo de imagen de última generación que puede abordar tareas visuales complejas y producir visuales precisos e inmediatamente utilizables, con edición más nítida, diseños más ricos e inteligencia a nivel de pensamiento.

Video realizado con ChatGPT Images

ChatGPT Images 2.0 representa un cambio radical en el seguimiento de instrucciones detalladas, la colocación y relación precisa de objetos, y el renderizado de texto denso, con la capacidad de generar en diferentes proporciones de aspecto.

También es preciso en varios idiomas y utiliza su conocimiento visual y del mundo ampliado para rellenar los vacíos por ti, por lo que obtienes imágenes más inteligentes con menos indicaciones.

Mayor Precisión y Control
Las Imágenes de ChatGPT 2.0 pueden conceptualizar imágenes más sofisticadas y luego materializar esa visión de manera efectiva.

Es capaz de seguir instrucciones, preservar los detalles solicitados y representar los elementos de granulación fina que a menudo rompen los modelos de imágenes: texto pequeño, iconografía, elementos de UI, composiciones densas y restricciones estilísticas sutiles, todo ello con una resolución de hasta 2K.

Más Fuerte Entre Idiomas
ChatGPT Images 2.0 puede producir imágenes con texto en idiomas no ingleses que no solo se representan correctamente, sino con un lenguaje que fluye de manera coherente.

Esto hace que el modelo sea más útil a nivel global y ayuda a las personas a crear visuales que funcionan en los idiomas que realmente utilizan.

Elegancia Estilística y Realismo Fotográfico
Las Imágenes de ChatGPT 2.0 es mejor capaz de capturar las características definitorias de las fotos, así como de fotogramas cinematográficos, arte pixelado, manga y otros lenguajes visuales distintivos, con mayor consistencia en textura, iluminación, composición y detalle fino.

Esto es especialmente útil para prototipado de juegos, guionización visual, creatividad en marketing y creación de activos en un medio o género particular.

Relaciones de Aspecto Flexibles
ChatGPT Images 2.0 admite relaciones de aspecto tan anchas como 3:1 y tan altas como 1:3. Puede generar salidas listas para ajustarse a los formatos que necesites, desde pancartas anchas y diapositivas de presentación hasta pósters y gráficos para redes sociales.

Un Socio de Pensamiento Visual
ChatGPT Images 2.0 es nuestro primer modelo de imagen con capacidades de pensamiento.

Cuando se selecciona un modelo de pensamiento en ChatGPT, Images 2.0 puede buscar en la web información en tiempo real, crear múltiples imágenes distintas a partir de un solo prompt, verificar doblemente sus propias salidas e incluso crear códigos QR funcionales.

Esto le permite asumir más de la carga pesada entre la idea y la imagen, especialmente cuando la precisión, la información actualizada, la consistencia y la cohesión visual importan más.

Inteligencia del Mundo Real
ChatGPT Images 2.0 cuenta con una actualización del corte de conocimiento hasta diciembre de 2025 y una inteligencia que le permite manejar de manera experta tareas de principio a fin, desde redacción hasta análisis y composición de diseño.

ChatGPT Images 2.0 está disponible a partir de hoy para todos los usuarios de ChatGPT y Codex.

Las imágenes con pensamiento están disponibles para los usuarios de ChatGPT Plus, Pro y Business (Enterprise próximamente). En dispositivos móviles, asegúrate de actualizar a la versión más reciente de la aplicación.

El modelo subyacente, gpt-image-2, está disponible en la API.

katatsumuri 27 abr 2026 09:36 *

17.265 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 27/04/2026 - 09:49:40 por katatsumuri.

VOICE-PRO https://github.com/abus-aikorea/voice-pro
Voice-Pro es una aplicación web de última generación impulsada por inteligencia artificial que revoluciona la creación de contenido multimedia. Integra múltiples herramientas en una sola plataforma: descarga de vídeos, separación de voz, reconocimiento, traducción y generación de voz. Voice-Pro es una solución completa y potente para el procesamiento de voz con IA. Su enfoque todo-en-uno lo convierte en una herramienta ideal para crear contenido multilingüe, automatizar tareas de audio y experimentar con tecnologías avanzadas de voz.
Imagen

🎙️ Voice-Pro
La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA

🌍 Idiomas compatibles

Coreano
Inglés
Chino (simplificado y tradicional)
Japonés
Alemán
Español
Portugués
Y más de 100 idiomas en total

🚀 Tecnologías principales

Reconocimiento de voz: Whisper, Faster-Whisper, Whisper con timestamps
Clonación de voz: F5-TTS, E2-TTS, CosyVoice (zero-shot)
Texto a voz: Edge-TTS, Kokoro (Azure TTS en versión de pago)
Procesamiento de YouTube: yt-dlp
Traducción automática: Deep-Translator (Azure Translator en versión de pago)

⭐ Características principales

1. 🎥 Estudio de doblaje

Descarga de vídeos de YouTube
Extracción de audio
Separación de voces con Demucs
Reconocimiento y traducción en más de 100 idiomas

2. 🎤 Tecnologías de voz

Speech-to-Text: Whisper y variantes
Text-to-Speech:
- Edge-TTS: más de 100 idiomas y 400 voces
- F5-TTS, E2-TTS, CosyVoice: clonación de voz sin entrenamiento previo
- Kokoro: altamente valorado en HuggingFace

3. 🌍 Traducción en tiempo real

Reconocimiento de voz instantáneo
Traducción automática multilingüe
Soporte para entradas de audio personalizadas

🤖 Interfaz Web (WebUI)

📌 Dubbing Studio

Centro todo-en-uno (YouTube, audio, subtítulos, traducción, TTS)
Compatible con formatos ffmpeg
Exportación: WAV, FLAC, MP3
Subtítulos en más de 100 idiomas
Control de velocidad, volumen y tono

📌 Whisper Caption

Generación de subtítulos en más de 90 idiomas
Subtítulos integrados en vídeo
Resaltado por palabras y reducción de ruido

📌 Translate

Traducción en más de 100 idiomas
Soporte para archivos SRT, ASS, SSA, etc.
Traducción y reconocimiento en tiempo real

📌 Speech Generation

Edge-TTS, F5-TTS, CosyVoice, Kokoro
Generación de voz estilo podcast
Clonación de voz multilingüe

🎥 Demostraciones

Demo general del sistema
Clonación de voz
Transcripción en tiempo real
Traducción multilingüe
AI Karaoke
NVIDIA RTX Video Super Resolution

⚠️ Aviso importante

El desarrollo de Voice-Pro está pausado debido al proyecto WeConnect
El código es completamente open source y gratuito
Puede ser modificado y redistribuido libremente
Optimizado principalmente para Windows con GPU NVIDIA
Compatibilidad con Mac y Linux no completamente verificada

🛠️ Solución de problemas
En muchos casos, los errores se solucionan eliminando la carpeta del proyecto y ejecutando:

configure.bat
start.bat

📰 Noticias y versiones

Versión 3.2

Proyecto liberado como código abierto
Compatible con Windows, Mac y Linux
Enfoque del equipo en WeConnect

WeConnect
Aplicación enfocada en intercambio cultural global, aprendizaje de idiomas y conexión entre personas de todo el mundo.

🎤 Voces disponibles

Inglés
Chino
Coreano
Japonés
(Se pueden solicitar nuevas voces en GitHub)

💻 Requisitos del sistema

Sistema operativo: Windows 10/11 (64 bits), Linux, Mac
GPU: NVIDIA con CUDA 12.4 (recomendado)
VRAM: 4GB mínimo (8GB recomendado)
RAM: 4GB mínimo
Almacenamiento: 20GB libres
Internet: obligatorio

TRELLIS.2 ( Microsoft 3D ) https://trellis2.com/es https://microsoft.github.io/TRELLIS.2/
TRELLIS.2 es un gran modelo generativo 3D diseñado para imagen a 3D: dada una sola imagen, produce una malla texturizada con atributos de material PBR (incluyendo opacidad). Está construido alrededor de una representación de vóxeles dispersos llamada O-Voxel, con el objetivo de mantener la topología fiel incluso para superficies abiertas y geometría no-manifold. Un modelo 3D de imagen de código abierto con 4 mil millones de parámetros que produce hasta 1536³ de recursos texturizados PBR , basado en VAE 3D nativos con compresión espacial de 16× , que ofrece una generación de recursos eficiente, escalable y de alta fidelidad .

POR QUÉ ES INTERESANTE
-Manejo de topología sin campos (no limitado por campos de isosuperficie)
-Apariencia rica: color base, rugosidad, metálico, opacidad
-Latentes estructurados compactos vía VAE 3D disperso (compresión espacial 16×)

katatsumuri 12 may 2026 10:31

17.265 mensajes
desde ene 2019
en bios

BRUSH ( GAUSSIAN SPLATTING ) https://github.com/ArthurBrussee/brush/releases
Brush es un motor de reconstrucción 3D que utiliza la técnica de dispersión gaussiana . Funciona en una amplia gama de sistemas: macOS, Windows, Linux , tarjetas AMD, Nvidia e Intel , Android y navegadores web . Para ello, utiliza tecnología compatible con WebGPU y el marco de aprendizaje automático Burn .

El aprendizaje automático para renderizado en tiempo real tiene un enorme potencial, pero la mayoría de las herramientas de ML no funcionan bien con él: el renderizado requiere interactividad en tiempo real, suele implicar formas y cálculos dinámicos, no se ejecuta en la mayoría de las plataformas y puede resultar engorroso distribuir aplicaciones con grandes dependencias de CUDA. Brush, en cambio, produce binarios sencillos sin dependencias, se ejecuta en casi todos los dispositivos y no requiere configuración.

WEB DEMO: https://arthurbrussee.github.io/brush-demo/

CARACTERÍSTICAS
-Entrenamiento;
Brush admite datos COLMAP o conjuntos de datos en formato Nerfstudio. El entrenamiento es totalmente compatible de forma nativa, en dispositivos móviles y en navegadores web. Durante el entrenamiento, puedes interactuar con la escena, observar la dinámica del entrenamiento en tiempo real y comparar la representación actual con las vistas de entrada a medida que avanza el proceso.

También admite el enmascaramiento de imágenes:

Imágenes con transparencia. Esto forzará que la mancha final coincida con la transparencia de la imagen de entrada.
Una carpeta de imágenes llamada 'máscaras'. Esto ignora las partes de la imagen que están enmascaradas.

Visualizador:
Brush también funciona bien como visor de salpicaduras, incluso en la web. Puede cargar archivos .ply y .compressed.ply. Puede transmitir datos desde una URL (para una aplicación web, simplemente agregue ?url=).

Brush también puede cargar archivos .zip de archivos splat para mostrarlos como una animación, o una capa especial que incluye fotogramas delta (¡ver cat-4D y Cap4D !).

CLI:
Brush se puede usar como una interfaz de línea de comandos (CLI). Ejecútalo brush --helppara obtener una descripción general. Todos los comandos de la CLI pueden funcionar con --with-viewer, que también abre la interfaz de usuario para facilitar la depuración.

katatsumuri 25 jul 2026 10:54 *

17.265 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 26/07/2026 - 01:51:10 por katatsumuri.

1 valoración positiva

La verdad que tiene muy buena pinta, pero a ver quien mueve esto en local

BLACK FOREST LABS PRESENTA FLUX 3
Un modelo multimodal para Imagen, Video, Audio y Predicción de Acciones. Las creaciones son más fieles a la vida en todo tipo de estilos.

Entrenado conjuntamente en una arquitectura unificada, nuestro modelo puede extenderse para predecir acciones en robótica. Consulta nuestro trabajo con mimic y Audi en el hilo.

FLUX 3 es nuestro nuevo modelo base multimodal. Aprende de forma conjunta a partir de imágenes, vídeos y audio dentro de una arquitectura unificada, porque lo que necesita aprender no es ninguno de estos elementos de forma aislada. En cambio, un modelo debe aprender una representación del mundo: cómo se mantienen unidos los objetos, cómo se mueven y cómo suenan los eventos.

Ninguna modalidad por sí sola ofrece una descripción completa. Cada una es una proyección de la misma realidad subyacente, capturada por diferentes sensores, cada uno de los cuales pierde información en el proceso. Las imágenes capturan estructuras y relaciones espaciales en un momento específico. Los videos restauran la dimensión del tiempo y revelan dinámicas temporales y leyes físicas. El audio revela relaciones causales entre fenómenos mecánicos y acústicos que la visión por sí sola no puede detectar. El lenguaje vincula estas percepciones con objetivos, abstracciones e instrucciones.

Aprende de una y obtendrás un buen modelo de esa proyección. Aprende de todas a la vez y sus restricciones mutuas te revelarán más: el sonido debe coincidir con el impacto, el movimiento debe obedecer a la masa, el futuro debe derivarse del pasado. Las modalidades dejan de ser independientes y comienzan a ser evidencia de una realidad subyacente.

FLUX 3 es nuestro primer modelo construido íntegramente sobre ese principio, y un hito en nuestra misión de desarrollar inteligencia visual para el mundo real: modelos que perciben, predicen y actúan en entornos físicos y digitales. Los primeros resultados en la creación de contenido e IA física sugieren que vamos por el buen camino.

FLUX 3: Un modelo, múltiples capacidades.
Imagen

Video
FLUX 3 puede crear vídeos muy diversos con audio de hasta 20 segundos de duración en una sola generación.

Sus capacidades principales incluyen las siguientes (todas las salidas cuentan con generación de audio nativa):

-Generación de texto a vídeo.
-Generación de vídeo a partir de imágenes, ya sea continuando desde un fotograma inicial ("animación") o utilizando imágenes como referencias visuales.
-Generación de vídeo a vídeo a partir de un clip de referencia, trasladando los elementos centrales de un vídeo fuente, por ejemplo el mismo personaje, a una nueva escena o contexto.
-Continuación generativa de vídeo y audio a partir de vídeo y audio de entrada.
-Generación de fotogramas clave a vídeo para transiciones controladas entre momentos definidos.
-Diálogo multilingüe.
-Una amplia gama de estilos visuales y relaciones de aspecto, que van mucho más allá de la producción cinematográfica convencional.
-Encadenamiento intencionado de clips individuales en secuencias más largas de múltiples tomas.
-Gran diversidad de estilos: FLUX 3 Video maneja fácilmente una amplia gama de estilos, desde grabaciones espontáneas con videocámara hasta animación y secuencias cinematográficas.
-Generación de tipografía potente y diseños animados.

Imagen
FLUX 3 puede sintetizar y editar imágenes en una amplia variedad de estilos, relaciones de aspecto y resoluciones. En las evaluaciones preliminares realizadas durante la fase de entrenamiento, FLUX 3 ya muestra una mejora significativa con respecto a las versiones anteriores de FLUX: su capacidad para gestionar indicaciones complejas y generar texto ha mejorado notablemente. El modelo produce una amplia gama de estilos de salida (véanse los siguientes ejemplos) y es capaz de generar texto de alta precisión en varios idiomas.

Acción
La comprensión del mundo de FLUX 3 se extiende a la predicción de acciones. Para ello, hemos seguido dos caminos: integrar la predicción de acciones nativa directamente en FLUX 3, ampliando nuestro trabajo inicial en Self-Flow; y utilizar la arquitectura de vídeo preentrenada como una base sensible a la dinámica a partir de la cual se pueden ajustar modelos de acción especializados con datos limitados específicos de la tarea.

En segundo lugar, Mimic Robotics fue uno de los primeros socios en obtener acceso anticipado a FLUX 3. Juntos desarrollamos FLUX-mimic, un modelo de acción de vídeo que combina la arquitectura base de FLUX 3 con la experiencia de Mimic en aprendizaje robótico para manipulación precisa e implementación en producción. Lea nuestra tesis sobre por qué la IA física y la creación de contenido se basan en los mismos fundamentos y cómo se está probando en tareas de producción reales en Audi.

Plan de lanzamiento
Durante las próximas semanas y meses, pondremos a disposición las siguientes funcionalidades, cada una tras una fase de acceso anticipado para garantizar una implementación fluida, recopilar comentarios y realizar pruebas de seguridad rigurosas. Todas las funcionalidades se basan en el mismo modelo subyacente de correspondencia de flujos multimodales. Estas funcionalidades y modelos incluyen:

-Generación y edición de vídeo y audio mediante API y acceso a pesos privados. (“FLUX 3 Video”)
-Predicción de acciones a través de socios comerciales y de investigación seleccionados, comenzando con la robótica de imitación ("FLUX-mimic y FLUX 3 Action").
-Síntesis y edición de imágenes mediante API y acceso a pesos privados. (“FLUX 3 Image”)
-Acceso abierto a una infraestructura multimodal para la creación de contenido (vídeo, audio e imagen) y la predicción de acciones. (“FLUX 3 Dev”)

También publicaremos más detalles técnicos sobre el enfoque subyacente.

https://bfl.ai/blog/flux-3

[HILO] Inteligencias Artificiales Generativas | IMAGEN - AUDIO - VÍDEO - 3D |