[HILO] Inteligencias Artificiales Generativas | IMAGEN - AUDIO - VÍDEO - 3D |

1, 2, 3
Lightricks lanza LTX DESKTOP, un editor de vídeo de IA que usa LTX

LTX DESKTOP https://github.com/Lightricks/LTX-Desktop/releases
LTX Desktop es una aplicación de escritorio de código abierto para generar videos con modelos LTX, localmente en GPU NVIDIA de Windows compatibles, con un modo API para hardware no compatible y macOS.
Estado: Beta. Se esperan cambios importantes. La arquitectura del frontend se encuentra en proceso de refactorización; por ahora, se podrían rechazar solicitudes de modificación de interfaz de usuario de gran tamaño.
Imagen


Características
-Generación de texto a vídeo
-Generación de imagen a vídeo
-Generación de audio a vídeo
-Generación de edición de video (Retoma)
-Interfaz del editor de vídeo
-Proyectos de edición de vídeo


En el modo de solo API, las resoluciones/duraciones disponibles pueden estar limitadas a lo que admite la API.
Imagen

Requisitos del sistema
Windows (generación local)
Windows 10/11 (x64)
GPU NVIDIA con soporte CUDA y ≥32 GB de VRAM (cuanto más, mejor)
16 GB+ de RAM (se recomiendan 32 GB)
Mucho espacio libre en disco para pesos y salidas de modelos

macOS (solo API)
Silicon de Apple (arm64)
macOS 13+ (Ventura)
Conexión a Internet estable


No consigo que me salgan los modelos en local y los he descargado, quizás es que no tengo suficiente VRAM como indican los requisitos mínimos y por eso no me sale.

UPSCALEAR IMÁGENES CON COMFYUI
He encontrado este flujo de trabajo para upscalear imágenes y va bastante bien
Imagen
Imagen

Ejemplos de reescalado
Imagen
Imagen

Imagen
Imagen


En general suele ser muy fiel al detalle original, simplemente lo incrementa y es un flujo sencillo que se procesa bastante rápido.

Hay que crear un archivo .json y pegar el texto para la plantilla, luego descargar los módulos necesarios que pida la plantilla en comfyui, en principio está configurado para NVIDIA pero se puede configurar para CPU
{
  "id": "d332fa4f-1f39-49d2-af15-063dc4b7515f",
  "revision": 0,
  "last_node_id": 16,
  "last_link_id": 17,
  "nodes": [
    {
      "id": 5,
      "type": "SeedVR2VideoUpscaler",
      "pos": [
        2068.181348011575,
        931.1260707749041
      ],
      "size": [
        329.956640625,
        386
      ],
      "flags": {},
      "order": 5,
      "mode": 0,
      "inputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "link": 2
        },
        {
          "name": "dit",
          "type": "SEEDVR2_DIT",
          "link": 3
        },
        {
          "name": "vae",
          "type": "SEEDVR2_VAE",
          "link": 4
        }
      ],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            1,
            17
          ]
        }
      ],
      "properties": {
        "cnr_id": "seedvr2_videoupscaler",
        "ver": "2.5.24",
        "Node name for S&R": "SeedVR2VideoUpscaler",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        9527,
        "fixed",
        2560,
        4096,
        1,
        false,
        "lab",
        0,
        0,
        0,
        0,
        "cpu",
        true
      ]
    },
    {
      "id": 2,
      "type": "SeedVR2LoadDiTModel",
      "pos": [
        1614.6994624982103,
        1090.0083715783621
      ],
      "size": [
        317.5630859375,
        202
      ],
      "flags": {},
      "order": 0,
      "mode": 0,
      "inputs": [
        {
          "name": "torch_compile_args",
          "shape": 7,
          "type": "TORCH_COMPILE_ARGS",
          "link": null
        }
      ],
      "outputs": [
        {
          "name": "SEEDVR2_DIT",
          "type": "SEEDVR2_DIT",
          "links": [
            3
          ]
        }
      ],
      "properties": {
        "cnr_id": "seedvr2_videoupscaler",
        "ver": "2.5.24",
        "Node name for S&R": "SeedVR2LoadDiTModel",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "seedvr2_ema_3b-Q4_K_M.gguf",
        "cuda:0",
        0,
        false,
        "cpu",
        false,
        "sdpa"
      ]
    },
    {
      "id": 3,
      "type": "SeedVR2LoadVAEModel",
      "pos": [
        1624.6362854154631,
        1359.4701133442259
      ],
      "size": [
        321.808203125,
        298
      ],
      "flags": {},
      "order": 1,
      "mode": 0,
      "inputs": [
        {
          "name": "torch_compile_args",
          "shape": 7,
          "type": "TORCH_COMPILE_ARGS",
          "link": null
        }
      ],
      "outputs": [
        {
          "name": "SEEDVR2_VAE",
          "type": "SEEDVR2_VAE",
          "links": [
            4
          ]
        }
      ],
      "properties": {
        "cnr_id": "seedvr2_videoupscaler",
        "ver": "2.5.24",
        "Node name for S&R": "SeedVR2LoadVAEModel",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "ema_vae_fp16.safetensors",
        "cuda:0",
        true,
        1024,
        128,
        true,
        1024,
        128,
        "false",
        "cpu",
        false
      ]
    },
    {
      "id": 4,
      "type": "SaveImage",
      "pos": [
        2540.2524058734894,
        752.0389881857375
      ],
      "size": [
        692.3956097028213,
        513.0973076654907
      ],
      "flags": {},
      "order": 6,
      "mode": 0,
      "inputs": [
        {
          "name": "images",
          "type": "IMAGE",
          "link": 1
        }
      ],
      "outputs": [],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.15.1",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "ComfyUI"
      ]
    },
    {
      "id": 14,
      "type": "Image Comparer (rgthree)",
      "pos": [
        2472.1742093154244,
        1338.7744725315279
      ],
      "size": [
        1136.207604739941,
        827.2972168047984
      ],
      "flags": {},
      "order": 7,
      "mode": 0,
      "inputs": [
        {
          "dir": 3,
          "name": "image_a",
          "type": "IMAGE",
          "link": 17
        },
        {
          "dir": 3,
          "name": "image_b",
          "type": "IMAGE",
          "link": 16
        }
      ],
      "outputs": [],
      "properties": {
        "cnr_id": "rgthree-comfy",
        "ver": "1.0.2512112053",
        "comparer_mode": "Slide",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        [
          {
            "name": "A",
            "selected": true,
            "url": "/api/view?filename=rgthree.compare._temp_zrbts_00092_.png&type=temp&subfolder=&rand=0.794164386191451"
          },
          {
            "name": "B",
            "selected": true,
            "url": "/api/view?filename=rgthree.compare._temp_zrbts_00093_.png&type=temp&subfolder=&rand=0.7237070125449392"
          }
        ]
      ]
    },
    {
      "id": 1,
      "type": "ImageScaleBy",
      "pos": [
        1648.7663993839426,
        872.3506055901372
      ],
      "size": [
        270,
        82
      ],
      "flags": {},
      "order": 4,
      "mode": 0,
      "inputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "link": 13
        }
      ],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            2
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.15.1",
        "Node name for S&R": "ImageScaleBy",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "lanczos",
        0.5
      ]
    },
    {
      "id": 16,
      "type": "Load Image Batch",
      "pos": [
        1242.276225306999,
        1315.86387345563
      ],
      "size": [
        299.708984375,
        270
      ],
      "flags": {},
      "order": 2,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "links": []
        },
        {
          "name": "filename_text",
          "type": "STRING",
          "links": null
        }
      ],
      "properties": {
        "cnr_id": "was-ns",
        "ver": "3.0.1",
        "Node name for S&R": "Load Image Batch",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "incremental_image",
        759772274022434,
        "randomize",
        0,
        "Batch 001",
        "C:\\Users\\desktop\\Pictures\\",
        "*",
        "false",
        "true"
      ]
    },
    {
      "id": 7,
      "type": "LoadImage",
      "pos": [
        1265.6886729741254,
        925.8946237418718
      ],
      "size": [
        282.798828125,
        314
      ],
      "flags": {},
      "order": 3,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            13,
            16
          ]
        },
        {
          "name": "MASK",
          "type": "MASK",
          "links": null
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.15.1",
        "Node name for S&R": "LoadImage",
        "ue_properties": {
          "widget_ue_connectable": {},
          "input_ue_unconnectable": {},
          "version": "7.7"
        }
      },
      "widgets_values": [
        "Screenshot_204png_2317d1df61.jpeg",
        "image"
      ]
    }
  ],
  "links": [
    [
      1,
      5,
      0,
      4,
      0,
      "IMAGE"
    ],
    [
      2,
      1,
      0,
      5,
      0,
      "IMAGE"
    ],
    [
      3,
      2,
      0,
      5,
      1,
      "SEEDVR2_DIT"
    ],
    [
      4,
      3,
      0,
      5,
      2,
      "SEEDVR2_VAE"
    ],
    [
      13,
      7,
      0,
      1,
      0,
      "IMAGE"
    ],
    [
      16,
      7,
      0,
      14,
      1,
      "IMAGE"
    ],
    [
      17,
      5,
      0,
      14,
      0,
      "IMAGE"
    ]
  ],
  "groups": [],
  "config": {},
  "extra": {
    "workflowRendererVersion": "LG",
    "ue_links": [],
    "ds": {
      "scale": 0.4736244074476865,
      "offset": [
        -1041.3096324764415,
        -632.5043914554459
      ]
    },
    "links_added_by_ue": [],
    "frontendVersion": "1.39.19"
  },
  "version": 0.4
}
ACE STEP UI / SUNO PERO OPEN SOURCE Y EN LOCAL
https://github.com/fspecii/ace-step-ui
ACE-Step UI es una interfaz web profesional para generar música con el modelo AI ACE-Step 1.5.
Permite crear canciones completas de forma local, gratuita y sin límites.
Imagen
  • Funciona completamente local
  • Compatible con GPU NVIDIA
  • Los modelos se descargan automáticamente



Característicaㅤ­­­­ㅤㅤSuno/UdioㅤㅤㅤㅤㅤInterfaz de usuario ACE-Step
Costoㅤㅤㅤㅤㅤㅤㅤ$10-50/mesㅤㅤㅤㅤㅤGRATIS para siempre
PrivacidadㅤㅤㅤㅤㅤBasado en la nubeㅤㅤ100% local
PropiedadㅤㅤㅤㅤㅤCon licenciaㅤㅤㅤㅤㅤEres dueño de todo
PersonalizaciónㅤㅤㅤLimitadoㅤㅤㅤㅤㅤㅤControl total
Límites de colaㅤㅤㅤRestringidoㅤㅤㅤㅤㅤIlimitado
Uso comercialㅤㅤㅤNiveles carosㅤㅤㅤㅤSin restricciones[/b]

¿Qué hace que ACE-Step 1.5 sea especial?
Calidad de vanguardia que rivaliza con los servicios comerciales
Generación de canciones completas de hasta 4 minutos o más con voces
Se ejecuta localmente : no requiere Internet después de la configuración
Código abierto : inspeccionar, modificar, mejorar
Desarrollo activo - mejoras constantes



Características
  • Generación de música con IA local
  • Interfaz moderna tipo Suno
  • Compatible con ACE-Step 1.5
  • Soporte para letras y estilos
  • Edición de audio integrada
  • Modelos LM seleccionables (0.6B / 1.7B / 4B)
  • Auto-descarga de modelos
  • Sin límites ni suscripciones


Requisitos
  • Python 3.10+
  • Node.js 18+
  • GPU recomendada (aunque puede funcionar en CPU)
  • ACE-Step instalado



Funciones principales
Text → Music
  • Introduce estilo musical
  • Añade letras
  • Genera canciones completas

Audio Editing
  • Editar canciones generadas
  • Repaint de partes
  • Extender canciones

AI Enhance
  • Mejora de calidad
  • Post-procesado de audio

Se puede instalar desde pinokio, con una 3080 me genera temas en unos treinta segundos
Imagen
Al parecer Grok desde su web se ha vuelto de pago, posiblemente es temporal, pero ya no deja crear imágenes ni vídeos de forma gratuita, y a través de twitter es bastante limitada la edición.

Estos días me bajé LTX con PINOKIO y aún siendo limitado va bien.

Generación de hasta 20 segundos a 540p, posibilidad de meter audio.
Lo que me gustaría es que pudiera hacer vídeos más largos, por ejemplo, agarrar el último frame generado y el audio seguirlo en el punto del segundo que no ha podido procesar, y a partir de allí procesar, que es como hacen otros workflows en comfyui, simplemente lo continúan así, igual se puede desde el editor, ya que solo estoy usando el playground.


No sé si es algo común o cosa de esa imagen, pero al final siempre me sale como un letrero raro, me ha pasado con la misma imagen en casi todas las generaciones.

https://ltx.io/model/model-blog/ltx-2-3-prompt-guide
Actualmente podéis usar uno de los mejores modelos generadores de imagen, NANO BANANA 2, gratis y de forma ilimitada desde https://labs.google/flow/about

Los vídeos si cuestan créditos, pero nano banana 2 y pro actualmente son gratuitos e ilimitados.


Grok a través de su web https://grok.com/ ha capado la generación de imagen y vídeo pero puede que vuelva pronto, a través de twitter se pueden generar imágenes por el moment de forma gratuita, aunque es mejor nano banana 2.
OPENAI HAY LANZA GPT IMAGES 2.0 https://openai.com/index/introducing-ch ... mages-2-0/
Presentando ChatGPT Images 2.0, un modelo de imagen de última generación que puede abordar tareas visuales complejas y producir visuales precisos e inmediatamente utilizables, con edición más nítida, diseños más ricos e inteligencia a nivel de pensamiento.

Video realizado con ChatGPT Images


ChatGPT Images 2.0 representa un cambio radical en el seguimiento de instrucciones detalladas, la colocación y relación precisa de objetos, y el renderizado de texto denso, con la capacidad de generar en diferentes proporciones de aspecto.

También es preciso en varios idiomas y utiliza su conocimiento visual y del mundo ampliado para rellenar los vacíos por ti, por lo que obtienes imágenes más inteligentes con menos indicaciones.

Mayor Precisión y Control
Las Imágenes de ChatGPT 2.0 pueden conceptualizar imágenes más sofisticadas y luego materializar esa visión de manera efectiva.

Es capaz de seguir instrucciones, preservar los detalles solicitados y representar los elementos de granulación fina que a menudo rompen los modelos de imágenes: texto pequeño, iconografía, elementos de UI, composiciones densas y restricciones estilísticas sutiles, todo ello con una resolución de hasta 2K.


Más Fuerte Entre Idiomas
ChatGPT Images 2.0 puede producir imágenes con texto en idiomas no ingleses que no solo se representan correctamente, sino con un lenguaje que fluye de manera coherente.

Esto hace que el modelo sea más útil a nivel global y ayuda a las personas a crear visuales que funcionan en los idiomas que realmente utilizan.

Elegancia Estilística y Realismo Fotográfico
Las Imágenes de ChatGPT 2.0 es mejor capaz de capturar las características definitorias de las fotos, así como de fotogramas cinematográficos, arte pixelado, manga y otros lenguajes visuales distintivos, con mayor consistencia en textura, iluminación, composición y detalle fino.

Esto es especialmente útil para prototipado de juegos, guionización visual, creatividad en marketing y creación de activos en un medio o género particular.


Relaciones de Aspecto Flexibles
ChatGPT Images 2.0 admite relaciones de aspecto tan anchas como 3:1 y tan altas como 1:3. Puede generar salidas listas para ajustarse a los formatos que necesites, desde pancartas anchas y diapositivas de presentación hasta pósters y gráficos para redes sociales.

Un Socio de Pensamiento Visual
ChatGPT Images 2.0 es nuestro primer modelo de imagen con capacidades de pensamiento.

Cuando se selecciona un modelo de pensamiento en ChatGPT, Images 2.0 puede buscar en la web información en tiempo real, crear múltiples imágenes distintas a partir de un solo prompt, verificar doblemente sus propias salidas e incluso crear códigos QR funcionales.

Esto le permite asumir más de la carga pesada entre la idea y la imagen, especialmente cuando la precisión, la información actualizada, la consistencia y la cohesión visual importan más.

Inteligencia del Mundo Real
ChatGPT Images 2.0 cuenta con una actualización del corte de conocimiento hasta diciembre de 2025 y una inteligencia que le permite manejar de manera experta tareas de principio a fin, desde redacción hasta análisis y composición de diseño.


ChatGPT Images 2.0 está disponible a partir de hoy para todos los usuarios de ChatGPT y Codex.

Las imágenes con pensamiento están disponibles para los usuarios de ChatGPT Plus, Pro y Business (Enterprise próximamente). En dispositivos móviles, asegúrate de actualizar a la versión más reciente de la aplicación.

El modelo subyacente, gpt-image-2, está disponible en la API.


VOICE-PRO https://github.com/abus-aikorea/voice-pro
Voice-Pro es una aplicación web de última generación impulsada por inteligencia artificial que revoluciona la creación de contenido multimedia. Integra múltiples herramientas en una sola plataforma: descarga de vídeos, separación de voz, reconocimiento, traducción y generación de voz. Voice-Pro es una solución completa y potente para el procesamiento de voz con IA. Su enfoque todo-en-uno lo convierte en una herramienta ideal para crear contenido multilingüe, automatizar tareas de audio y experimentar con tecnologías avanzadas de voz.
Imagen
🎙️ Voice-Pro
La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA

🌍 Idiomas compatibles
  • Coreano
  • Inglés
  • Chino (simplificado y tradicional)
  • Japonés
  • Alemán
  • Español
  • Portugués
  • Y más de 100 idiomas en total


🚀 Tecnologías principales
  • Reconocimiento de voz: Whisper, Faster-Whisper, Whisper con timestamps
  • Clonación de voz: F5-TTS, E2-TTS, CosyVoice (zero-shot)
  • Texto a voz: Edge-TTS, Kokoro (Azure TTS en versión de pago)
  • Procesamiento de YouTube: yt-dlp
  • Traducción automática: Deep-Translator (Azure Translator en versión de pago)


⭐ Características principales

1. 🎥 Estudio de doblaje
  • Descarga de vídeos de YouTube
  • Extracción de audio
  • Separación de voces con Demucs
  • Reconocimiento y traducción en más de 100 idiomas

2. 🎤 Tecnologías de voz
  • Speech-to-Text: Whisper y variantes
  • Text-to-Speech:
    • Edge-TTS: más de 100 idiomas y 400 voces
    • F5-TTS, E2-TTS, CosyVoice: clonación de voz sin entrenamiento previo
    • Kokoro: altamente valorado en HuggingFace

3. 🌍 Traducción en tiempo real
  • Reconocimiento de voz instantáneo
  • Traducción automática multilingüe
  • Soporte para entradas de audio personalizadas



🤖 Interfaz Web (WebUI)

📌 Dubbing Studio
  • Centro todo-en-uno (YouTube, audio, subtítulos, traducción, TTS)
  • Compatible con formatos ffmpeg
  • Exportación: WAV, FLAC, MP3
  • Subtítulos en más de 100 idiomas
  • Control de velocidad, volumen y tono

📌 Whisper Caption
  • Generación de subtítulos en más de 90 idiomas
  • Subtítulos integrados en vídeo
  • Resaltado por palabras y reducción de ruido

📌 Translate
  • Traducción en más de 100 idiomas
  • Soporte para archivos SRT, ASS, SSA, etc.
  • Traducción y reconocimiento en tiempo real

📌 Speech Generation
  • Edge-TTS, F5-TTS, CosyVoice, Kokoro
  • Generación de voz estilo podcast
  • Clonación de voz multilingüe



🎥 Demostraciones
  • Demo general del sistema
  • Clonación de voz
  • Transcripción en tiempo real
  • Traducción multilingüe
  • AI Karaoke
  • NVIDIA RTX Video Super Resolution


⚠️ Aviso importante
  • El desarrollo de Voice-Pro está pausado debido al proyecto WeConnect
  • El código es completamente open source y gratuito
  • Puede ser modificado y redistribuido libremente
  • Optimizado principalmente para Windows con GPU NVIDIA
  • Compatibilidad con Mac y Linux no completamente verificada

🛠️ Solución de problemas
En muchos casos, los errores se solucionan eliminando la carpeta del proyecto y ejecutando:
  • configure.bat
  • start.bat


📰 Noticias y versiones

Versión 3.2
  • Proyecto liberado como código abierto
  • Compatible con Windows, Mac y Linux
  • Enfoque del equipo en WeConnect

WeConnect
Aplicación enfocada en intercambio cultural global, aprendizaje de idiomas y conexión entre personas de todo el mundo.


🎤 Voces disponibles
  • Inglés
  • Chino
  • Coreano
  • Japonés
  • (Se pueden solicitar nuevas voces en GitHub)


💻 Requisitos del sistema
  • Sistema operativo: Windows 10/11 (64 bits), Linux, Mac
  • GPU: NVIDIA con CUDA 12.4 (recomendado)
  • VRAM: 4GB mínimo (8GB recomendado)
  • RAM: 4GB mínimo
  • Almacenamiento: 20GB libres
  • Internet: obligatorio




TRELLIS.2 ( Microsoft 3D ) https://trellis2.com/es https://microsoft.github.io/TRELLIS.2/
TRELLIS.2 es un gran modelo generativo 3D diseñado para imagen a 3D: dada una sola imagen, produce una malla texturizada con atributos de material PBR (incluyendo opacidad). Está construido alrededor de una representación de vóxeles dispersos llamada O-Voxel, con el objetivo de mantener la topología fiel incluso para superficies abiertas y geometría no-manifold. Un modelo 3D de imagen de código abierto con 4 mil millones de parámetros que produce hasta 1536³ de recursos texturizados PBR , basado en VAE 3D nativos con compresión espacial de 16× , que ofrece una generación de recursos eficiente, escalable y de alta fidelidad .


POR QUÉ ES INTERESANTE
-Manejo de topología sin campos (no limitado por campos de isosuperficie)
-Apariencia rica: color base, rugosidad, metálico, opacidad
-Latentes estructurados compactos vía VAE 3D disperso (compresión espacial 16×)

105 respuestas
1, 2, 3