[HILO] Inteligencias Artificiales Generativas IMAGEN - AUDIO - VÍDEO

katatsumuri 14 may 2023 10:50 *

16.371 mensajes
desde ene 2019
en bios

Editado 30 veces. Última: 25/11/2025 - 19:49:52 por katatsumuri.

INTELIGENCIAS ARTIFICIALES GENERATIVAS

IMAGEN - AUDIO - VÍDEO - 3D

La función de este hilo es recopilar los diferentes modelos de este tipo de inteligencias artificiales generativas, así como ser un lugar de encuentro para preguntar por la existencia de determinados modelos, este hilo no pretende ser un hilo en concreto de uno de los modelos ni nada de eso, aunque enlazaré el link de los hilos de los modelos que tengan hilos oficiales en el foro, en caso de que estas tengan ya uno, para que los usuarios puedan preguntar sus dudas en el hilo oficial del modelo concretamente.

A lo largo de los años irán apareciendo de la nada nuevas empresas con nuevos modelos mucho más sofisticados que los que ahora conocemos, por lo que puede que las IAs de la cabecera de este hilo queden totalmente desfasadas en cuestión de días, meses o años, así que la función de este hilo es mantenernos actualizados con los modelos más punteros y sofisticados, así como saber si son de pago, públicos, conocer funciones básicas, las limitaciones y las posibilidades, etc...

Algunos conceptos:

-IA PROPIETARIA: generalmente su acceso es limitado, mediante navegador web, por ejemplo, y puede ser de pago. Lo bueno es que seguramente no vamos a necesitar hardware propio. También las hay propietarias que se ejecutan en local mediante software de pago como Gigapixel de Topaz Labs.
-IA DE CÓDIGO ABIERTO: suele ser gratuita y se puede ejecutar de forma local desde nuestro ordenador sin necesidad de pasar por los servidores de otra compañía.
-GOOGLE COLAB: Lo veréis mucho con modelos de IA, esta interfaz web de google en forma de cuaderno nos permite programar IAs de código abierto usando hardware de NVIDIA de forma gratuita de los servidores de google, vamos, por poner un ejemplo, podremos entrenar un modelo de stable diffusion de nosotros mismos en menos de una hora usando una GPU de las más potentes de nvidia gratis, simplemente con tener una cuenta GMAIL.
-Prompt: son los carácteres que tendremos que dar al modelo de IA para que nos cree lo que queramos, generalmente se usa texto "dibújame una manzana de color verde, 4K, ultra HD, HDR".

PINOKIO https://pinokio.computer/ https://github.com/pinokiocomputer/pinokio/releases
Pinokio es un software gratuito y de código abierto que funciona como un gestor e instalador de IAs locales y abiertas que funciona mediante scripts, estos scripts permiten su instalación de una forma automatizada sin necesidad de recurrir a tener que hacer mil instalaciones y configuraciones complejas teniendo que ir a cada github, buscado cada versión de python, etc... Es simplemente una interfaz gráfica agradable donde buscas la IA que quieres, le das a instalar y se instala automáticamente en el ordenador, desde pinokio también la lanzas.

Para mi es actualmente la herramienta más importante ya que recopila la mayor parte de estas.
Imagen

IMAGEN
Aquí hay algunos modelos de IA basados en la generación de imagen y reescalado de imagen, algunos puede que ya hayan quedado obsoletos con el paso de los años:
Imagen

STABLE DIFFUSION ( IA de código abierto y gratuita )
Stable Diffusion es un modelo de aprendizaje automático desarrollado por Runway y LMU Munichpara generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural o estímulos.
https://stability.ai/

Hilo: hilo_ho-stable-diffusion-el-principio-del-fin-de-los-disenadores_2463295

MIDJOURNEY (IA propietaria y de pago)
Midjourney es un laboratorio independiente de investigación y el nombre de un programa de inteligencia artificial con el cual sus usuarios pueden crear imágenes a partir de descripciones textuales, similar a Dall-e de OpenAI y al Stable Diffusion. Actualmente su uso solo es posible a través de su discord oficial, y además es de pago, aunque a veces ofrecen un tiempo de prueba gratuito.
https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F

DALL-E (IA propietaria)
DALL-E es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales o estímulos, reveladas por OpenAI el 5 de enero de 2021.
https://openai.com/product/dall-e-2

GIGAPIXEL AI / TOPAZ PHOTO AI (propietaria de pago mediante software)
Es una IA GAN de reescalado de imagen y retexturizado para la restauración de imágenes y que pertenece a la empresa TOPAZ. La única forma de acceder a ella es comprar gigapixel, que es el programa que ejecuta sus modelos de forma local, podemos usarlo de forma offline, pues las imágenes será procesadas por nuestra GPU.

https://www.topazlabs.com/gigapixel-ai

https://www.topazlabs.com/topaz-photo-ai

VÍDEO
Aquí hay algunos modelos de IA basados en la generación de vídeo y reescalado de imagen, algunos puede que ya hayan quedado obsoletos con el paso de los años:
RUNAWAY Gen-1 ( IA propietaria de uso público)
Es lo más actual en generación de vídeo por inteligencia artificial, de texto a vídeo, de vídeo a vídeo, además la empresa ofrece muchas más herramientas de vídeo por IA para la edición de este.
https://research.runwayml.com/gen1
https://twitter.com/runwayml

AUDIO
Aquí hay algunos modelos de IA basados en la generación o modificación de audio, algunos puede que ya hayan quedado obsoletos con el paso de los años:

UBERDUCK AI ( IA propietaria de uso público)
Es una plataforma que ofrece clonación de voz, podemos clonar cualquier voz, y además de eso ofrece una amplia librería de voces de personas famosas que se articulan de forma totalmente natural, entre ellas hay voces de artistas musicales con los que podremos crear canciones con simplemente escribirle un texto.
https://uberduck.ai/

DESCRIPT AI overdub (IA propietaria de uso público pero con limitaciones)
Es una herramienta que trascribe de texto a voz y de voz a texto con una síntesis de voz completamente natural, pero además de eso tiene uno de los modelos más avanzados en clonación de voz, si, podemos clonar nuestra propia voz; la calidad del modelo dependerá del tiempo de entrenamiento que dediquemos entrenándolo con nuestra voz, el entrenamiento suele hacerse leyendo un texto.
https://www.descript.com/

dinamita4922 14 may 2023 14:06

MegaAdicto!!!

5.239 mensajes
desde ene 2005
en sevilla

@katatsumuri muchas gracias compañero por la iniciativa

Hace poco un amigo me empezó a comentar el tema, pero para mi todo esto es arameo

Me estuvo preguntando sobre que equipo montar...sobre todo a nivel de gpu...pero ni papa del tema, así que no pude aconsejarle nada

Me quedare por aquí a ver si aprendo algo

katatsumuri 14 may 2023 14:33 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 14/05/2023 - 14:51:47 por katatsumuri.

EBSYNTH (gratuita)
Esta IA la quería poner pero no en el post principal ya que creo que esta IA será abducida rápido por IAs de la misma compañía que generan imágenes, pero en la actualidad esta IA básicamente permite animar imágenes a partir de vídeos, puedes animar imágenes creadas con stable diffusion, por poner un ejemplo.

https://ebsynth.com/

STABLE ANIMATION ( abierta )
Como dije, ahí ya están los creadores de stable diffusion con su respuesta a EBSYNTH con su IA capaz de animar.
https://stability.ai/blog/stable-animation-sdk

Stability AI, la empresa líder mundial en inteligencia artificial de código abierto, lanza hoy Stable Animation SDK, una herramienta diseñada para que artistas y desarrolladores implementen los modelos más avanzados de Stable Diffusion para generar animaciones asombrosas

Los usuarios pueden crear animaciones de varias formas: mediante instrucciones (sin imágenes), una imagen de origen o un vídeo de origen.

Con el punto final de animación de Stability AI, los artistas tienen la posibilidad de utilizar todos los modelos de Stable Diffusion, incluidos Stable Diffusion 2.0 y Stable Diffusion XL, para generar animaciones.

Ofrecemos tres formas de crear animaciones:

-Texto a animación: Los usuarios introducen un texto (como con Stable Diffusion) y ajustan varios parámetros para producir una animación.

-Texto + imagen inicial: Los usuarios proporcionan una imagen inicial que actúa como punto de partida de su animación. Se utiliza un texto junto con la imagen para producir la animación final.

-Entrada de vídeo + entrada de texto: Los usuarios proporcionan un vídeo inicial en el que basar su animación. Modificando varios parámetros, se obtiene una animación final guiada por un texto.

DEEPFACELAB
Es una inteligencia artificial que hace face swap para crear deepfakes, no apta para cualquier GPU.

https://github.com/iperov/DeepFaceLab
https://mega.nz/folder/Po0nGQrA#dbbttiNWojCt8jzD4xYaPw

@dinamita4922 muchas al ser privadas todo es procesado por los servidores de la plataforma, no necesitas una GPU potente de nvidia, otras puedes entrenar los modelos por google colab, con una GPU de NVIDIA potente y gratis, ya si es algo abierto que ejecutas en el ordenador si necesitarás algo más potente, pero dependerá de que tipo de modelo de IA, por ejemplo, Deepfacelive consume mucho, digamos que una 3070ti no mueve bien el vídeo ni a 1080 7fps, necesitas una 3090 para tener fluidez de imagen, pero por ejemplo, para usar gigapixel, un reescalador gan de imágenes, puedes hacerlo perfectamente con los núcleos CUDA de una GTX 970

dinamita4922 14 may 2023 14:44

MegaAdicto!!!

5.239 mensajes
desde ene 2005
en sevilla

@katatsumuri

Muchas gracias por la aclaración compi

El quiere hacerlo pero con su equipo propio, y estaba buscando una gpu NVIDIA RTX y ne hacia mucho hincapié en la cantidad de VRAM...por lo que entendí, necesitaba mas de 8 gigas

katatsumuri 14 may 2023 14:47 *

16.371 mensajes
desde ene 2019
en bios

Editado 10 veces. Última: 20/05/2023 - 09:36:09 por katatsumuri.

@dinamita4922 supongo que quiere entrenar modelos, entonces seguramente si necesitará una GPU bastante potente y con más VRAM, la mayoría de las IAs que yo he puesto son modelos ya entrenados, son IAs que puede usar casi cualquiera, incluso sin hardware potente, ya que como dije, en muchos casos te conectas a una web y tu gpu no procesa nada, pero entrenar modelos ya es otra película.

DRAG YOUR GAN
Con esta IA generativa de imagen podremos manipular imágenes, animarlas, corregir posiciones, gestos, expresiones faciales, etc...
https://huggingface.co/papers/2305.10973

GEN-2 (texto a vídeo)
Es la nueva versión de GEN-1 y muestra una evolución bastante grande respecto al anterior modelo. Con esta IA podremos generar vídeos a partir de texto, sin duda el futuro del cine procedural.

dinamita4922 20 may 2023 00:08 *

MegaAdicto!!!

5.239 mensajes
desde ene 2005
en sevilla

Editado 1 vez. Última: 20/05/2023 - 00:10:11 por dinamita4922.

@katatsumuri si, quiere entrenar modelos, he hablado con el y me ha dicho que se esta planteando comprar una rtx3060/3080...

Me imagino que la GPU mientras mas potente mejor no?? O interesa que tenga mas VRAM?? Lo digo por la rtx 3060 de 12 gigas

Las AMD valdrían?? O quedan descartada en este contexto??

Y la CPU?? Es recomendable una CPU potente?? O el trabajo recae sobre la GPU??
Tiene un i5 8400

katatsumuri 20 may 2023 10:56 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 20/05/2023 - 11:07:22 por katatsumuri.

dinamita4922 escribió:@katatsumuri si, quiere entrenar modelos, he hablado con el y me ha dicho que se esta planteando comprar una rtx3060/3080...

Me imagino que la GPU mientras mas potente mejor no?? O interesa que tenga mas VRAM?? Lo digo por la rtx 3060 de 12 gigas

Las AMD valdrían?? O quedan descartada en este contexto??

Y la CPU?? Es recomendable una CPU potente?? O el trabajo recae sobre la GPU??
Tiene un i5 8400

No tengo mucho entendimiento sobre entrenar IAs, pero en general se necesita una buena GPU, lo que supongo que importa es tanto memoria, cuanto más grande sea el modelo más memoria supongo que es necesaria, se necesitan bastantes GB para entrenar modelos decentes, 24 es lo más recomendable, y luego está el tema de los tensor cores supongo, cuantos más tensor cores tenga la GPU pues más rápida será entrenando.

Si se van a entrenar IAs yo no iría a comprar una 3060 porque tendrá pocos tensor cores supongo, poco poder de cómputo, ni idea de cuantos tiene, hay que buscar un equilibrio entre VRAM y poder de cómputo.

Se pueden entrenar IAs con GPUs de AMD? Pues supongo, pero no serán tan eficientes debido a que no tienen tensor cores, se puede hasta con un procesador ( CPU ).

Es importante la CPU, pues si, es importante, supongo que gestionará algunas parte del código, así que si.

De todas formas ya te digo que no soy entendido del tema, nunca he entenado una IA, lo intenté con la 3070ti pero lo di por perdido por el tema de poca memoria, casi es mejor irte a google colab o pagar por Cloud TPU de google, acelerarás bastante el trabajo teniendo acceso a hardware dedicado más potente que lo que podrías gastar en comprar una 3060

katatsumuri 25 may 2023 14:28 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 25/05/2023 - 14:30:10 por katatsumuri.

ADOBE IMPLEMENTA EN PHOTOSHOP SU IA ADOBE FIREFLY
Podremos encontrar esta implementación en forma de beta en el apartado de Generative Fill.

Photoshop, uno de los programas de edición más populares de la suite de Adobe, se ha actualizado con la integración de Adobe Firefly, el potente modelo de IA de la compañía que permite crear imágenes a partir de una breve descripción de texto, y que promete ahorrar horas de trabajo.

La compañía ha incluido su modelo de IA en una característica disponible en Photoshop llamada Generative Fill, y funciona de forma similar a DALL-E u otras plataformas impulsadas con inteligencia artificial que permiten crear diseños mediante una descripción de texto. En el caso de Adobe, la característica también es capaz de eliminar o añadir elementos en una fotografía mediante IA, así como ampliar la imagen en caso de que sea necesario; función también disponible en DALL-E.

A diferencia de los modelos de OpenAI o Midjourney, que simplemente crean la imagen sin posibilidad de editarla a posteriores, Generative Fill realiza los diseños en una nueva “capa generativa” para que los usuarios puedan continuar trabajando en la edición de sus fotografías de una forma más intuitiva. Esta función, además, se integrará en todas las herramientas de selección de Photoshop. Por el momento, eso sí, Generative Fill solo está disponible en la aplicación de Photoshop para escritorio, y se encuentra en fase Beta.

Aquí un ejemplo de los resultados que puede generar la nueva función de IA de Photoshop; incluyendo la expansión de la imagen y la creación de elementos en la fotografía.

Photoshop recibe otras funciones impulsadas por IA
En paralelo, Adobe ha anunciado diferentes funciones para mejorar la experiencia de edición en Photoshop, como un nuevo modo de ajustes preestablecidos. Esta función permite ver y aplicar filtros a una imagen de una forma mucho más intuitiva, sin necesidad de que sea el usuario quien ajusta las tonalidades, etc. Por el momento, Photoshop integra 32 ajustes preestablecidos que se pueden aplicar y deshacer fácilmente, así como editar en caso de que sea necesario.

Otra característica impulsada mediante IA que integra Photoshop es la herramienta Remove. Esta permite eliminar elementos de una imagen simplemente pasando el pincel por encima. Funciona, sobre todo, en objetos grandes.

Relacionado con la inteligencia artificial y el aprendizaje automático, Adobe ha incluido en Photoshop una nueva barra de tareas contextual. Esta aparece durante el proceso de edición de una imagen y muestra accesos directos a los siguientes pasos y opciones que el usuario podría realizar. Por ejemplo, si un usuario selecciona un objeto, la barra de tareas contextual mostrará accesos para seleccionar, enmascarar, crear una capa, etc.

Adobe, por último, ha actualizado la función de degradados. Ahora es más sencillo crear un degradado y se integran, además, nuevos controles de lienzo para hacerlo más personalizable. Esta y el resto de funciones se irán implementando de forma progresiva en la app.

https://hipertextual.com/2023/05/el-fut ... va-firefly

dinamita4922 26 may 2023 08:27

MegaAdicto!!!

5.239 mensajes
desde ene 2005
en sevilla

katatsumuri escribió:

dinamita4922 escribió:@katatsumuri si, quiere entrenar modelos, he hablado con el y me ha dicho que se esta planteando comprar una rtx3060/3080...

Me imagino que la GPU mientras mas potente mejor no?? O interesa que tenga mas VRAM?? Lo digo por la rtx 3060 de 12 gigas

Las AMD valdrían?? O quedan descartada en este contexto??

Y la CPU?? Es recomendable una CPU potente?? O el trabajo recae sobre la GPU??
Tiene un i5 8400

No tengo mucho entendimiento sobre entrenar IAs, pero en general se necesita una buena GPU, lo que supongo que importa es tanto memoria, cuanto más grande sea el modelo más memoria supongo que es necesaria, se necesitan bastantes GB para entrenar modelos decentes, 24 es lo más recomendable, y luego está el tema de los tensor cores supongo, cuantos más tensor cores tenga la GPU pues más rápida será entrenando.

Si se van a entrenar IAs yo no iría a comprar una 3060 porque tendrá pocos tensor cores supongo, poco poder de cómputo, ni idea de cuantos tiene, hay que buscar un equilibrio entre VRAM y poder de cómputo.

Se pueden entrenar IAs con GPUs de AMD? Pues supongo, pero no serán tan eficientes debido a que no tienen tensor cores, se puede hasta con un procesador ( CPU ).

Es importante la CPU, pues si, es importante, supongo que gestionará algunas parte del código, así que si.

De todas formas ya te digo que no soy entendido del tema, nunca he entenado una IA, lo intenté con la 3070ti pero lo di por perdido por el tema de poca memoria, casi es mejor irte a google colab o pagar por Cloud TPU de google, acelerarás bastante el trabajo teniendo acceso a hardware dedicado más potente que lo que podrías gastar en comprar una 3060

Muchas gracias por la aclaración compañero. Estuve hablando con mi amigo y ne indica que entonces se esta planteando de pillar una rtx 3080 mínimo.....el i5 8400 lo probara, y si no le convence pues pillarla alguno mas actual

katatsumuri 26 may 2023 14:30

16.371 mensajes
desde ene 2019
en bios

PLUGIN STABLE DIFFUSION PARA PHOTOSHOP
https://exchange.adobe.com/apps/cc/1141 ... -diffusion

PLUGIN STABLE DIFFUSION PARA BLENDER
https://blendermarket.com/products/stab ... or-blender

Los dos plugins son totalmente gratuitos.

#580976# 27 may 2023 11:17 *

dinamita4922 escribió:@katatsumuri si, quiere entrenar modelos, he hablado con el y me ha dicho que se esta planteando comprar una rtx3060/3080...

Me imagino que la GPU mientras mas potente mejor no?? O interesa que tenga mas VRAM?? Lo digo por la rtx 3060 de 12 gigas

Las AMD valdrían?? O quedan descartada en este contexto??

Y la CPU?? Es recomendable una CPU potente?? O el trabajo recae sobre la GPU??
Tiene un i5 8400

Busca toms hardware IA y hay un artículo buenísimo que te pone un ranking de las mejores gráficas.

En amd está más verde la cosa y necesitas usar Linux normalmente

Imagen

@katatsumuri Lo de adobe es una locura lo que han hecho te recomiendo probarlo. Yo hice un hilo de imágenes pero no tuvo éxito a ver si este lo tiene. Aunque en este foro el tema IA solo se llenan los hilos de alarmisml

dinamita4922 27 may 2023 17:05 *

MegaAdicto!!!

5.239 mensajes
desde ene 2005
en sevilla

Editado 1 vez. Última: 27/05/2023 - 17:12:42 por dinamita4922.

@bacogod gracias por la info compañero, le voy a echar un vistazo

edito...sera este no??

https://www.tomshardware.com/news/stabl ... benchmarks

#580976# 27 may 2023 17:18

dinamita4922 escribió:@bacogod gracias por la info compañero, le voy a echar un vistazo

edito...sera este no??

https://www.tomshardware.com/news/stabl ... benchmarks

Yes, es cierto que claro ya con tanta gráfica esta desactualizado no se si lo actualizaran faltan la 4060 la ti y la 4070 a secas pero vamos que viendo el articulo mas o menos sabes que puntuacion sacaran

katatsumuri 27 may 2023 17:27 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 27/05/2023 - 17:34:52 por katatsumuri.

Por cierto, esa 7900 en cabeza es extraño no? Supongo que le han metido núcleos de IA o algo no? Porque las demás parecen estar en la cola, pero esa está exactamente en la cúspide casi.

De todas formas creo que para stable diffusion no se utilizan los tensor cores, se utilizan los núcleos cuda, aunque creo que hay formas de usar los tensor cores para acelerar el proceso generativo, que alguien me corrija, porque si fuese así ese gráfico creo que no sería muy fiable a la hora quizás de entrenar modelos, mejor sería uno donde se han entrenado modelos.

Al parecer la 7900 xt si llevaría unos AI acelerators, y si servirían para entrenar.

Highrider 27 may 2023 17:59 *

Habitual

42 mensajes
desde abr 2023

Editado 1 vez. Última: 27/05/2023 - 18:01:48 por Highrider.

Highrider está baneado por "troll"

Tengo mid ojurney version pro por trabajo, está muy bien, pero busco una IA que escribas párrafos y por cada uno te cree una imagen de calidad relacionada.

katatsumuri 28 may 2023 00:23 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 28/05/2023 - 00:24:09 por katatsumuri.

¿CÓMO USAR LA IA GENERATIVA PARA CREAR EL ARTE DE UN VIDEOJUEGO?

En este blog se explica de forma detallada como se generó el arte del juego Echoes of Somewhere: Series 1 usando IA (stable diffusion y midjourney)
https://echoesofsomewhere.com/2023/01/0 ... -graphics/

Imagen

https://echoesofsomewhere.com/2023/01/0 ... -graphics/

Como un pequeño y divertido prototipo, quería ver cuánto trabajo sería usar IA para crear la mayor cantidad de arte posible para un juego de estilo de apuntar y hacer clic en 2.5D.

Supuse que los fondos serían un hecho, ya que el juego sería prácticamente en 2D, pero los personajes eran más complicados. Necesitaría tener una canalización ultrarrápida, una canalización que me permita usar datos de captura de movimiento para que la creación de animaciones no sea un cuello de botella. Necesitaba una forma de traducir el arte generado por IA en una forma que pudiera aceptar la captura de movimiento.

La mejor manera parecía ser generar conceptos de personajes con IA y modelarlos en 3D.

He estado trabajando en la industria de los juegos durante más de 20 años, modelando personajes y fondos en gran parte. Por lo tanto, sería interesante ver cómo la IA me permitiría trabajar más rápido. ¿Y por cuánto?

Planeé usar los personajes solo en tomas amplias, por lo que la posible baja calidad o los detalles desordenados no importarían tanto, pero la tecnología de IA ha recorrido un largo camino desde entonces y la coherencia del arte es mucho mejor de lo que solía ser. Hace apenas unos meses.

Construir rápido rápido
Empecé ordenando a la IA (Midjourney en este proto, pero uso más stable diffusion) para hacerme una hoja modelo con imágenes rotativas de un personaje. Similar al que tendrías en un estudio de animación. Ese sería un buen punto de partida para algo como esto.

katatsumuri 02 jun 2023 01:40 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 2/06/2023 - 01:41:14 por katatsumuri.

NVIDIA NEURALANGELO / GENERA RÉPLICAS 3D CON VÍDEO
NVIDIA presenta un nuevo modelo de IA que convierte videos 2D en estructuras 3D, Neuralangelo genera réplicas virtuales realistas de edificios, esculturas y otros objetos del mundo real.

NVIDIA Research presentó Neuralangelo, un nuevo modelo de IA que transforma videos 2D en estructuras 3D detalladas, "generando réplicas virtuales realistas de edificios, esculturas y otros objetos del mundo real".

Los artistas pueden importar los activos resultantes en aplicaciones de diseño y editarlos para usarlos en arte, desarrollo de videojuegos, robótica y gemelos digitales industriales.

"Las capacidades de reconstrucción 3D que ofrece Neuralangelo serán un gran beneficio para los creadores, ayudándolos a recrear el mundo real en el mundo digital", dijo Ming-Yu Liu, director sénior de investigación y coautor del artículo de investigación . "Esta herramienta eventualmente permitirá a los desarrolladores importar objetos detallados, ya sean pequeñas estatuas o edificios masivos, en entornos virtuales para videojuegos o gemelos digitales industriales".

Puede ver cómo funciona en la demostración anterior, donde NVIDIA mostró cómo el modelo puede recrear el David de Miguel Ángel y reconstruir los interiores y exteriores de los edificios.

Neuralangelo funciona en base a primitivas de gráficos neuronales instantáneos, la tecnología detrás de Instant NeRF de NVIDIA , que convierte imágenes 2D en modelos 3D.

Usando un video 2D de un objeto o escena filmado desde varios ángulos, el modelo selecciona varios cuadros. Una vez que se determina la posición de la cámara de cada cuadro, Neuralangelo crea una representación 3D aproximada de la escena y luego optimiza el renderizado para afinar los detalles. El resultado es un objeto 3D o una escena a gran escala que se puede utilizar en otro software.

Neuralangelo es uno de los muchos proyectos de NVIDIA Research que se presentarán en la Conferencia sobre visión artificial y reconocimiento de patrones (CVPR) del 18 al 22 de junio. Sus artículos abarcan temas que incluyen la estimación de poses, la reconstrucción 3D y la generación de videos.

katatsumuri 19 jun 2023 13:05 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 19/06/2023 - 13:07:07 por katatsumuri.

TrueSync AI de la empresa FLAWLESS AI es una IA para doblar cine a cualquier idioma

katatsumuri 24 jul 2023 20:22 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 24/07/2023 - 20:29:53 por katatsumuri.

EL FUTURO DEL CINE

GEN-2, una IA que genera vídeo, generando vídeos a partir de imágenes de midjourney

katatsumuri 03 ago 2023 00:12 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 3/08/2023 - 00:24:56 por katatsumuri.

Se que puse vídeos de gen-2 con imágenes de midjourney, pero es que estoy anonadado, estamos a nada de poder producir cine hollywoodiense desde casa.

katatsumuri 22 nov 2023 13:57 *

16.371 mensajes
desde ene 2019
en bios

Editado 9 veces. Última: 6/12/2023 - 03:58:42 por katatsumuri.

FOOOCUS MRE (Stable Diffusion XL en local, generador de imágenes gratuito)
Es un software que nos permitirá editar imágenes y generarlas de forma local, solo hay que descargar y ejecutar.
Imagen

Para quien quiera probarlo: https://github.com/MoonRide303/Fooocus-MRE

Descarga: https://github.com/MoonRide303/Fooocus- ... /v2.0.78.5

Para guardar los promps tenemos que MISC y activar "save metadata in image", también puede hacerse en un json, ahora en load prompt le damos a cargar imagen y debería cargarnos el prompt de la imagen que generamos.
Imagen

Algunas muestras:
Imagen

TUTORIAL PARA CREAR COVERS CON IA EN LOCAL Y GRATUITO
Primero de todo tenemos que separar la voz de la instrumental de la canción, el motivo es que vamos a procesar solo la voz.

SOFTWARE PARA SEPARAR VOZ Y Instrumental (también separa instrumentos) CON v5.5 - UVR GUI
Es un software con varios modelos de IA que nos permiten extraer canciones por pistas, en este caso nos interesa solo la voz y la instrumental, pero podemos extraer un track en forma de multitrack, interesante para mezclar y producir música, o extraer acapellas.

Diría que es hasta posible separar las vocales por segmentos y todo para potenciar mejor por capas.
Descarga: https://github.com/Anjok07/ultimatevoca ... i/releases
Bajaremos el archivo UVR_v5.5.0_setup.exe

Esta es la configuración he usado
Imagen

CREAR LA COVER CON RVC-GUI AI
Este software es el que sintetizará las voces artificiales basadas en el modelo de la persona que queramos, incluso podemos grabar nuestra propia voz y sintetizar por encima la voz que queramos.

Para correr este software solo tenemos que descomprimirlo y ejecutar el archivo .bat

En input tenemos que poner la voz de la canción, la acapella, si ponemos la voz con la instrumental el personaje tarareará y hará ruidos raros, por eso la hemos separado, para solo procesar la voz.

En modelos seleccionamos el modelo deseado y le damos a procesar, si queremos otros modelos tendremos que descargarlos y ponerlos en la carpeta de modelos de dentro del programa.

Descarga: https://github.com/Tiger14n/RVC-GUI/rel ... indows-pkg

Imagen

BAJAR MODELOS:
Podéis ir a este discord https://discord.gg/9Aeep9sJrt
O bajarlos de huggingface https://huggingface.co/models?other=rvc
https://huggingface.co/QuickWick/Music- ... /tree/main

JUNTAR VOZ E INSTRUMENTAL - MEZCLAR ELEMENTOS
Para juntar la voz con la instrumental podéis bajar software gratuito como audacity o reaper
https://www.audacityteam.org/
https://www.reaper.fm/

GOOGLE COLAB: https://huggingface.co/spaces/zomehwh/rvc-models

STABLE VIDEO SDV (Stable Diffusion Image To Video)
Con una imagen cualquiera puedes generar un vídeo, puedes probarlo gratis desde este google colab:
https://colab.research.google.com/githu ... 2vid.ipynb

katatsumuri 30 nov 2023 10:31 *

16.371 mensajes
desde ene 2019
en bios

Editado 6 veces. Última: 2/12/2023 - 10:32:54 por katatsumuri.

PIKA 1.0
Otra IA de texto a vídeo

MAGNIFIC AI
Una ia que restaura imágenes rehaciendo/reimaginando cada pixel.

AnimateDiff + IPAdapter

LEONARDO AI

katatsumuri 06 dic 2023 03:48 *

16.371 mensajes
desde ene 2019
en bios

Editado 2 veces. Última: 6/12/2023 - 03:55:32 por katatsumuri.

STABLE AUDIO
Es un generador de audio, por si quieres crear canciones libres de derechos de autor para un vídeo o lo que sea.
Para proyectos profesionales debes pagar.

SDXL TURBO
Es un generador de imágenes en tiempo real, al momento, basado en stable diffusion XL

katatsumuri 15 feb 2024 22:06 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 15/02/2024 - 22:44:00 por katatsumuri.

SORA de OPENAI / IA GENERADORA DE TEXTO A VÍDEO
Pues bastante alucinante el resultado respecto a anteriores IAs que generaban vídeo, esto ya va tomando forma a otro nivel, aunque aún queda mucho recorrido por delante, cada día más cerca de poder producir cine al nivel de hollywood desde casa.

katatsumuri 23 feb 2024 05:29 *

16.371 mensajes
desde ene 2019
en bios

Editado 2 veces. Última: 23/02/2024 - 05:32:17 por katatsumuri.

STABILITY AI PRESENTA STABLE DIFFUSION 3
De momento solo disponible a través del discord.

Androm3da 05 may 2024 16:26

MegaAdicto!!!

637 mensajes
desde mar 2024

Androm3da está baneado por "clon de usuario baneado"

Hola qué tal.

Sabéis de alguna app que pueda generar imágenes estilo DALL-E 3 pero que ponga bien los textos? O eso es algo general que siempre sale mal?

Le dices por ejemplo que ponga MAPEADO y a lo mejor te pone en la imagen: MAPPIADO o algo similar. Vamos, que nunca saca bien el texto.

Un saludo.

katatsumuri 05 may 2024 17:47 *

16.371 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 5/05/2024 - 17:49:44 por katatsumuri.

1 valoración positiva

Androm3da escribió:Hola qué tal.

Sabéis de alguna app que pueda generar imágenes estilo DALL-E 3 pero que ponga bien los textos? O eso es algo general que siempre sale mal?

Le dices por ejemplo que ponga MAPEADO y a lo mejor te pone en la imagen: MAPPIADO o algo similar. Vamos, que nunca saca bien el texto.

Un saludo.

No he probado midjourney, pero creo que el tema de los textos aún es jodido, igual que los dedos.

En stablediffusion es jodido diría.

Aunque puedes crearlos por separado y luego implementarlos

Androm3da 05 may 2024 17:48

MegaAdicto!!!

637 mensajes
desde mar 2024

Androm3da está baneado por "clon de usuario baneado"

katatsumuri escribió:
Androm3da escribió:Hola qué tal.

Sabéis de alguna app que pueda generar imágenes estilo DALL-E 3 pero que ponga bien los textos? O eso es algo general que siempre sale mal?

Le dices por ejemplo que ponga MAPEADO y a lo mejor te pone en la imagen: MAPPIADO o algo similar. Vamos, que nunca saca bien el texto.

Un saludo.

No he probado midjourney, pero creo que el tema de los textos aún es jodido, igual que los dedos.

En stablediffusion es jodido diría.

Ya suponía

Bueno, tocará esperar. Gracias.

Un saludo.

katatsumuri 05 may 2024 17:51 *

16.371 mensajes
desde ene 2019
en bios

Editado 6 veces. Última: 5/05/2024 - 18:29:00 por katatsumuri.

1 valoración positiva

@Androm3da Por ejemplo, creas una imagen ¿Ok? Pues luego agarras esa imagen y le colocas un texto encima, con el paint o el photoshop mismo, igual desde el mismo software de IA se puede hacer, entonces solo seleccionas la región del texto y le pides que reimagine esa región y aplicas lo que te he pasado en los vídeos de arriba.

En Fooocus-MRE creo que lo puedes hacer de poner una imagen y solo pedirle que imagine la región que hayas delimitado dentro de la imagen.

Creo que todo es workflow, el objetivo se puede lograr sin problema.

Androm3da 05 may 2024 19:04

MegaAdicto!!!

637 mensajes
desde mar 2024

Androm3da está baneado por "clon de usuario baneado"

katatsumuri escribió:@Androm3da Por ejemplo, creas una imagen ¿Ok? Pues luego agarras esa imagen y le colocas un texto encima, con el paint o el photoshop mismo, igual desde el mismo software de IA se puede hacer, entonces solo seleccionas la región del texto y le pides que reimagine esa región y aplicas lo que te he pasado en los vídeos de arriba.

En Fooocus-MRE creo que lo puedes hacer de poner una imagen y solo pedirle que imagine la región que hayas delimitado dentro de la imagen.

Creo que todo es workflow, el objetivo se puede lograr sin problema.

Gracias, le echaré un vistazo

Un saludo.

exray 07 may 2024 19:59

Adicto

213 mensajes
desde ago 2003

katatsumuri escribió:FOOOCUS MRE (Stable Diffusion XL en local, generador de imágenes gratuito)
Es un software que nos permitirá editar imágenes y generarlas de forma local, solo hay que descargar y ejecutar.

Para quien quiera probarlo: https://github.com/MoonRide303/Fooocus-MRE

Descarga: https://github.com/MoonRide303/Fooocus- ... /v2.0.78.5

Para guardar los promps tenemos que MISC y activar "save metadata in image", también puede hacerse en un json, ahora en load prompt le damos a cargar imagen y debería cargarnos el prompt de la imagen que generamos.

Algunas muestras:

Hola.

He ido a usar el Fooocus, pero resulta que solo funciona con tarjetas NVIDIA.

¿Hay algún otro programa como este que funcione para AMD o que sea por CPU?

Gracia saludos

katatsumuri 07 may 2024 21:30 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 7/05/2024 - 21:55:46 por katatsumuri.

@exray https://github.com/lllyasviel/Fooocus?t ... s-amd-gpus

Windows (AMD GPUs)
Note that the minimal requirement for different platforms is different.

Same with Windows. Download the software and edit the content of run.bat as:

.\python_embeded\python.exe -m pip uninstall torch torchvision torchaudio torchtext functorch xformers -y
.\python_embeded\python.exe -m pip install torch-directml
.\python_embeded\python.exe -s Fooocus\entry_with_update.py --directml
pause

Then run the run.bat.

AMD is not intensively tested, however. The AMD support is in beta.

For AMD, use .\python_embeded\python.exe entry_with_update.py --directml --preset anime or .\python_embeded\python.exe entry_with_update.py --directml --preset realistic for Fooocus Anime/Realistic Edition.

exray 07 may 2024 21:45

Adicto

213 mensajes
desde ago 2003

katatsumuri escribió:@exray

Gracias

katatsumuri 13 may 2024 09:48 *

16.371 mensajes
desde ene 2019
en bios

Editado 2 veces. Última: 16/05/2024 - 23:02:43 por katatsumuri.

¿LA INTELIGENCIA ARTIFICIAL GENERATIVA HA ALCANZADO SU PICO MÁXIMO?

Lo dudo, es una tecnología que aún tiene años por desarrollarse, como ha ocurrido con las telecomunicaciones.

VEO, LA NUEVA IA DE VÍDEO DE GOOGLE QUE RIVALIZA CON SORA DE OPEN AI

Además de eso han presentado un generador y transformador de sonidos, además de un generados de imágenes, aunque están lejos de la tecnología de Sora en cuanto a vídeo.

katatsumuri 18 jun 2024 22:05 *

16.371 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 23/06/2024 - 20:58:15 por katatsumuri.

LUMA LABS HA LANZADO SU GENERADOR DE VÍDEO GRATUITO LumaDreamMachine
https://lumalabs.ai/dream-machine
Dream Machine es un modelo de inteligencia artificial que crea videos realistas y de alta calidad rápidamente a partir de texto e imágenes.

Es un modelo de transformador altamente escalable y eficiente entrenado directamente en videos, lo que lo hace capaz de generar tomas físicamente precisas, consistentes y llenas de acontecimientos. Dream Machine es nuestro primer paso hacia la construcción de un motor de imaginación universal y ¡ahora está disponible para todos!

ELIMINAR FONDO DE UNA IMAGEN
Se puede buscar diferentes webs en google con estas simple frase: remove background AI
La mayoría te van a dar baja resolución si no pagas, pero en la siguente web hay truco.

Entrar a la web https://create.pixelcut.ai/background-remover desde chrome, sube la foto en la que quieras eliminar el fondo
Imagen

Casi al momento te saldrá ya la foto procesada pero te pedirá pagar el pro para bajarla en alta resolución, pero como la estás visualizando desde la web si das click derecho sobre la web, inspeccionar, aplicaciones, imagen y buscas la imagen la podrás bajar gratis sin coste alguno en alta resolución

Imagen

En el proceso parece que aplica como un fondo marrón y luego entrega la fondo png con el fondo borrado
Imagen

La calidad del recorte es alucinante, he probado otras webs y capaban la previsualización, pero además no daban tan buenos resultados, adobe creo que también tiene una herramienta de IA para ello.

katatsumuri 14 sep 2024 07:00 *

16.371 mensajes
desde ene 2019
en bios

Editado 7 veces. Última: 18/09/2024 - 17:39:28 por katatsumuri.

Gen-3 Alpha Video to Video
https://runwayml.com/research/introducing-gen-3-alpha
Esto abre un abanico increíble para el cine independiente.

APPLIO SPEECH TO SPEECH EN LOCAL Y GRATIS https://applio.org/

katatsumuri 19 sep 2024 15:00 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 19/09/2024 - 18:21:57 por katatsumuri.

Más de runaway GEN-3, con esto el cine independiente va a dar un vuelco increíble

Luego está KLING AI

KLING AI

dunkam82 23 sep 2024 11:57

MegaAdicto!!!

5.106 mensajes
desde feb 2009
en Granada

Gamertag: Dunkam69 Steam ID: Dunkam69

1 valoración positiva

@katatsumuri Como alguien a quien le interesa bastante el tema de las IA vengo a darte un fuerte aplauso por el curro que te estás pegando y a darte las gracias por toda la info [beer]

katatsumuri 24 sep 2024 18:33 *

16.371 mensajes
desde ene 2019
en bios

Editado 1 vez. Última: 26/09/2024 - 12:46:19 por katatsumuri.

El director de Titanic, James Cameron, se convierte en uno de los directores de la empresa de stability AI, creadores del modelo open source stable diffusion.

Mangaverse 28 sep 2024 23:04

MegaAdicto!!!

1.733 mensajes
desde jul 2024

Mangaverse está baneado por "Troll"

Buenas.‘alguien sabe qué programa usan para hacer este tipo de vídeos???

katatsumuri 28 sep 2024 23:58

16.371 mensajes
desde ene 2019
en bios

@Mangaverse yo creo que usan varios, primero deben usar un generador de imágenes como flux o midjourney, ahí crean la escena que quieren, luego usan uno de vídeo como runway o kling para animar la imagen usando image to vídeo

Mangaverse 29 sep 2024 07:25

MegaAdicto!!!

1.733 mensajes
desde jul 2024

Mangaverse está baneado por "Troll"

katatsumuri escribió:@Mangaverse yo creo que usan varios, primero deben usar un generador de imágenes como flux o midjourney, ahí crean la escena que quieren, luego usan uno de vídeo como runway o kling para animar la imagen usando image to vídeo

Ok gracias. Vamos, que compleja la cosa como para probarla

pararapapa2 06 oct 2024 22:22

MegaAdicto!!!

1.443 mensajes
desde dic 2019

No sabia donde preguntar pero desde google he accedido aqui, necesito traducir pdf's largos de ingles a español de 25000 palabras que no encuentro nada gratis que no lo haga, no me importa pagar pero cuando menos mejor, sabeis si hay algo pagando o sin pagar para que me traduzca pdf's o textos largos? , hasta ahora lo hacia con chatgpt gratis, me daba error pero me lo traducia al momento(un fallo entiendo), pero de un tiempo para aqui ya no funciona,gemini y demases gratuitos me dice que lo hace pero no lo hace, traduce unas pocas 5000 limite como google translator.

javistar1978 06 oct 2024 22:42

Adicto

483 mensajes
desde ene 2018

@pararapapa2

Buscando en San Google.....

En esta web hay varias formas de traducir, Traducir texto, traducir archibos PDF... y supongo que ya pagando traduccion con IA.

Registro gratis.

https://www.deepl.com/es/translator/q/e ... t/ec564021

https://www.deepl.com/es/pro?cta=header-pro-button

Traductor de texto:

https://quillbot.com/es/traductor

Puedes pasar los PDF a word:

Hay cientos de web para pasar de PDF al formato que quieras:

https://www.ilovepdf.com/es/pdf_a_word

https://smallpdf.com/es/pdf-a-word

https://www.gonitro.com/es/pdf-to-word? ... ooSUYF8ZxL

pararapapa2 06 oct 2024 22:48 *

MegaAdicto!!!

1.443 mensajes
desde dic 2019

Editado 4 veces. Última: 6/10/2024 - 22:53:55 por pararapapa2.

javistar1978 escribió:@pararapapa2

Buscando en San Google.....

En esta web hay varias formas de traducir, Traducir texto, traducir archibos PDF... y supongo que ya pagando traduccion con IA.

Registro gratis.

https://www.deepl.com/es/translator/q/e ... t/ec564021

https://www.deepl.com/es/pro?cta=header-pro-button

Traductor de texto:

https://quillbot.com/es/traductor

Puedes pasar los PDF a word:

Hay cientos de web para pasar de PDF al formato que quieras:

https://www.ilovepdf.com/es/pdf_a_word

https://smallpdf.com/es/pdf-a-word

https://www.gonitro.com/es/pdf-to-word? ... ooSUYF8ZxL

obviamente he buscado en san google Deepl.com es carissssssssssssssssssssssssssssssimo. Te digo algo de los otros pero va a ser que no , pero te digo.

Quillbot limite 5000 palabras no me sirve.

Lo del word ya lo contemplé pero de momento no lo tengo (es caro) y no quiero ir pegando todo el texto pero con tanta ia a ver si alguien lo ha probado con sistema de pago como digo no me importa pagtar pero no barbaridades como el deepl

javistar1978 06 oct 2024 22:56

Adicto

483 mensajes
desde ene 2018

@pararapapa2

Mira en estas webs a ver si hay suerte:

https://www.lexicool.com/translate.asp?IL=3

https://translation2.paralink.com/

https://wordvice.ai/tools/translate

Aquí tienes también otra web que recomienda 20 otras 20 webs:

https://speakt.com/translate-text-free/

Saludos.

pararapapa2 06 oct 2024 23:47 *

MegaAdicto!!!

1.443 mensajes
desde dic 2019

Editado 2 veces. Última: 7/10/2024 - 00:18:50 por pararapapa2.

javistar1978 escribió:@pararapapa2

Mira en estas webs a ver si hay suerte:

https://www.lexicool.com/translate.asp?IL=3

https://translation2.paralink.com/

https://wordvice.ai/tools/translate

Aquí tienes también otra web que recomienda 20 otras 20 webs:

https://speakt.com/translate-text-free/

Saludos.

Gracias los gratuitos no sirven,ninguno.Limite 5000 palabras.

He probado de pagar gemini porque regalan 1 mes y tampoco sirve.

As a language model, I'm not able to assist you with that.

Y tengo que hacer de 7 paginas en 7 paginas si llega porque pone pegas y son 25 paginas y tengo muchas coferencias asi.

Edito : pero nada se para en la traducción y traduce hasta donde quiere no lo entiendo, que caca.

E$sta todo muy verde.Entiendo que no les gustará que colapse todo, pero coño es de pago, que quieren?

Pues nada , me bajare el word del caribe a ver que tal.

Edito ;: con el google translator me lo hace con 25000 palabras sin problemas pero con gemini pagando no va, ya esta perdon por esto que como dice @katatsumuri no es el hilo adecuado.

katatsumuri 06 oct 2024 23:52 *

16.371 mensajes
desde ene 2019
en bios

Editado 5 veces. Última: 7/10/2024 - 00:19:53 por katatsumuri.

1 valoración positiva

@pararapapa2 De todas formas este no es el hilo indicado, esto es de vídeo, imagen, audio y 3D, que no es poco, pero no es para traducir textos.

Tienes un hilo para inteligencias conversacionales y modelos de lenguaje hilo_hilo-inteligencias-artificiales-conversacionales-y-modelos-de-lenguaje-google-bard-chat-gpt_2481206

ROOP UNLEASHED I CREA DEEP FAKES EN CUESTIÓN DE SEGUNDOS MEDIANTE FACE SWAP
https://github.com/C0untFloyd/roop-unleashed
En local y gratis.

Interfaz gráfica de usuario del navegador independiente de la plataforma
Selección de múltiples caras de entrada/salida de una sola vez
Muchos modos de intercambio diferentes, primera detección, selección de rostros, por género
Procesamiento por lotes de imágenes/vídeos
Enmascaramiento de oclusores faciales mediante indicaciones de texto o de forma automática
Mejora/restauración facial opcional utilizando diferentes potenciadores
Intercambio de vistas previas entre diferentes fotogramas de vídeo
Cámara falsa en vivo usando tu cámara web
Pestaña Extras para cortar vídeos, etc.
Configuración: almacenar la configuración para la próxima sesión
Soporte de temas
y mucho más...

katatsumuri 02 dic 2024 21:07 *

16.371 mensajes
desde ene 2019
en bios

Editado 9 veces. Última: 4/12/2024 - 03:18:32 por katatsumuri.

INSTALAR FLUX CON PINOKIO (software que instala IAs y herramientas para IA)
https://pinokio.computer/
En el vídeo creo que instala webui, yo recomiendo forge ya que tiene más opciones, instaláis pinokio y buscáis forge y allí os saldrá para instalar, todo es automatizado como si fuese un exe que te instala todo.

CREA LORAS PARA FLUX EN LOCAL PARA GPUS CON 8 GBs o MÁS DE FORMA SENCILLA
Este tutorial está muy bien para crear LORAS con datasets para flux usando la herramienta de pinokio+flux gym, además flux gym se apoya en una IA que se llama florence-2 que añade descripción de forma automática a todas las imágenes del dataset mejorando el entendimiento a la hora de crear el modelo.

SORA, EL MODELO DE VÍDEO DE OPENAI SE HA FILTRADO
https://www.20minutos.es/tecnologia/int ... i-5659215/
OpenAI está detrás de las herramientas con inteligencia artificial con más público en España y todo el mundo, como el generador de imágenes DALL-E y el modelo de lenguaje grande ChatGPT. Sin embargo, para ampliar su abanico de tecnologías, a mediados de febrero, esta entidad de Sam Altman presentó a Sora, una IA capaz de crear vídeos de hasta 60 segundos a partir de texto.

Ahora un grupo artístico molesto con OpenAI parece haber filtrado Sora mediante una interfaz y muchos usuarios generaron a través de ella diferentes videos. El grupo ha mostrado su descontento ante como se ha implementado el programa para los artistas.

Unos artistas filtran Sora, el generador de video de OpenAI
Hace pocos días, tal y como informan desde TechCrunch, un grupo artístico publicó en Hugging Face, una plataforma de desarrollo, un proyecto vinculado a la API Sora de OpenAI, el cual no está disponible de forma pública. Como se puede ver en la publicación de X, antes Twitter, hicieron pública una interfaz de Sora y una gran cantidad de usuarios las utilizaron como base para generar videos de 10 segundos en 1080p mediante descripciones de texto.

A las pocas horas la herramienta dejó de funcionar y, según el grupo, la compañía de Sam Altman suspendió el acceso temprano a Sora tras tres horas, alegando que la empresa presiona a los desarrolladores iniciales para hablar de forma positiva del generador de videos sin compensarlos justamente. También denuncian controles estrictos alegando que cada video debe ser aprobado por OpenAI y solo unos pocos creadores pueden compartir públicamente sus trabajos.

Imagen

Artistas enfadados filtran Sora, el revolucionario generador de vídeo con inteligencia artificial de OpenAI

El grupo afirma apoyar la IA en el arte, pero critica cómo OpenAI gestiona Sora, pidiendo un mayor apoyo a los artistas más allá de los intereses de las relaciones públicas. En respuesta, OpenAI declaró que Sora está en “vista previa de investigación” y que trabajan en medidas de seguridad. También alegan que la participación en la versión en desarrollo es voluntaria, ofrecen acceso gratuito y apoyan a los artistas con subvenciones y eventos.

Sin embargo, pidieron evitar compartir detalles confidenciales mientras sigue en desarrollo, sin especificar qué implica el uso "responsable". Desde su lanzamiento, Sora ha enfrentado problemas técnicos, pero la versión filtrada parece ser una variante “turbo” con opciones limitadas de personalización y estilo.

HUNYUAN VÍDEO: TENCENT PUBLICA UN MODELO DE VÍDEO OPEN SOURCE DE 13 BILLONES DE PARÁMETROS
https://comfyui-wiki.com/es/news/2024-1 ... yuan-video

Tencent ha lanzado oficialmente HunyuanVideo, actualmente el modelo de generación de vídeo más grande de la industria. Con 13 mil millones de parámetros, el modelo logra un rendimiento líder en múltiples aspectos, incluyendo calidad de vídeo y estabilidad de movimiento, y ahora está completamente disponible como código abierto en las plataformas GitHub y Hugging Face.

Características principales del modelo
Arquitectura unificada de generación de imágenes y vídeos
Emplea un diseño de modelo híbrido “dual-stream to single-stream”
Utiliza arquitectura Transformer con mecanismo de atención completa
Soporta la generación unificada de imágenes y vídeos

Características técnicas avanzadas
Utiliza un modelo de lenguaje multimodal (MLLM) como codificador de texto
Implementa VAE 3D para compresión espacio-temporal
Reescritura de prompts incorporada con modos Normal y Master
Soporta generación de vídeo en alta resolución hasta 720p

Ventajas únicas
Excelente rendimiento con contenido de estilo chino, incluyendo temas tradicionales y modernos
Soporta transiciones de escena a través de prompts manteniendo la consistencia de ID
Mantiene física estable en escenas de movimiento intenso
Las evaluaciones profesionales muestran un rendimiento superior en alineación de texto, calidad de movimiento y calidad visual

Requisitos de hardware
Mínimo: 45GB VRAM GPU (resolución 544x960)
Recomendado: 60GB VRAM GPU (resolución 720x1280)
Compatible con GPUs H800/H20 y otros

Recursos de código abierto

El modelo está disponible en:
Repositorio GitHub: Tencent/HunyuanVideo
Modelo en Hugging Face: tencent/HunyuanVideo

Experiencia en línea
Los usuarios pueden experimentar HunyuanVideo a través de:

Sitio web oficial: Plataforma de generación de vídeo Hunyuan
Sección de AI Video en la APP Tencent Yuanbao
Tecnologías complementarias

Además del modelo principal de generación de vídeo, Tencent ha lanzado una serie de tecnologías complementarias:

Tecnología de generación conjunta de voz e imagen

Soporta generación de vídeo con habla facial y acciones
Permite control preciso del movimiento corporal completo
Comprensión de contenido de vídeo y narración

Reconocimiento inteligente del contenido del vídeo
Genera narraciones coincidentes basadas en prompts
Transferencia de expresiones faciales

Sincronización labial precisa
Efectos naturales de transferencia de expresiones

Perspectivas futuras
El lanzamiento de código abierto de HunyuanVideo no solo marca un avance significativo en la tecnología de generación de vídeo, sino que también trae nuevas posibilidades a todo el campo de la generación de vídeo por IA. Al abrir el código fuente y los pesos pre-entrenados, Tencent espera impulsar el desarrollo de todo el ecosistema de generación de vídeo.

Con la optimización continua del modelo y los esfuerzos de la comunidad, podemos esperar que la tecnología de generación de vídeo por IA desempeñe un papel cada vez más importante en la expresión creativa y la producción de contenido en un futuro próximo.

[HILO] Inteligencias Artificiales Generativas IMAGEN - AUDIO - VÍDEO - 3D