[HILO] Inteligencias Artificiales Generativas IMAGEN - AUDIO - VÍDEO - 3D

@exray si, por lo visto veo 2 es bastante superior incluso en físicas


Pero aún está lejos de ser perfecto, el tema de cuando hay muchos humanos sigue haciendo cosas raras, o elementos a la lejanía.


https://x.com/nickfloats/status/1869515865219350906https://x.com/nickfloats/status/1869515875474403800



Veo 2 es más perfecto pero sora es más cinematográfico, aunque estoy seguro que tiene que haber algún prompt que le de un toque más cinematográfico a las escenas que elijas.
META PRESENTA SU GENERADOR DE VÍDEO VIDEOJAM


Y este vídeo es para recordar el progreso que ha habido en tan poco tiempo con la generación de vídeo.
Wan 2.1 (open source) https://github.com/Wan-Video/Wan2.1

Alibaba ha lanzado un modelo de vídeo que es capaz de también añadir sonido.


En este repositorio, presentamos Wan2.1 , un conjunto completo y abierto de modelos básicos de video que amplía los límites de la generación de video. Wan2.1 ofrece estas características clave:

👍 Rendimiento de SOTA : Wan2.1 supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales de última generación en múltiples puntos de referencia.
👍 Compatible con GPU de consumo : el modelo T2V-1.3B requiere solo 8,19 GB de VRAM, lo que lo hace compatible con casi todas las GPU de consumo. Puede generar un video de 480P de 5 segundos en una RTX 4090 en aproximadamente 4 minutos (sin técnicas de optimización como la cuantificación). Su rendimiento es incluso comparable al de algunos modelos de código cerrado.
👍 Múltiples tareas : Wan2.1 se destaca en texto a video, imagen a video, edición de video, texto a imagen y video a audio, avanzando en el campo de la generación de video.
👍 Generación de texto visual : Wan2.1 es el primer modelo de video capaz de generar texto tanto en chino como en inglés, con una generación de texto robusta que mejora sus aplicaciones prácticas.
👍 Potente video VAE : Wan-VAE ofrece una eficiencia y un rendimiento excepcionales, codificando y decodificando videos 1080P de cualquier duración mientras preserva la información temporal, lo que lo convierte en una base ideal para la generación de videos e imágenes.



https://github.com/mcmonkeyprojects/SwarmUI
https://huggingface.co/Comfy-Org/Wan_2. ... ion_models
FOOOCUS MRE está abandonado desde 2023, lo mismo que FOOOCUS cual ha pasado a estado de corrección de bugs por parte de su desarrollador original (si se acuerda), el otro desarrollador se ha vuelto a Forge.

De momento, como sustituto hay RuinedFooocus, con soporte para FLUX y SD3, tengo pensado hacer el cambio un día de estos que no me de pereza hacer toda la instalación y configuraciones.

También en la parte de sonido/música encontré hace un tiempo DEMUCS UI, hace maravillas, separa instrumentos y vocalista casi de forma perfecta, comparado a otras IAs que he probado esta es muy superior.
@mmiiqquueell Sobre Fooocus MRE hace mucho que no lo uso, pero para gestionar apps te recomiendo Pinokio que es lo que se está utilizando mucho por parte de la gente al facilitar el proceso de instalación de aplicaciones de forma totalmente automatizada, además que puedes descubrir muchas aplicaciones chulas.

PINOKIO https://pinokio.computer/
Pinokio te instala todo de forma automática y tiene una gran variedad de software con sus interfaces y modelos, seguramente está Foocus. Pinokio es un gestor de aplicaciones de IA que te instala los componentes necesarios de cada aplicación para que esta funcione sin problemas y totalmente de forma automatizada, te ahorra el tener que configurar el programa, que si instalar x versión de python, que si no sé que de NVIDIA, que si bajarte los modelos, ponerlos en x carpeta, etc...
Imagen
Imagen
Imagen
Imagen


Como ves hay de todo, están hasta las IAs de Hunyuan y tienen configuraciones para menos VRAM o te avisan si un modelo se puede usar con CPU, etc...


Esta IA está muy chula, genera un asset 3D a partir de una simple imagen:



Por ejemplo, a mi hasta cuando ejecuto determinada app que permite uso de CPU me detecta si no tengo GPU de NVIDIA y me configura el programa para que arranque con la CPU y sea todo funcional.

@mmiiqquueell aquí hice un tutorial para crear covers con demucs y hay varias IAs más, está muy bien hilo_hilo-musica-y-videoclips-creados-con-inteligencia-artificial_2483289#p1754148872

TUTORIAL PARA CREAR COVERS
Primero de todo tenemos que separar la voz de la instrumental de la canción, el motivo es que vamos a procesar solo la voz.

SOFTWARE PARA SEPARAR VOZ Y INSTRUMENTAL CON v5.5 - UVR GUI
Es un software con varios modelos que también permiten extraer canciones por pistas, en este caso nos interesa solo la voz y la instrumental.

Diría que es hasta posible separar las vocales por segmentos y todo para potenciar mejor por capas.
Descarga: https://github.com/Anjok07/ultimatevoca ... i/releases
Bajaremos el archivo UVR_v5.5.0_setup.exe

Esta es la configuración he usado
Imagen

CREAR LA COVER CON RVC-GUI
Para correr este software solo tenemos que descomprimirlo y ejecutar el archivo .bat

En input tenemos que poner la voz de la canción, la acapella, si ponemos la voz con la instrumental el personaje tarareará y hará ruidos raros, por eso la hemos separado, para solo procesar la voz.

En modelos seleccionamos el modelo deseado y le damos a procesar, si queremos otros modelos tendremos que descargarlos y ponerlos en la carpeta de modelos de dentro del programa.

Descarga: https://github.com/Tiger14n/RVC-GUI/rel ... indows-pkg

Imagen


BAJAR MODELOS:
Podéis ir a este discord https://discord.gg/9Aeep9sJrt
O bajarlos de huggingface https://huggingface.co/models?other=rvc
https://huggingface.co/QuickWick/Music- ... /tree/main

JUNTAR VOZ E INSTRUMENTAL - MEZCLAR ELEMENTOS
Para juntar la voz con la instrumental podéis bajar software gratuito como audacity o reaper
https://www.audacityteam.org/
https://www.reaper.fm/

GOOGLE COLAB: https://huggingface.co/spaces/zomehwh/rvc-models
Una pregunta que probablemente sea un poco tonta...

Con la compra de la RTX 5070 Ti me dio por probar esto de la ia. Leí unas cuantas cosillas, y tras unos cuantos líos para meter Stable Diffusion con ComflyUI porque por lo visto no había salido un Pytorch compatible con Cuda 12.8 y algunos líos, con una versión nightly conseguí hacerlo funcionar todo.

Empecé con modelos Illustrious y muy bien. He hecho cosas del copón...

Luego vi que Flux era como más pro y me dio por probarlo, e hice lo mismo, bajar un modelo checkpoint Flux, con loras Flux, y un poco la misma forma de hacer que con Illustrious, Pony, SDXL1 y demás...

Peeeero... va como el ojete, Flux. Al principio hiciera lo que hiciera, todo mal, solo ruido. Hasta que descubrí que Flux era un poco especialito a la hora de configurar los sampler y los schedulers. Cuando conseguí que hiciera algo visible, descubrí que si subo la resolución a más de 512x512, se va al pedo y solo sale ruido, cuando con el resto andaba haciendo imágenes a 1440x1440.

Total, que es un dolor de cabeza. ¿Hay algo a tener en cuenta con Flux para que no tenga nada que ver con el resto de modelos de Stable Diffusion?
Ludvik escribió:Una pregunta que probablemente sea un poco tonta...

Con la compra de la RTX 5070 Ti me dio por probar esto de la ia. Leí unas cuantas cosillas, y tras unos cuantos líos para meter Stable Diffusion con ComflyUI porque por lo visto no había salido un Pytorch compatible con Cuda 12.8 y algunos líos, con una versión nightly conseguí hacerlo funcionar todo.

Empecé con modelos Illustrious y muy bien. He hecho cosas del copón...

Luego vi que Flux era como más pro y me dio por probarlo, e hice lo mismo, bajar un modelo checkpoint Flux, con loras Flux, y un poco la misma forma de hacer que con Illustrious, Pony, SDXL1 y demás...

Peeeero... va como el ojete, Flux. Al principio hiciera lo que hiciera, todo mal, solo ruido. Hasta que descubrí que Flux era un poco especialito a la hora de configurar los sampler y los schedulers. Cuando conseguí que hiciera algo visible, descubrí que si subo la resolución a más de 512x512, se va al pedo y solo sale ruido, cuando con el resto andaba haciendo imágenes a 1440x1440.

Total, que es un dolor de cabeza. ¿Hay algo a tener en cuenta con Flux para que no tenga nada que ver con el resto de modelos de Stable Diffusion?


Me uno a la pregunta!
Estuve usando hace un tiempo stable diffusion y todo iba bien (con una RTX 3060), pero lo dejé medio abandonado. Me puse el otro día a mirar que novedades habían salido y vi que se hablaba de Flux.
Total, que me puse a probarlo y todo salía con imágenes minúsculas y un montón de ruido y/o cosas sin sentido. Intenté subirle un poco el tamaño a las imágenes y creo que se me acabó quedando colgado incluso o me dio algún tipo de error...
Así que de momento lo he acabado dejando abandonado otra vez... 😅😔
@Tinaut1986 @Ludvik

El modelo base de flux consume muchos recursos, pero muchos es muchos, por otra parte luego hay que configurarlo y es bastante más complejo, es bueno mirar tutoriales en youtube para ver como configurarlo y usarlo, yo recomiendo instalarlo desde pinokio, pero como digo, consume muchos más recursos, aunque tiene algunos modelos más livianos pero por lo general consume mucho.

Una 5070 debería de manejarse bien, pero con una 3060 deberás de adoptar flujos de trabajo más depurados y usar modelos flux más pequeños como FLUX SCHENELL u otros que haya, además flux es bastante más complejo de configurar y hay que mirar tutoriales en youtube.

En pinokio viene preconfigurado en algunos entornos como forge
Imagen


He instalado Forge con Pinokio y a mi con una 3080 de 10 GBs me tarda 25 segundos en generar una imagen con la configuración por defecto y funciona bien por defecto.

Imagen

A steaming plate of poutine sits invitingly on a rustic wooden table, the golden-brown fries glistening with a crispy exterior and fluffy interior. Rich, dark gravy cascades over the fries, pooling in the crevices, while generous chunks of squeaky cheese curds melt into a gooey, creamy blanket. The vibrant contrast of the deep brown gravy against the golden fries and the white cheese curds creates a tantalizing visual feast. Soft, warm ambient lighting bathes the scene, casting gentle shadows that enhance the textures of the fries and the sheen of the gravy. The composition captures the dish from a slightly elevated angle, inviting the viewer to dive in. This rustic food photography style, with a focus on close-up details, evokes the comforting aroma of savory gravy and the satisfying crunch of fries, making the viewer almost hear the delightful sounds of indulgence.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 2645515515, Size: 896x1152, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4

Usa el modelo flux1-dev-bnb-nf4-v2.safetensors


Imagen


The image shows a young man standing in front of a blue building with a window. He is wearing a white t-shirt with a black spiral design on it and green shorts. He has a cigarette in his mouth and appears to be deep in thought. The building has a metal gate with a lattice design on the left side and a small window on the right side. The ground is covered in grass and there are some plants and shrubs in the background. The overall mood of the image is somber and contemplative.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 3974017264, Size: 896x1152, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4



Imagen
The image is a set of nine pixel art illustrations of a wizard in different poses. The wizard is wearing a purple robe and a pointed hat, and is holding a wand in his right hand. He is standing in front of a green background and appears to be in the middle of a spell. The illustrations are arranged in a grid-like pattern, with each illustration showing a different angle of the wizard's pose. The colors used in the illustrations are mostly purple and orange, with some yellow and red accents. The overall style of the illustration is reminiscent of a pixel art style.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 1809369552, Size: 1000x1000, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4
Imagen https://gif.zhengmi.org/

Esto esta chulo, es un generador de prompts: https://huggingface.co/spaces/gokaygoka ... -Generator
Le puedes poner una imagen y te genera un prompt sobre la imagen.
@katatsumuri gracias por toda la info. Mañana pruebo a ver qué tal. De todas formas, ¿Exactamente como funciona pinokio o forge, o lo que sea que cargue el entorno para trabajar ya con Flux una vez instalado?

Lo digo porque estoy demasiado acostumbrado a ComfyUi y los nodos, y tengo ya workflows montados que son una puta locura que prácticamente trabajan sin promts.

Cargo una imagen de algo que quiera hacer parecido o con otro estilo o lo que sea, con un nodo saco el Prompt automáticamente y lo manda como clip sin escribir nada, cargo un modelo con tres o cuatro loras configurados según vea, en el nodo de ksampler le pongo el denoise según quiera que se acerque más o menos a la base, y me carga X imágenes en unos segundos. Y realmente yo lo que he hecho ha sido cargar la imagen y darle a generar y ya está.

¿Eso funciona igual? ¿Se pueden crear workflows para que funcionen las cosas prácticamente solas, o tienes que ir tirando siempre de prompts? ¿Permite trabajar bien con imágenes de base o todo es generación?
@Ludvik si lees arriba te lo dice, pinokio es un gestor e instalador de interfaces y modelos de IA, es un auto instalador, está explicado arriba, facilita el proceso de ir al github bajar interfaces como ComfyUI y luego ir carpeta por carpeta metiendo los modelos y todo, te hace una instalación básica como si estuvieses instalando un programa con un .exe, luego si quieres puedes ir a las carpetas de la interfaz y añadir modelos, loras, etc...

En mi caso yo he usado forge y como ves ahí sale todo, los loras y todo
Imagen
Imagen

Pinokio tiene también ComfyUI para flux, solo tienes que ir al buscador de aplicaciones, poner ComfyUI e instalar la UI de comfyUI para flux, yo me he bajado forge porque mira, pero también está la otra.
Imagen

Como puedes ver tienes como plantillas con configuraciones básicas
Imagen
Imagen
Imagen


Desde el apartado de manager también puedes instalar modelos flux
Imagen
Imagen

También se pueden bajar en el panel de pinokio
Imagen

Imagen
Imagen

Ahí me pone bastantes segundos pero si pongo un batch de varias generaciones me tarda unos 50-60 segundos por imagen usando el modelo tocho de flux de 16 GB
Imagen
Imagen
@katatsumuri mmm... había una cosa que no me gustaba nada de Pinokio, pero aún así me he aventurado, y me ha tocado bastante la moral. Comfyui lo tenía instalado bien sin armar mucho, con entornos virtuales, para desinstalaciones limpias y controladas, sabiendo dónde estaban todas las cosas, y controlando absolutamente todos los puntos de la configuración e instalación de dependencias y demás mierdas necesarias.

Con Pinokio le he dado a instalar Forge, y ya me ha metido en Windows dos millones de mierdas xd

Está claro que la base de Pinokio es hacerlo todo fácil, sencillo y para toda la familia. Todo medio automático, sin mayor problema. Muy cómodo. Pero claro... sin control... Ahora tengo cuarenta cosas que no sé ni lo que son, como Windows Software Development Kit, Application Verifier (por triplicado), Windows App Cert Kit, Debbugable Package Manager, Developer Powershell for VS... en fin, todo ese montón de ponzoña y de mierda que intenté evitar al instalar precisamente Windows LTSC y que por lo que fuera no fueron nunca necesarios para mis instalaciones de ComfyUI porque sin toda esa mierda funcionaba bien. Flux no, eso es cierto... pero a lo mejor si hubiera instalado Forge a mano...

En fin, al menos ahora Flux funciona... ya veré ahora qué tal funcionan las desinstalaciones desde Pinokio y si deja todo limpio, como con los entornos virtuales, o ya tendré mierda in aeternum...
@Ludvik es lo que tiene, es un autoinstalador, tampoco creo que sea una locura
El nuevo chatgpt hace cosas muy chulas también, pensadas en desarrollo

Imagen

Prompt:

"Create a detailed pixel art frame animation for a game, where the final image is divided into multiple sub-images, each serving as a continuous animation keyframe. Design the sequence to depict [a wizard casting a spell: begin with intricate hand motions, then show the wizard conjuring a vibrant fireball, and finally capture the moment of casting the fireball.] Ensure the keyframes transition smoothly and continuously, and include as many frames as possible to achieve a high level of fluidity and detail in the animation."
@Acermax si, de hecho mis comentarios pasados con ejemplos están basados en ese ejemplo pero usando flux, aunque con flux no logré que generase toda la secuencia de esa forma tan perfecta, de hecho publiqué eso en hilo_hilo-fotogrametria-y-scan-3d-en-videojuegos-hardware-y-herramientas-de-inteligencia-artificial_2394798#p1755797537

Lo que creo que GPT-4o es de pago, pero la verdad que esto permite a cualquier programador crear juegos sin necesidad de depender de un artista humano, lo que supone encontrarlo y tener la capacidad para contratarlo, por lo que cualquiera que esté haciendo un juego o que quiera hacerlo puede encontrar en esto una buena herramienta.

A mi me gustaría probarlo e intentar ver si es posible hacerlo con otro tipo de estilos artísticos, pero creo que se necesita suscripción.
@Acermax Wow bestial, te hace los fotogramas del sprite. [boing] [boing]

Aunque sea de pago es como todo, si le sacas partido merece claramente la pena, es como tener un asistente para todo.
hilo_algun-stable-diffusion-o-similar-para-un-equipo-viejo_2518078
superjapo escribió:Buenas gente, hace poco que me he metido en esto de crear imágenes en paginas web, lo malo esque estás páginas dan un límite al día y son de pago, al googlear... para buscar algo que pueda usar por libre y sin limitaciones en un pc, eh dado con Stable Diffusion como de los mejores, la sorpresa que me llevé es que pide como una una play5 de equipo... Y yo el pc que tengo más potente en mi casa es del 2009, un portátil con gráfica integrada y Windows 7, 4 GB RAM... Existe algo que pueda usar como Stable Diffusion o similar de la época para crear imágenes por inteligencia artificial poniendo una descripción en ese equipo?

Con ese ordenador no vas a ningún sitio con generadores de IA en local, la única opción que tienes es usar webs que tengan generadores de imagen y que usen sus propias GPUs, procesar con webs es una buena opción tan válida como en local, incluso si te lo montas bien mejor porque así no gastas tanta energía.


GOOGLE COLLAB
Es básicamente usar espacios en google drive, se montan IAs y su interface en google drive, y usesas GPUs de google bastante potentes. Tienes un tiempo limitado, de hecho te puedes crear diferentes cuentas de gmail y ampliar ese tiempo https://research.google.com/colaborator ... s/faq.html
Son 12 horas por sesión, igual hay un límite de horas por mes, dicen que son 144 hours/month.
¿Por qué 12 horas de sesión si crees que no vas a estar más para generar simples imágenes? Pues porque si quieres entrenar un modelo custom para generar imágenes o entrenar un lora vas a necesitar más horas, no 12, pero quizás si 6.

Para crear como montar espacios vas a tener que buscarlo por youtube y seguir sus pasos, es un poco enrevesado, pero si eres un poco espabilado no es algo complejo para nada, solo es replicar lo que hace otro para poner el espacio en marcha.


HUGGING FACE
En hugging face tienes también modelos públicos a base de tokens limitados, puedes usar una VPN para saltarte las limitaciones, porque es muy limitado la verdad.
https://huggingface.co/spaces/black-for ... FLUX.1-dev
https://huggingface.co/spaces/black-for ... .1-schnell
https://huggingface.co/spaces/ByteDance ... teYou-FLUX

OTRAS WEBS O REDES SOCIALES
Y por último tienes webs o redes sociales que ofrecen IAs generativas, como la que te ha pasado el compañero @Ñomo , twitter por ejemplo tiene Grok que también es gratuita, aunque no sé si hay límites en cuanto a generación.
https://perchance.org/ai-human-generator
Perchance no tiene límite de generación, estés registrado o no. Sí lo tiene en cuanto a la resolución; cosa que hay que tener en cuenta si necesitamos algún trabajo fino, y trabaja mejor con descripciones cortas. En cuanto le empiezas a pedir muchos detalles, prioriza como le da la gana por mucho que intentes marcar tú las cosas relevantes, de modo que hay que armarse de paciencia y generar tandas para, con suerte, sacar una docena que se parezcan a lo que buscas. XD
Esto de la edición con IA es una pasada que ya empieza a asustar... Yo suelo usar, a modo personal 😅 la aplicación en pc de Topa Photo IA y Topa Video IA, y la verdad es que da bueno resultado, ahora con el tema este de usar una imagen o foto y hacerle movimiento a esa foto con la IA, está siendo una pasada aunque aún falta mucho recorrido, hay muchas web online que te lo haces, todas obviamente de pago o gratis demasiado limitado, mi pregunta es y quisiera saber si ¿hay algo que haga lo mismo pero que no sea Online?, si no que uses tu propia Cpu y Gpu, como las que he mensionado arriba "Topa", por que no encuentro nada que no sea online y eso me fastidia 😅
@Chuss80 Existen para usar en local, estuve mirando pero no vale la pena, solo te pueden generar entre 5 a 10 segundos, los modelos pesan una burrada y por encima de todo más de 30GB de VRAM, ya que se suman todos los frames. Así a lo rápido encontré el Open-Sora.


EDIT: ¿Existe alguna IA que permita hacer una versión modificada de una canción? tipo así como de imágenes puedes ponerle una imagen y la IA genera una imagen en base a la que le has puesto, busco hacer lo mismo con música. Por más que busco solo me sale para generar música de cero y sin importar el qué todas son iguales, samples aleatorios mezclados de forma aleatoria, salen cosas muy raras y que suenan fatal, por no hablar que todas piden pagar.

EDIT2: Encontré con Pinokio una IA para generar música en base a otra, sin embargo Pinokio está fuera de juego. Para poder usar Pinokio, al menos hasta que vuelvan a pagar el dominio, se debe modificar el archivo etc/host de Windows y Mac añadiendo las siguientes líneas:
3.75.10.80 portal.pinokio.computer
3.75.10.80 pinokio.computer
Estoy buscando una IA decente de Text to speech, antes solía usar descript que es brutal, pero han cambiado a un modelo de pago. Antes era de pago pero mientras no usases textos de muchas palabras no pasaba nada, ahora han limitado eso mucho y ya no es gratuito, se acaba y te hacen pagar.

¿Conocéis alguna IA gratuita que convierta texto a voz y que sea realista? Que se sienta orgánica, incluso me da igual si es ejecutada en local.

Voy a probar OPENAUDIO https://www.pinokio.co/item.html?uri=ht ... theme=null


He visto estas gratuitas y online
https://elevenlabs.io/
https://fish.audio/es/?invite=ab33e6120 ... 8d57a973e2

Mejor porque me ahorro en energía.
@katatsumuri A veces para hacer bromas con amigos uso el FakeYou, aunque está limitado a 10 segundos pero con tiempo y paciencia he logrado hacer diálogos de varios minutos entre diferentes personajes. También depende de la voz si está muy entrenada, por ejemplo la de Claudio (el doblador de Batman) es la mejor de todas, parece real, hasta que le pega una aneurisma a la IA y empieza hacer cosas raras. Ejemplo: https://fakeyou.com/media/m_axf0rwdrreb ... czyr3evaaw (la pega es que habla muy rápido y si pongo comas hace las pausas muy largas). A cada momento te dirá que te registres y pagues pero, ignoras y sigues usando gratis.

Sino está la opción de transcribir de Voz a Voz (aquí no hay limite de duración en el audio), usas tu voz y elijes una que te guste, en este caso no falla porque es tu voz (a menos que no se entienda), aquí tienes a Peter Griffin imitando a Homer: https://fakeyou.com/media/m_f47w8as6p1s ... dxwkdjqm95 (La ralentización del final es el audio que use, no es culpa de la IA, no sé porqué ocurre, cuando lo abro en un editor de audio va bien).
@mmiiqquueell lo he probado y no está para nada mal, es perfecto para memes con personajes famosos, ya sean reales o fantásticos.

Lo que más me interesa es una voz neutra, ya que no quiero usar una voz de nadie reconocido, no por el momento.

Otra cosa que me interesa es el idioma, en principio busco en inglés, aunque he probado y eso está más que cubierto, que por cierto, las voces en castellano suenan brutal, con los ejemplos que has puesto, además de cristalinas.

Traducción poco a poco para mi es plausible ya que voy transcribiendo frases y por lo que he probado me sirve, el único inconveniente es que al ser un servicio gratuito se abusa mucho de la cola de espera, y no puedo permitirme estar 5 minutos por una frase, ese es el mayor problema que le encuentro. Me he hasta registrado porque me decía "si te registras tendrás menos cola de espera", o algo así, y se tira media vida en algunos momentos para generar una simple frase.

No he hecho muchas pruebas, hice una con el personaje de the witcher, uno de los primeros que me encontré, y algo que no me gustó es que el audio al inicio clipeaba un poco, no sé si siempre se me puede dar esa inestabilidad, en mi caso busco algo estable en ese aspecto, supongo que variará dependiendo del modelo.

Lo que más me preocupa es que todo lo que veo son voces de gente famosa, y en parte me da mucho respeto hacer un vídeo y que con el tiempo me lo tiren porque haya alguna ley de protección, a medida que pasen los años todo esto terminará regulándose bastante, y no sé si me preocupa más, alguien muy famoso o un actor poco famoso, random que pueda encontrar, pero que realmente se ponga muy perro con esto.

De hecho no me extrañaría que en un futuro youtube implemente un sistema de reconocimiento de voz con registros y si ve vídeos con esa voz que duren tanto o que no son de una temática registrada y concedida por el autor los fulmine.

Como neutro he encontrado este:
https://ttsmp3.com/ai (de pago, he traducido varias líneas y me ha dicho que alcancé el límite)


Este está bien pero tiene límite, aunque puedo usar una vpn https://www.naturalreaders.com/online/

ULTIMATE TTS STUDIO SUP3R EDITION
Al final me he instalado este software gratuito desde pinokio, estoy usando el modelo de kokoro TTS, va bastante rápido, en segundos tengo la traducción.
Imagen
Lo de la cola de espera es solo una ilusión para que te registres y pagues, por eso dije que no le hicieras caso, la cola depende de la hora, por ejemplo, en hora de España si lo haces entre las 9:00 - 12:00 de la mañana te genera todo al instante, pero si ya lo haces por las 14:00 - 16:00 de la tarde, ya te hace esperar unos 5 a 20 minutos, y si vas aún más tarde como las 18:00 a 00:00 ya es imposible, la cola es tan larga que incluso después de 5 horas no hace nada. Vamos, hay que aprovechar cuando USA está durmiendo xD.

El tema de voces es verdad, pero incluso las neutrales pertenecen a alguien y Youtube es Yotuve, evita todo lo que puedas la plataforma, tanto si tiene como si no tiene copy.
Hace años que no publico ningún vídeo porque a cualquier cosa te reclaman tenga o no tenga. Al principio vale porque usaba música con copy, incluso un cantante me reclamo derechos de autor pero le gusto el vídeo y retiro la reclamación, pero en cuanto murió la discografía se me tiro encima que retirase de inmediato el vídeo o me demandarían, después de enterarme un poco empece a usar música sin copy y empezaron a reclamar copy inexistente, aunque reclamaba los de YT no hacían nada y me tenia que joder, o bien dejar que el listillo ganará dinero con algo que hice yo, o bien tirar el vídeo, siempre tiraba el vídeo, resubirlo no servia porque volvía a reclamar el mismo, ya hable con los de YT y me soltaron que es culpa mia, si no quiero que eso pase que registre el contenido a mi nombre.

La última vez fue la FIFA, tal cual, no sé nada ni me interesa en absoluto el fútbol, mi vídeo no tenia nada que ver con ello pero me pusieron una reclamación por derechos de autor por ojo al detalle "usar el color azul de su logo" y que tenia una semana para retirar el vídeo o sino procederían con la demanda. Yo impugne el vídeo explicando que no tenia nada que ver y que se han equivocado, dos representantes de la FIFA y un admin de YT me dieron la razón pero los dos representantes se negaron a retirar la reclamación, contacte con el admin y me soltó que no quieren perder y que caigan sus acciones y que es mejor que no vaya a juicio porque me enfrento a una empresa multimillonaria y aunque tenga la razón era muy probable que perdiera.

Literal xD
https://youtu.be/SDzd9DTmc1Q

Como sea, puedes alterar el tono de voz con un editor de audio, en mis primeros vídeos lo hacia, pillaba voces de algún vídeo y las modificaba en velocidad y tono para que parecieran otras y de momento por eso no me ha saltado el copy de nada. Lo del cracking y aneurisma como dije, es ir probando, a veces sale a la primera y otras no.

Pero bueno, si te va bien el Ultimate TSS Studio pues genial, yo siempre ando buscando cositas de este tipo para ir probando, a veces sale bien y otras no, alguna vez me ha dado por los que generan vídeo pero después de ver que una RTX 5080 necesita casi una hora para generar un vídeo de 5 segundos en 480P no quiero pensar lo que tardará mi 4060, aparte de no tener los 24GB de VRAM que pide. También puedes pedirle a algún youtuber o actor de doblaje que te ayude, alguno lo hará gratis y otros supongo que querrán cobrar, he visto algunos canales que lo hacen como el de Boundary Break que pide a los actores de los juegos hacer alguna escena para su canal.
@mmiiqquueell de momento hice un vídeo con kokoro, me ha funcionado bien aunque me gustaría bajarme voces nuevas diferentes a las de serie, es mucho mejor descript, mucho más natural, pero kokoro no está mal y me produce el audio en un segundo o dos, pongamos que dos frases pues me las saca en uno o dos segundos, no es casi nada la verdad.

¿Conocéis algún upscaler de texturas que mejore los detalles? No resolución, me refiero a incrementar el detalle de la textura.

Estoy probando con gigapixel que tiene un modelo generativo pero tarda mucho en procesar una imagen.
katatsumuri escribió:¿Conocéis algún upscaler de texturas que mejore los detalles? No resolución, me refiero a incrementar el detalle de la textura.

Yo lo hago todo a mano usando Gimp ya que así controlo que quiero añadir y cambiar mucho mejor aunque sea una matada de varios días.

Lo único que se me ocurre es usar una IA que tenga opción para variación o fusionar.

Por ejemplo, Fooocus tiene opción para Variación Sutil, el cual pilla la imagen original y genera una nueva con pequeños detallitos extra que genera por su cuenta o puedes decirle en el Prompt que quieres añadir o cambiar (aunque al ser Sutil no suele hacer caso si es algo que cambia mucho la imagen), el resultado es una versión muy similar, un 95 - 98% diría de las pruebas que he realizado, es ir probando ya que a veces genera más detalles, otras solo cambia colores, otras la deja sin cambiar, no sé, supongo depende de la semilla, estilo y Prompt. (Variación Fuerte es por si quieres cambiar muchísimas cosas pero suele hacer lo que le da la gana).

EJEMPLO (La imagen original es la de abajo): https://andreaskuhr.com/en/dateien/bild ... subtle.jpg

Otra opción que tiene es usar "imágenes como Prompt", te deja poner hasta 4 imágenes y decir para que usar cada imagen. Nunca he logrado que funcione como quiero, pero creo que es lo que realmente buscas, tener la textura base y añadir otra para añadir como segunda capa para ese detalle extra.

Es ir probando pero no creo que consigas lo que quieres, como mucho aproximación.
@mmiiqquueell

Esta es la original, tiene reescalado de IA pero solo resolución
Imagen

He usado la IA creativa de gigapixel
Imagen

Se tira media vida para procesarla, horas.

El resultado es el grito" de Edvard Munch [+risas] :
Imagen


Busco algo que mejore la textura, no solo que le de más definición y consistencia, que le incremente el detalle, igualmente voy a tener que editar el mesh y la textura porque al ser un photoscan hay cosas incongruentes, pero eso se arregla fácil, lo que no quiero es tener que pintar todo cuando ya tengo una referencia buena que es un photoscan.

Una IA que hacía eso era la de magnific AI que si incrementaba los detalles de la imagen, seguramente con esta IA creativa de gigapixel pueda lograr eso pero debería de probar a bajar mucho la resolución para que vaya más rápida hasta encontrar el punto dulce, porque ya te digo, se ha tirado horas.



Estoy usando este prompt con gigapixel
Enhance this flat texture map to improve sharpness, clarity, and realism. Preserve fine surface details such as stone bricks, aged concrete, moss, rusted metal railings, and natural weathering. The result must look realistic and photorealistic, using lifelike material qualities. Avoid artificial or cartoon-like effects. Restore and enhance any blurry or damaged areas using real-world texture references. Do not change the UV layout or texture structure — this texture is for a 3D game asset.
Imagen
Imagen


Enhance this flat texture map to improve sharpness, clarity, and realism, preserving fine surface details like stone bricks, concrete wear, moss, metal railings, and weathering patterns. Avoid introducing artificial colors or noise. Focus on restoring natural detail to damaged or blurry areas. Maintain the original texture layout and UV structure for real-time 3D asset compatibility in game engines.



CREAR MESH 3D A PARTIR DE UNA FOTO
https://sparc3d.art/#demo https://lizhihao6.github.io/Sparc3D/
La síntesis de objetos 3D de alta fidelidad sigue siendo significativamente más desafiante que la generación de imágenes 2D debido a la naturaleza no estructurada de los datos de malla y la complejidad cúbica de las cuadrículas volumétricas densas. Las tuberías de dos etapas existentes (compresión de mallas con un VAE (usando supervisión 2D o 3D), seguida de muestreo de difusión latente) a menudo sufren una pérdida de detalle grave causada por representaciones ineficientes y desajustes de modalidad introducidos en VAE. Presentamos Sparc3D , un marco unificado que combina una representación dispersa de cubos de marcha deformables Sparcubes con un novedoso codificador Sparconv-VAE . Sparcubes convierte mallas sin procesar en superficies de alta resolución (1024 3 ) con topología arbitraria dispersando campos de distancia y deformación firmados en un cubo disperso, lo que permite una optimización diferenciable. Sparconv-VAE es el primer autocodificador variacional consistente en modalidad, construido íntegramente sobre redes convolucionales dispersas, lo que permite una reconstrucción 3D eficiente y prácticamente sin pérdidas, ideal para el modelado generativo de alta resolución mediante difusión latente. Sparc3D logra una fidelidad de reconstrucción de vanguardia con entradas complejas, como superficies abiertas, componentes desconectados y geometría compleja. Conserva los detalles de forma de grano fino, reduce los costes de entrenamiento e inferencia, y se integra de forma natural con modelos de difusión latente para una generación 3D escalable y de alta resolución.



Esta IA es brutal, le das una foto y te hace un mesh casi perfecto.
Imagen
Imagen
Imagen


Imagen
Imagen


Para crear texturas: https://huggingface.co/spaces/VAST-AI/M ... mg2Texture
Le das el mesh en glb y le das una imagen de referencia a color y te crea la textura.
Ya veo, lo que buscas es un imposible, la textura es muy grande, por eso se tira horas y no vas a lograr más detalles por su excesivo tamaño y cantidad de objetos que tiene, en este caso solo puedo dar recomendaciones.

La idea del PhotoScan es que una vez obtenido el modelo 3D pasarlo a un editor 3D como Blender y hacer Retopology (rehacer el modelo 3D), hay programas que lo automatizan como es el InstantMeshes (muy bueno y rápido comparado al que trae Blender) pero si quieres buenos resultados es mejor hacerlo a mano ya que así puedes ajustar a gusto o separar cada parte en un modelo diferente y que tenga su propia textura/material, pudiendo darle más detalle, aunque lleva mucho tiempo.

Ejemplo (RAW vs Retopology):
https://cdna.artstation.com/p/assets/im ... 1512653259
https://cdna.artstation.com/p/assets/im ... 1512653488


En cuanto a la IA, no sé si fue esa u otra la que probé, pero me pareció una M, la parte visible la hacia como la imagen pero lo que no veía utiliza un modelo base de referencia que no se parecía en nada o simplemente copiaba la parte frontal y la ponía detrás.

Yo utilizo la herramienta Meshroom, pones las imágenes y le das procesar (Por defecto está configurado en calidad/rendimiento), tarda horas o días (depende de la cantidad de imágenes y su resolución, deja detenerlo y seguir otro momento pasa que debes borrar la cache del punto donde se ha detenido (aparece en rojo) ya que si le das continuar saltará con un error) pero el resultado que da increíble (lo único malo son materiales con transparencia que no los pilla y necesita muchísimos gigas de espacio). El resultado lo paso a Blender y hago retopology (si es algo que necesito lo antes posible o lo hago de cero todo a mano si tengo muuuuuuuuucho tiempo libre).
@mmiiqquueell el tema de gigapixel es que la imagen es muy grande porque es un mesh enorme, es una sola textura porque es un photoscan, es 8192x8192

Estoy mirando técnicas, para mejorarlo como lo que dije de usar esa IA que crea el mesh y me ha sorprendido una barbaridad, luego está la que hace la textura, que la estoy intentando instalar el local pero no hay forma porque tiene una dependencia que solo es compatible con linux y debería de usar el subsistema linux de windows, estoy en ello, para instalar la app.

Con gigapixel puedo reducir la textura a 512x512, o subirla un poco más, y luego va mucho más rápido, el modelo generativo es el que toma más tiempo, los modelos de escalado, para mejorar resolución, no toman casi nada, dos minutos.

Obviamente lo óptimo sería mejorar la imagen de forma generativa desde su máxima resolución para preservar el máximo detalle original y sobre eso añadir ya el detalle o la retexturización con más detalle. El problema que le veo a gigapixel es que gigapixel no entiende la imagen, y al trabajas en una única textura plana no comprende tan bien los elementos de esta, en cambio el sistema de texturicación que he puesto de hugging face si parete del mesh y va girando los planos, tiene un mejor entendimiento de la posición tridimensional de la imagen, por lo que una IA que haga eso incrementando los detalles, que de eso va la tecnología de MV-Adapter, de ahí han salido varias IAs como la de texturizar usando una imagen, pero también hay otra de text-to-image.
Imagen

Y la IA que genera mesh a partir de una simple captura es una locura, es una jodida revolución, de lo mejor que he visto hasta la fecha.

La imagen que le he dado
Imagen

El mesh generado
Imagen
De hecho me completa la geometría, la parte trasera en el mesh original es horrible.
Imagen
Imagen
Imagen


Aún así me sigue gustando más el photoscan original, solo que me gustaría un enhancer de textura y quizás un poco en el mesh, así como un autocompletar del mesh que encima retexturice lo que está de color negro.

Este es el photoscan original
Imagen
Imagen
Imagen


Actualmente como dices, lo mejor es ir a mano una vez tienes una base porque no existe aún un refinador perfecto, quizás alguien se lo haya podido montar, no creo que sea algo imposible lograr un mesh refiner que mejore el mesh dado, que termine de pulir la geometría si le entregas un mesh, si es capaz de lograr un mesh casi perfecto con una triste imagen debería de haber un refinador de mesh por ahí basado en IA.
Qué IA aconsejáis para que haga programación (aunque sea básica) ??

actualmente le pido a CHATGPT que me cree SCRIPTS pequeños, y me los hace bastante bien utilizando siempre PYTHON. Me pasa el código, lo compilo y a funcionar.

Qué otras opciones hay?
lolololito escribió:Qué IA aconsejáis para que haga programación (aunque sea básica) ??

actualmente le pido a CHATGPT que me cree SCRIPTS pequeños, y me los hace bastante bien utilizando siempre PYTHON. Me pasa el código, lo compilo y a funcionar.

Qué otras opciones hay?

Creo que es mejor este hilo
hilo_hilo-inteligencias-artificiales-conversacionales-y-modelos-de-lenguaje-google-bard-chat-gpt_2481206

Este está más enfocado a la IA generativa de imagen, vídeo, audio y 3D.
Imagen
https://stableprojectorz.com/
Una herramienta gratuita para crear 3D y texturas mediante StableDiffusion
Conserva los UV. Fusiona capas con pincel. Indica texto o imagen. Inpaint 3D.
Desarrollado por Automatic1111, ComfyUI, StabilityAI, Forge webui



REQUISITOS:

Se ejecuta en tu ordenador, gratis (sin costes ocultos).
Necesitarás una GPU NVIDIA compatible con StableDiffusion. También es compatible con GPU
AMD , pero consulta #amd-gpu en nuestro Discord.

Por lo tanto, necesitas al menos una GTX 1080 o superior, un procesador adecuado y al menos 12 GB de RAM.
Si usas un archivo zip mínimo , consulta las instrucciones en Discord #custom-webui.

Este instalador instalará el Python necesario y el repositorio Forge Automatic1111 . También descargará automáticamente algunas redes de control importantes , que ocupan varios GB.

Me verificó Sectigo (Comodo), quien me proporcionó su certificado digital.
Puedes hacer clic derecho en el archivo .exe -> "Propiedades" -> "Firmas digitales" para confirmar.
Mira el video sobre mi certificado.

Soy un desarrollador nuevo. Si ve el mensaje "Windows impidió que su PC iniciara una aplicación de un editor desconocido", haga clic en "Más información" y luego en " Ejecutar de todos modos".

He incluido un vídeo tutorial dentro del programa para ayudarte a comenzar.

CARACTERÍSTICAS PRINCIPALES:

Cree modelos 3D a partir de imágenes 2D y luego texturícelos mediante Automatic1111 StableDiffusion.

Conserva los UV originales.
Genera geometría 3D de alta calidad a partir de imágenes 2D utilizando diferentes generadores localmente en su computadora.
Crea múltiples variantes artísticas (lotes de arte) según la profundidad de la escena. El arte se proyecta automáticamente sobre los objetos 3D.
Texturiza todo el objeto a la vez mediante proyección multivista. Ideal para lograr consistencia visual.
Puedes mezclar diferentes proyecciones artísticas y eliminar las uniones entre ellas.
Ajuste la combinación pintando o pintando con el pincel directamente sobre el modelo 3D.
Ajuste el tono, la saturación, el valor y el contraste de cualquier proyección de arte 2D.
Genere y use un fondo 2D para inspirar StableDiffusion al texturizar su objeto 3D real.
El sombreado de oclusión ambiental Bake se aplica sobre todas las proyecciones.
Utiliza varias unidades de red de control, la primera es Profundidad (ACTIVADA por defecto).
Utiliza la máscara img2img (Inpaint) para proyectar solo en áreas seleccionadas. Posibilidad de mejorarla con una unidad Inpaint-ControlNet.
Puedes usar redes de control adicionales, como la red de control de transferencia de estilos, etc. Abre tus modelos 3D (OBJ) y tus propias texturas (PNG, JPG). Funcionalidad para txt2img e img2img.
StableProjectorz fue creado por Igor Aherne.
Considera apoyar el proyecto.🙂
Desplácese hacia abajo para obtener información sobre las novedades de la última versión.
@katatsumuri Interesante, lo he instalado para probarlo pero lamentablemente no logro que funcione, me dice que el Generador 3D no puede conectarse, he buscado si le pasa a más gente y las soluciones que da el desarrollador no funciona ninguna (Reinstalar, verificar IPs, VPN y/o Proxys, ejecutar un BAT que repara los fallos) pero no hay manera de que conecte, por lo que ahora mismo es un peso muerto de 40GB, si no se conecta (a pesar de estar en local) no te deja hacer nada (al menos StableDiffusion que se abre en el navegador web por su cuenta si funciona, aunque genera mutantes). La interfaz está creada en Unity y es genial, pero no es nada intuitivo ni siguiendo el tutorial, que lio.


EDIT: Nada, ya encontré que pasa, debido a que la interfaz no es nada intuitiva como dije, no me di cuenta que dice que necesita instalar un montón de programas de forma manual. Los cuales se pasa por el forro la carpeta de instalación y lo mete todo en C:/, el programa en total utiliza unos 100GB de espacio ya que descarga muchisimos modelos y luego está el tema de crear modelos 3D desde una imagen. Veamos, si tienes diferentes ángulos ni tan mal, y desde una imagen pues obvio, intenta reconstruir lo que supuestamente no ve pero da igual, sea una o varias imágenes el resultado es malillo, tarda poco en generar el modelo, me ha sorprendido en ese aspecto, pero como digo los resultados son muy Meh!, aunque también, no entiendo nada de la interfaz, el tutorial es de una versión antigua y el tio hace las cosas sin explicar como mueve, copia, rota, etc. solo dice lo necesario para el tutorial, he cargado una imagen más grande de 1024x768 y no sé como moverla o reducir su tamaño para hacer un screenshot y usarla como referencia, si le doy a crear modelo 3D sin hacer eso solo genera un bloque negro.

Aparte de eso, 32GB de RAM y 8GB de VRAM se quedan cortos. Tiene una opción para reducir la carga de GPU y VRAM que lo que hace es pasarle a la CPU y RAM todo dando como resultado que 64GB de RAM no basten y la CPU se muere.

Seguiré probando pero creo que lo acabaré borrando, no está mal aunque los resultados sean mediocres pero ocupa mucho, usa mucha memoria, la interfaz no hay quien la entienda, tutoriales muy simples y sin explicar muchas cosas.

EDIT2: Está guay pero muy verde aún, mi PC se muere, aguanta una o dos generaciones, a la segunda o tercera tira de memoria virtual y o va ultra lento o se cuelga todo y toca reiniciar, esto necesita un pepino con al menos 64GB de RAM y una GPU con 12GB de VRAM como mínimo. Los modelos 3D, no está mal si tenemos en cuenta el resultado con una sola imagen, intenta imaginarse y reconstruye lo que no ve, pero le falta mucho aún por mejorar, tal vez por si alguien quiere sacar un modelo para usar como base o referencia y luego construir por encima un modelo hecho a mano tal vez sirva.

Para desinstalar, una parte está donde le dices, la otra parte se mete en la carpeta del usuario/.cache/ y aquí dentro hay varias carpetas, una de ellas es la del programa que ha descargado un puñado de modelos.
@mmiiqquueell a mi me ha ido a la primera la verdad

El problema principal es el generador 3D que se suele instalar, el de Huangyan 3D, tiene varios modelos, y cada modelo está enfocado a cierta VRAM, y cuanto menos VRAM usa más mediocre es el modelo, pero puedes perfectamente generar, yo uso una 3080 y me genera modelos.

Lo que más me interesa a mi, más que el generador 3D, ya que para eso uso el que posteé en otro comentario, es el tema de la texturización 3D.
Imagen

Yo he usado el turbo porque solo tengo 10 GB, que es para 8, pero es que también está el mini para menos VRAM, y luego está el full que es para 16 GB o más.
Imagen
@katatsumuri Use el recomendado que ponía para 8GB o menos pero según Windows estaba usando 52GB de RAM (29GB real + 22GB virtual) y 11GB de VRAM (7GB real + 4GB compartido (que era parte de los 52GB de RAM)) a pesar de poner bajo rendimiento y la opción de bajo recursos en el generador. Me gusta que deja un margen de seguridad para no colgar el PC.

Como dije cuando funciona, el mesh que saca no está mal si tenemos en cuenta que lo saca de una imagen con muchos detalles, el simplificar recorta mucho pero intente subir el valor a 20% y ahí ya se moría por falta de memoria. Las texturas en este caso me fallo bastante, me sacaba todo como si fuera una textura de 64x64px, por lo que no sabría decir si estaban bien colocadas o no (esto dejando todo por defecto).

Ahora he probado el generador online que mencionaste "Sparc3D", la diferencia con Projectorz es brutal, ha sacado un modelo casi exacto de la imagen, falla un poco en ciertas partes, pero muy superior a Projectorz, me lo guardo, así puedo sacar modelos 3D y usarlos de referencia al modelar con Blender (las imágenes están bien pero a veces cuesta ajustar medidas). Estoy probando con todo tipo de imágenes, algunas bien, otras no tanto, pero supongo que es por el modelo.


EDIT: Malas noticias con Sparc3D. A pesar que la empresa detrás dejo claro que sería de código abierto, al fina solo ha sido para hacer publicidad, Sparc3D pasará a ser exclusivamente de pago a través de otro dominio llamado Hitem3D y han eliminado la herramienta de HuggingFace con la excusa de que han sido atacados, como protesta por esto la gente ha empezado a reportar tanto en GitHub como en HuggingFace por publicidad engañosa. Esto es visible con otros proyectos de la misma empresa donde ha ocurrido lo mismo, o bien han pasado a ser de pago o bien han quedado en el olvido en GitHub.
@mmiiqquueell pues muy malas la verdad porque era magia ese modelo

FLUX CONTEXT EN LOCAL https://fal.ai/flux-kontext
FLUX.1 Kontext es un modelo de imagen a imagen que comprende lo que ocurre en tu imagen y te permite modificarla, transformarla y experimentar con ella como nunca antes. Creado por Black Forest Labs. Escalado y servido por fal. ¡Prueba los modelos de FLUX.1 Kontext ahora!


UNA SOLA IMAGEN A LORA CON FLUX https://github.com/lovisdotio/workflow- ... -lora-flux

Flujo de trabajo automatizado de ComfyUI que crea un modelo LoRA personalizado a partir de una sola imagen de referencia.

Cómo funciona
Generación de indicaciones para LLM : Gemini analiza tu imagen y genera 20 indicaciones diferentes
Generación de imágenes : FLUX.1 Kontext crea 20 variaciones consistentes utilizando esas indicaciones
Creación de conjuntos de datos : las imágenes se guardan automáticamente con archivos de subtítulos
Formación LoRA : Formación integrada directamente en ComfyUI
@katatsumuri Vuelve a estar online, pero ya no es el mismo de antes, te hace esperar horas para sacar un modelo y no tan bueno como el que había antes o no sé, lo poco que he probado no me ha gustado.
88 respuestas
1, 2