¿Cómo se instala/configura Stable Diffusion?

He comprado un i5-12400F con la RTX5060 Ti 16GB y ahora que puedo (mi anterior PC ya era de gama baja cuando lo compré) he empezado instalando Stable Diffusion siguiendo un tutorial en Youtube, pero no hay manera... Cada vez que intento generar algo me sale una cosa así, junto con mensajes de error en el CMD:

Imagen

NVIDIA GeForce RTX 5060 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70 sm_75 sm_80 sm_86 sm_90 compute_37.
If you want to use the NVIDIA GeForce RTX 5060 Ti GPU with PyTorch, please check the instruacions at https://pytorch.org/get-started/locally/


FATAL: kernel 'fmha_cutlassF_f16_aligned_64x64_rf_sm80' is for sm80-sm100, but was built for sm37
(veinticatorce veces)

He probado con diferentes combinaciones de ese enlace, y al no funcionar con otros comandos que he visto buscando por Internet, y al no funcionar tampoco éstas con herramientas como Stability Matrix, A1111 Webui Launcher... pero todas me dan diferentes errores, y tengo un guirigay de incompatibilidades de python, pytorch, xformers y demás cosas que ni siquiera sé bien qué son (no tengo ni idea de programación) que cada vez parece más difícil de desenmarañar.

Así que estoy pensando en restablecer el PC y empezar de cero, pero creo que voy a estar igual de perdido... ¿Cuál diríais que es la forma más sencilla de instalar Stable Diffusion con esta CPU y GPU a fecha de hoy sin que dé fallos?

Edit: Solucionado, usando comfyUI. Por si otros con una GPU de esta generación estáis en las mismas, ésta es la solución que me ha funcionado.
A mi lo que más me jode es que cada modelo es un mundo y lo que con SD XL me sale a la primera y perfecto, obviando deformidades, obviamente con un prompt currado, con flux no me sale ni a tiros y me tengo que esperar media vida por generación.
@Casino Night Lo de la imagen con muchos colores distorsionados ocurre cuando pones valores fuera de lo normal en un LoRA o activas muchos LoRA a la vez, también cuando activas demasiados filtros a la vez, eso es jugar con dichos ajustes hasta encontrar los correctos, aunque si estaba por defecto es raro que salga con esos resultados, si hay otra cosa no sabría decirte. En cuanto al otro error, eso son fallos de compilación, lo suyo es volver a compilarlo, aunque también puede ser falta de instalación de librerías, normalmente el FAQ o README de Github lo suele especificar.

@delid76 Flux consume bastante más HW que SDXL y 1.5, normalmente Flux ronda en FP32 que eso requiere de una GPU con al menos 24GB de VRAM, por lo que es recomendable pasar a una versión con FP16 para bajar a 12GB o FP8 para bajar a 6GB (aunque aquí la calidad de los resultados se verá bastante comprometida), también a diferencia del SD es recomendable reducir a la mitad la resolución de la imagen de salida, si en SDXL usabas 1024x1024, con Flux es mejor usar 512x512 para reducir el tiempo entre iteraciones.
mmiiqquueell escribió:@delid76 Flux consume bastante más HW que SDXL y 1.5, normalmente Flux ronda en FP32 que eso requiere de una GPU con al menos 24GB de VRAM, por lo que es recomendable pasar a una versión con FP16 para bajar a 12GB o FP8 para bajar a 6GB (aunque aquí la calidad de los resultados se verá bastante comprometida), también a diferencia del SD es recomendable reducir a la mitad la resolución de la imagen de salida, si en SDXL usabas 1024x1024, con Flux es mejor usar 512x512 para reducir el tiempo entre iteraciones.

El problema no es el tiempo, he probado modelos de todo tipo, tengo todas las versiones de FLUX y SD 3.5, y el resultado que quiero solo lo consigo con SD XL 1.0, con el tipo de imagen que busco. De hecho conseguí esas imágenes hará como un año y actualmente cuando usé flux, porque era lo actual y "lo mejor", no entendía como no me salía nada de eso, al final pensé que igual era porque realmente las generé en la época de XL, y así era, era el jodido modelo XL con el que las generé porque es evidente que con XL me saca justo lo que quiero como quiero.

SD XL me saca un estilo único en algo concreto que le pido, y los otros me sacan estilos rarísimos que no quiero, de hecho hasta SD 3.5 en wide me saca cosas muy raras, incluso con mala definición, lo bajé ayer pensando que al ser un modelo evolucionado del XL podría igual responder de la misma forma, pero no, y he probado desde el modelo large, turbo large y medio.

Es simplemente que al estar creado con otros parámetros este responde totalmente diferente a los prompts porque interpreta un estilo diferente del modelo xl al ser entrenado con otros parámetros, y las imágenes de referencia con las que entrenaron mi prompt no son las mismas o son las mismas pero con muchas más.

Probé a crear un lora con imágenes de SD XL para flux basadas en mis imágenes, pero claro, toma mucho tiempo y mis imágenes están en wide, no sé si lo hizo bien o no, no consiguo resultados decentes la verdad, pero desde luego que lo único que puedo hacer es tirar de crear un lora basándome en el arte y el aspecto de lo que consigo en SD XL.

Me encanta SD XL pero es más inconsistente, con los dedos y con otras cosas, no es un problema muy grave, pero preferiría mejor consistencia.

SD 3.5 no es más rápido que XL pero casi a la par, principalmente el modelo medio, pero es que de lo que le pido me saca inconsistencias y no funciona bien en wide 2048x512
Imagen

Hasta tengo las flux tools, pero vamos, que con controlnet y SD XL me apaño aunque no sea perfecto, y es más rápido y me saca las cosas bien todo el rato a nivel de lo que quiero, menos manos y algunas deformidades muy de vez en cuando, principalmente en manos y piernas.
3 respuestas