Ayuda con IA para generar una imagen de tamaño especifico

Buenas a todos.

Con esto de la inteligencia artificial y ya que tengo Copilot en el paquete este de Microsoft contratado (aunque se puede de forma gratuita), pensé en hacerme una alfombrilla de PC personalizada mediante una imagen creada por IA.

Pero usando Gemini, chatgpt con wall e 3, y Copilot (creo que usa wall-e 3 también), creó un prompt y le especificó el tamaño, lo que quiero que cree y hace lo que le da la gana.
El tamaño mediante lo crea o en 1024x1024 o en formato 4:3 o algo así, pero personalizado para nada.

Luego le digo que se base en el juego de PC terraria y que cree una imagen píxel art y me hace un adefesio indefinido sobrecargado y horrible.

Hace meses logré hacer mi firma después de muchísimos intentos en chatgpt a base de cortar y demás, pero es que ahora soy incapaz.

Alguien me puede echar una mano para generar una imagen de tamaño no estándar (la alfombrilla por ejemplo es en formato 32:9 creo) y que la imagen tenga un mínimo de sentido?

Gracias de antemano!!
No soy experto ni mucho menos, vamos que mi destreza no será mayor que la tuya, 4 experimentos con ChatGPT y Gemini, pero te diría que pruebes Stable Difussion. Si lo instalas en local puedes generar imágenes del tamaño que quieras y usar el modelo que quieras: los hay más realistas, más tipo cómic, etc.
No podrás a menos que pagues por alguna IA que te permita seleccionar modelos y LoRAs o como dice Axel te instales una IA en local y así si podrás hacer lo mismo que pagando de poner el modelo y LoRAs que quieras y además la resolución que quieras.

Con los modelos y LoRAs no tendrás problemas, solo es buscar el modelo que más se acerque y luego un LoRA para que se base a lo que te interesa (si existe), en caso de Terraria hay LoRAs para hacer fondos o personajes pero tipo anime/realista.

Para la resolución las IAs son entrenadas con imágenes de máximo 1024px, por lo que no podrás ir más allá de este punto, mayor resolución implica más tiempo y no solo eso, la IA empieza hacer cosas raras simplemente porque si le dices que te haga una imagen 4K entonces intentará generar tantas imágenes como pueda meter de 1024x1024 en ese 4K creando mutilaciones de cosas que ni existen en películas de terror. Así que la mejor opción es simplemente dejarlo y configurar solo el aspect ratio que quieras y luego usar otra IA o la misma para escalar la imagen, no queda de otra. Estable Diffusion hace esto automáticamente, una vez te saca la imagen generada la escala a la resolución que indicas.

Tampoco te obsesiones, nunca lograras el resultado que buscas, solo te sacarán aproximaciones y no siempre buenas, por lo que se reduce a probar, probar y probar hasta que al final puedas hacer una combinación de todas usando un editor de imágenes o usar la herramienta InPaint para cambiar la parte que no te gusta y vuelta a probar. Es una lastima pero no queda de otra si quieres algo muy especifico.
mmiiqquueell escribió:Tampoco te obsesiones, nunca lograras el resultado que buscas, solo te sacarán aproximaciones y no siempre buenas, por lo que se reduce a probar, probar y probar hasta que al final puedas hacer una combinación de todas usando un editor de imágenes o usar la herramienta InPaint para cambiar la parte que no te gusta y vuelta a probar. Es una lastima pero no queda de otra si quieres algo muy especifico.


Excelente apunte, y me alegra que lo menciones. Aunque se nos vende una y otra vez las excelencias de la IA generando imágenes, que no seré yo quien discuta los excelentes resultados que se tienen en general, todo lo que te da son aproximaciones. Da igual lo mucho que refines el prompt, al final acabas probando, y probando y probando, y no todas las pruebas mejoran, a veces empeoran la anterior. He llegado a pasar bocetos esquemáticos a ChatGPT para que los usara como base y a pesar de todo, se inventa la pose. La hace parecida, pero no igual. Llegó un momento en que le pregunté por qué no era más exacto y la respuesta fue categórica: "En estos momentos los modelos IA trabajan por aproximación, no pueden conseguir semejante grado de exactitud. Si buscas un resultado muy específico, deberás contar con un artista humano".
Gracias por las respuestas.
Pues nada, es para una tontería así que si sigo con la tontería imagino que le diré a alguien que le pago algo y que me haga un wallpaper personalizado para poner en la alfombrilla.
No es algo de importancia.
@AxelStone Se basa en ruido que va perfilando poco a poco, como cuando un artista empieza con un boceto y poco a poco le da detalles hasta que luego le da con el marcador y luego lo pinta, algo así pero a lo bruto. Aunque son aproximaciones se acerca mucho, y lo que son los ojos y manos se ha corregido bastante, hace tiempo que no me encuentro con ese problema tan amenudo, a veces una mano que no conecta a nadie pero bastante mejor, también voy actualizando los modelos ya que salen resultados más normales.

De todas formas, yo uso Fooocus y tiene varias opciones para usar imágenes de referencia, puedes pedir "variación sutil" que solo copia la imagen y cambia un poco el color y algún detalle pequeño, y luego tiene "variación pesada" que genera lo que le da la gana. También tiene para "describir imagen" donde intenta sacar todo lo que hay en la imagen y lo escribe en el pront y tengo que decir, describir una imagen "Real" falla mucho, pero si le pones una iamgen "Anime/Dibujo" lo saca todo, a veces da miedo ya que genera la imagen y dices "esto no está en la imagen" como un pendiente por ejemplo, entonces buscas el pront y dices aquí ha puesto "earring", pero luego ves la imagen y te das cuenta que quizás a lo lejos en muy pequeño hay una chica con un pendiente que casi ni se ve y te quedas en plan "¿en serio ha visto eso?"

@ajbeas Puedes probar una infinidad de veces, al menos en local no tienes limite, pero puedes probar hacer un dibujo aunque sea un churro o una composición de varios intentos, y luego le das a generar la imagen con cambios sutiles o describir el contenido, con eso debería generar lo que quieres o bueno, una aproximación. Si una parte no te convence tienes el InPaint, y si aún así no lo saca siempre puedes editar el mejor resultado con un editor de imágenes y le cambias a lo que quieres realmente aunque sea un churro, luego le metes la imagen a la IA y le marcas con el InPaint la parte que quieres cambiar, y en teoría esto debería funcionar, lo he usado alguna vez para corregir ojos y manos, como lo logro que saque lo que quiero pues lo edito en Gimp y luego que lo corrija, y funciona, tras varios intentos obviamente.
Viendo lo visto, y con la experiencia que he tenido en el tema de las imágenes generadas mediante algoritmos, no sé de donde sacan lo de "inteligencia". [facepalm]

No sé cuantos vatios me cuesta sacar una escena con un guerrero sujetando bien una puñetera espada.
6 respuestas