Con la irrupción de Stable Diffusion como modelo de inteligencia artificial generativa para crear imágenes y animaciones han surgido diferentes herramientas Open Source que permiten ejecutar diferentes modelos, de forma local, que podemos descargar en plataformas como Civitai. Además añaden soporte para extensiones que ampliarán sus funcionalidades, como reescalar imágenes, crear animaciones o entrenar tus propios Loras.
Estas herramientas ofrecen una interfaz a través de la cual podremos generar imágenes con inteligencia artificial realizando peticiones al modelo que tengamos descargado para generar imágenes, además de otras funcionalidades, facilitándonos el flujo de trabajo.
Todo esto en modo local, es decir, en tu propio ordenador, y totalmente gratis, sin depender de otras plataformas como Midjourney o Dall-e, aunque con el handicap de tener que contar con un buen ordenador para no frustrarnos con los tiempos de ejecución.
A continuación vamos a ver que opciones tenemos y las particularidades de cada herramienta para que las pruebes y compruebes por ti mismo cual encaja mejor en tus necesidades.
Herramientas para generar imágenes con inteligencia artificial, basados en Stable Diffusion
Forge
Desarrollado por Lymin Zhang, el desarrollador de Fooocus o ControlNet (extensión de Stable Diffusion que permite un mayor control sobre la imagen que generamos), Forge funciona más rápido que Automatic1111 con la misma memoria gráfica. En función de la cantidad de memoria que disponga nuestra tarjeta gráfica su rendimiento será más optimo, a menor cantidad mejor rendimiento notaremos:
- 6GB – mejora de un 60a un 75%
- 8Gb – mejora de un 30% a un 45%
- 24GB – mejora de un 3 a un 6%
La interfaz es muy similar a la que vemos en Automatic1111. Además de contar con extensiones instaladas por defecto como Controlnet, SVD o Z123. Otro punto a su favor es su compatibilidad con el modelo Flux1.
ComfyUI
ComfyUI se lanzó en GitHub en enero de 2023. Requiere de algunos conocimientos técnicos para su instalación pero en poco tiempo prevén lanzar una versión de escritorio compatible con Windows y MacOS que harán mucho más fácil su instalación y la gestión de extensiones. De momento han publicado una lista de espera a la que te puedes apuntar para ser el primero en conocer su lanzamiento. La comunidad está expectante.
ComfyUI es una interfaz que ha tenido muy buena aceptación por parte de la comunidad a pesar de su aparente complejidad, ya que no trabajamos con una interfaz predeterminada.
ComfyUI lleva la flexibilidad a un nivel completamente nuevo. Vamos añadiendo nodos a su mesa de trabajo (cada uno de los cuales representa una operación o modelo diferente) según necesitemos realizar una determinada acción; como generar imágenes de alta resolución, aplicar técnicas de retoque o combinar varios modelos para obtener mejores resultados
La conexión entre los diferentes nodos crea flujos que podremos guardar para recuperar en otra ocasión o compartirlo en su comunidad con otros usuarios, lo que nos facilitará realizar determinadas tareas.
Este enfoque de programación visual facilita la creación de prototipos, la prueba y la iteración de ideas. Aquí tienes los primeros pasos para empezar a generar imágenes con esta herramienta.
Automatic1111
Automatic1111 fue la primera interfaz donde podíamos ejecutar modelos basados en Stable Difussion, fueron muchos los que empezamos a usarlo gracias a los Notebooks ejecutados en Google Collab. Actualmente sigue teniendo un buen soporte por parte de la comunidad, aunque existe cierta preferencia a Forge, ya que su rendimiento está más optimizado.
Fooocus
Focus es una de las herramientas más sencillas para generar imágenes a través de modelos de inteligencia artificial aunque con algunas limitaciones a la hora de tener una mayor control sobre la generación de imágenes.
Una vez que hemos introducido el prompt podremos elegir un balance entre calidad o velocidad, la resolución y el número de imágenes que generará al procesar la petición.
Además podremos establecer que estilo tendrá la imagen, cargar diferentes modelos y otros parámetros más avanzados.
Esta UI es genial para quienes quieren empezar a probar la generación de imágenes con IA testeando diferentes prompts e iterando para comprobar los resultados en función del texto que introduzcamos
Conclusión
Elegir una u otra herramienta depende de tus necesidades y la curva de aprendizaje que estas dispuesto a soportar.
ComfyUI es perfecto para quienes buscan un mayor control sobre el resultado final y afinar cada detalle de sus creaciones, sin importar una mayor curva de aprendizaje.
A1111 (Stable Diffusion Web UI) tiene una interfaz fácil de usar y una amplia gama de funciones, esto lo convierte en una opción asequible para principiantes y usuarios con más experiencia en este tipo de herramientas. Cuenta con el apoyo de una gran comunidad que hará fácil resolver dudas o encontrar consejos.
Forge garantiza una experiencia fluida, especialmente en hardware menos potente, lo que lo hace accesible a un público más amplio lo que lo convierte en la mejor opción si el rendimiento y la sencillez son tus prioridades.
¿Conoces alguna otra interfaz que permita usar modelos de IA generativa bajo licencia Open Source? Si es así, déjalo en los comentarios para que le eche un vistazo.