El pasado mes de Agosto salió un nuevo modelo de inteligencia artificial para generar contenido multimedia que está en boca de todos y ha tenido una gran acogida por parte de la comunidad de creadores de contenido. Su nombre es Flux, promete estar a la altura de Midjourney y actualmente supera a Stable Difussion en algunos aspectos que comentaremos a continuación, pero primero vamos a ver quien está detrás de esta nueva herramienta.
¿De dónde surge Flux?
Flux ha sido creado por Black Forest Labs (un laboratorio alemán de inteligencia artificial), integrado por ex-miembros de Stability (fundadores de modelos como Stable Diffussion) que han tenido sus diferencias en como se estaba enfocando el proyecto y han decidido crear uno propio manteniendo la filosofía Open Source de la que parece se ha ido alejando Stability.
El equipo de Black Forest Labs cree en los modelos accesibles al público más amplio posible que además de incentivar la investigación y la colaboración también apuestan por la transparencia, esencial para la confianza y una amplia adopción. Ingredientes indispensables para poder desarrollar la tecnología de mayor calidad.
Características de Flux
¿Qué hace Flux diferente al resto de opciones que tenemos a la hora de generar imágenes con IA?. A continuación vamos a ver alguna de las características que hace de Flux una opción muy a tener en cuenta:
Mayor precisión y adherencia sobre el prompt. Este modelo es capaz de representar de una forma más fiel el prompt que le estemos indicando.
Mejor generación de texto en imágenes. Es una de las dificultades que hemos encontrado cuando hemos trabajado con otros modelos. Flux presenta mejor el texto que queramos añadir en un imagen, como muestra tenéis la siguiente imagen en la que se muestra texto sobre una pizarra.
Mejor representación de múltiples personas en la composición tanto en primer plano como en segundo plano. Algo difícil de conseguir en modelos como Stable Diffusion.
Mejora en la calidad de las manos. Esto es algo que ya venían corrigiendo otros modelos de generación de imágenes y que Flux maneja con soltura desde su primera versión.
Maneja una gran variedad de estilos. Aunque su fuerte parece que de momento son las imágenes hiperrealistas, Flux ofrece resultados muy convincentes en otros estilos como manga que podéis ver a continuación.
Versiones de Flux 1.0
A diferencia de Midjourney, en la que todos usamos una misma versión de su modelo. Flux ofrece 3 versiones diferentes de una misma versión. Cada unas especificaciones y requisitos.
Pro
Es el modelo principal. El más grande y del que obtendremos mejores resultados con posibilidad de uso comercial. Necesitas más VRAM (24GB).
Dev.
Un modelo intermedio, más pequeño que el anterior, pero que no se puede utilizar con fines comerciales. Está contenido en un único archivo de puntos de control. Es fácil de usar y requiere menos VRAM (16 GB)
Schnell.
Es el modelo más pequeño, pero también el más rápido. Reduce la calidad a cambio de tiempos de muestreo más rápidos (16 GB de VRAM requerida). Es la variante básica de código abierto para uso personal. Si no cuentas con un ordenador muy potente será tu mejor opción.
Cómo instalar Flux
Las versiones libres de Flux las podemos encontrar y descargar en el repositorio de Huggingface. No está disponible actualmente para AUTOMATIC1111, pero puede utilizarse Flux en Forge y ComfyUI.
ComfyUI tiene soporte de forma nativa. Solo tendrás que actualizar su versión sino lo has hecho a comienzos de Agosto de 2024. Es recomendable usar la versión Dev.
Al finalizar la descarga solo tienes que arrastrar el archivo a la carpeta correspondiente y cargarlo en cualquier de las interfaces que hemos comentado antes. La descarga puede tardar un poco (ocupa más de 17GB) es algo en lo que están optimizando para poder agilizar el uso de este nuevo modelo.
Conclusión
Siempre es una buena noticia que aparezcan nuevos actores y nuevas posibilidades a la hora de utilizar herramientas de inteligencia artificial y si además son Open Source mucho mejor.
Cuando parecía complicado plantar cara a Midjourney, Dall-e o Stable Diffusion aparece una nueva herramienta que da un buen golpe sobre la mesa con una proyección muy interesante. Estaremos muy atentos a su evolución y futuras actualizaciones.
La actual versión 1.0 de Flux trabaja en la generación de imágenes pero sus creadores prometen ofrecer la opción de generar video a partir de texto en sus próximas versiones.