Deividart- Blog de diseño gráfico y diseño/desarrollo web

Flux – Nuevo modelo de IA generativa de imágenes Open Source

El pasado mes de Agosto salió un nuevo modelo de inteligencia artificial para generar contenido multimedia que está en boca de todos y ha tenido una gran acogida por parte de la comunidad de creadores de contenido. Su nombre es Flux, promete estar a la altura de Midjourney y actualmente supera a Stable Difussion en algunos aspectos que comentaremos a continuación, pero primero vamos a ver quien está detrás de esta nueva herramienta.

Flux - nuevo modelo de generación de imágenes

¿De dónde surge Flux?

Flux ha sido creado por Black Forest Labs (un laboratorio alemán de inteligencia artificial), integrado por ex-miembros de Stability (fundadores de modelos como Stable Diffussion) que han tenido sus diferencias en como se estaba enfocando el proyecto y han decidido crear uno propio manteniendo la filosofía Open Source de la que parece se ha ido alejando Stability.

El equipo de Black Forest Labs cree en los modelos accesibles al público más amplio posible que además de incentivar la investigación y la colaboración también apuestan por la transparencia, esencial para la confianza y una amplia adopción. Ingredientes indispensables para poder desarrollar la tecnología de mayor calidad.

Características de Flux

¿Qué hace Flux diferente al resto de opciones que tenemos a la hora de generar imágenes con IA?. A continuación vamos a ver alguna de las características que hace de Flux una opción muy a tener en cuenta:

Mayor precisión y adherencia sobre el prompt. Este modelo es capaz de representar de una forma más fiel el prompt que le estemos indicando.

Mejor generación de texto en imágenes. Es una de las dificultades que hemos encontrado cuando hemos trabajado con otros modelos. Flux presenta mejor el texto que queramos añadir en un imagen, como muestra tenéis la siguiente imagen en la que se muestra texto sobre una pizarra.

Representación de texto con inteligencia artificial
Prompt. «A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”

Mejor representación de múltiples personas en la composición tanto en primer plano como en segundo plano. Algo difícil de conseguir en modelos como Stable Diffusion.

Mejora en la calidad de las manos. Esto es algo que ya venían corrigiendo otros modelos de generación de imágenes y que Flux maneja con soltura desde su primera versión.

Maneja una gran variedad de estilos. Aunque su fuerte parece que de momento son las imágenes hiperrealistas, Flux ofrece resultados muy convincentes en otros estilos como manga que podéis ver a continuación.

Flux - estilo manga
Prompt: «beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry»
Flux - estilo fantasía
Prompt: «two cute spiders in victorian outfits having a miniature tea party with a tiny table and teapot on a leaf, macro photo»
Flux - estilo realista
Prompt: «close up fujifilm photo of a mans eye and face»

Versiones de Flux 1.0

A diferencia de Midjourney, en la que todos usamos una misma versión de su modelo. Flux ofrece 3 versiones diferentes de una misma versión. Cada unas especificaciones y requisitos.

Pro

Es el modelo principal. El más grande y del que obtendremos mejores resultados con posibilidad de uso comercial. Necesitas más VRAM (24GB).

Dev.

Un modelo intermedio, más pequeño que el anterior, pero que no se puede utilizar con fines comerciales. Está contenido en un único archivo de puntos de control. Es fácil de usar y requiere menos VRAM (16 GB)

Schnell.

Es el modelo más pequeño, pero también el más rápido. Reduce la calidad a cambio de tiempos de muestreo más rápidos (16 GB de VRAM requerida). Es la variante básica de código abierto para uso personal. Si no cuentas con un ordenador muy potente será tu mejor opción.

Flux - capacidades y coste
Capacidades de cada versión de Flux

Cómo instalar Flux

Las versiones libres de Flux las podemos encontrar y descargar en el repositorio de Huggingface. No está disponible actualmente para AUTOMATIC1111, pero puede utilizarse Flux en Forge y ComfyUI.

ComfyUI tiene soporte de forma nativa. Solo tendrás que actualizar su versión sino lo has hecho a comienzos de Agosto de 2024. Es recomendable usar la versión Dev.

Al finalizar la descarga solo tienes que arrastrar el archivo a la carpeta correspondiente y cargarlo en cualquier de las interfaces que hemos comentado antes. La descarga puede tardar un poco (ocupa más de 17GB) es algo en lo que están optimizando para poder agilizar el uso de este nuevo modelo.

Conclusión

Siempre es una buena noticia que aparezcan nuevos actores y nuevas posibilidades a la hora de utilizar herramientas de inteligencia artificial y si además son Open Source mucho mejor.

Cuando parecía complicado plantar cara a Midjourney, Dall-e o Stable Diffusion aparece una nueva herramienta que da un buen golpe sobre la mesa con una proyección muy interesante. Estaremos muy atentos a su evolución y futuras actualizaciones.

La actual versión 1.0 de Flux trabaja en la generación de imágenes pero sus creadores prometen ofrecer la opción de generar video a partir de texto en sus próximas versiones.

Salir de la versión móvil