¿Qué es Stable Diffusion?
¿Qué es Stable Diffusion?
Stable Diffusion es un modelo de inteligencia artificial generativa (IA generativa) que produce imágenes fotorrealistas únicas a partir de indicaciones de texto e imágenes. Se lanzó originalmente en 2022. Además de imágenes, también puede usar el modelo para crear videos y animaciones. El modelo se basa en la tecnología de difusión y utiliza el espacio latente. Esto reduce de manera significativa los requisitos de procesamiento y puede ejecutar el modelo en computadoras de escritorio o portátiles equipadas con GPU. Stable Diffusion se puede ajustar para satisfacer sus necesidades específicas con tan solo cinco imágenes mediante el aprendizaje por transferencia.
Stable Diffusion está disponible para todos bajo una licencia permisiva. Esto diferencia a Stable Diffusion de sus predecesores.
¿Por qué Stable Diffusion es importante?
Stable Diffusion es importante porque es accesible y fácil de usar. Puede ejecutarse en tarjetas gráficas de consumo. Por primera vez, cualquiera puede descargar el modelo y generar sus imágenes. También puede controlar los hiperparámetros clave, como el número de pasos de eliminación de ruido y el grado de ruido aplicado.
Stable Diffusion es fácil de usar, y usted no necesita información adicional para crear imágenes. Tiene una comunidad activa, por lo que Stable Diffusion tiene muchos manuales y tutoriales prácticos. La versión de software está bajo la licencia Creative ML OpenRail-M, que le permite usar, cambiar y redistribuir el software modificado. Si publica software derivado, debe publicarlo bajo la misma licencia e incluir una copia de la licencia original de Stable Diffusion.
¿Cómo funciona Stable Diffusion?
Como modelo de difusión, Stable Diffusion se diferencia de muchos otros modelos de generación de imágenes. En principio, los modelos de difusión utilizan el ruido gaussiano para codificar una imagen. Luego, utilizan un predictor de ruido junto con un proceso de difusión inversa para recrear la imagen.
Además de tener las diferencias técnicas de un modelo de difusión, Stable Diffusion es único porque no utiliza el espacio de píxeles de la imagen. En su lugar, utiliza un espacio latente de definición reducida.
La razón de esto es que una imagen en color con una resolución de 512 x 512 tiene 786 432 valores posibles. En comparación, Stable Diffusion utiliza una imagen comprimida que es 48 veces más pequeña con 16 384 valores. Esto reduce significativamente los requisitos de procesamiento. Y es por eso que se puede usar Stable Diffusion en un escritorio con una GPU NVIDIA con 8 GB de RAM. El espacio latente más pequeño funciona porque las imágenes naturales no son aleatorias. Stable Diffusion utiliza archivos de codificador automático variacional (VAE) en el decodificador para pintar detalles finos como ojos.
Stable Diffusion V1 se entrenó con tres conjuntos de datos recopilados por LAION a través del Common Crawl. Esto incluye el conjunto de datos de imágenes LAION-Aesthetics v2.6 con una calificación estética de 6 o superior.
¿Qué arquitectura utiliza Stable Diffusion?
Los principales componentes arquitectónicos de Stable Diffusion incluyen un codificador automático variacional, difusión directa e inversa, un predictor de ruido y acondicionamiento de texto.
Codificador automático variacional
El codificador automático variacional consiste en un codificador y un decodificador separados. El codificador comprime la imagen de 512 x 512 píxeles en un modelo más pequeño de 64 x 64 en un espacio latente que es más fácil de manipular. El decodificador restaura el modelo del espacio latente a una imagen de tamaño completo de 512 x 512 píxeles.
Difusión directa
La difusión directa agrega progresivamente ruido gaussiano a una imagen hasta que todo lo que queda es ruido aleatorio. No es posible identificar cuál era la imagen a partir de la imagen final con ruido. Durante el entrenamiento, todas las imágenes pasan por este proceso. La difusión directa ya no se utiliza más, excepto cuando se lleva a cabo una conversión de imagen a imagen.
Difusión inversa
Este proceso es esencialmente un proceso parametrizado que deshace iterativamente la difusión directa. Por ejemplo, puede entrenar al modelo con solo dos imágenes, como un gato y un perro. Si lo hiciera, el proceso inverso se inclinaría hacia un gato o un perro y nada intermedio. En la práctica, el entrenamiento de modelos implica miles de millones de imágenes y utiliza indicaciones para crear imágenes únicas.
Predictor de ruido (U-Net)
Un predictor de ruido es clave para eliminar el ruido de las imágenes. Stable Diffusion utiliza un modelo U-Net para ello. Los modelos U-Net son redes neuronales convolucionales desarrolladas originalmente para la segmentación de imágenes en biomedicina. En particular, Stable Diffusion utiliza el modelo de red neuronal residual (ResNet) desarrollado para la visión artificial.
El predictor de ruido estima la cantidad de ruido en el espacio latente y lo sustrae de la imagen. Repite este proceso un número específico de veces y reduce el ruido de acuerdo con los pasos especificados por el usuario. El predictor de ruido es sensible a las indicaciones de acondicionamiento que ayudan a determinar la imagen final.
Acondicionamiento de texto
La forma más común de acondicionamiento son las indicaciones de texto. Un tokenizador CLIP analiza cada palabra de un mensaje textual e incrusta estos datos en un vector de 768 valores. Puede usar hasta 75 tokens en un mensaje. Stable Diffusion envía estos mensajes desde el codificador de texto al predictor de ruido U-Net mediante un transformador de texto. Al configurar la semilla en un generador de números aleatorios, puede generar diferentes imágenes en el espacio latente.
¿Qué puede hacer Stable Diffusion?
Stable Diffusion representa una mejora notable en la generación de modelos de texto a imagen. Está ampliamente disponible y necesita mucha menos potencia de procesamiento que muchos otros modelos de conversión de texto en imagen. Sus capacidades incluyen conversión de texto a imagen, imagen a imagen, diseño gráfico, edición de imágenes y creación de videos.
Generación de texto a imagen
Esta es la forma más común en que la gente usa Stable Diffusion. Stable Diffusion genera una imagen mediante un mensaje de texto. Para crear diferentes imágenes, puede ajustar el número inicial del generador aleatorio o cambiar el programa de eliminación de ruido para obtener diferentes efectos.
Generación de imagen a imagen
Con una imagen de entrada y un mensaje de texto, puede crear imágenes basadas en una imagen de entrada. Un caso típico sería utilizar un boceto y un mensaje adecuado.
Creación de gráficos, obras de arte y logotipos
Con una selección de mensajes, es posible crear obras de arte, gráficos y logotipos en una amplia variedad de estilos. Naturalmente, no es posible predeterminar el resultado, aunque puede guiar la creación del logotipo mediante un boceto.
Edición y retoque de imágenes
Puede usar Stable Diffusion para editar y retocar fotos. Con AI Editor, cargue una imagen y use un borrador para enmascarar el área que desea editar. Luego, al generar un mensaje que defina lo que quiere lograr, edite o pinte la imagen. Por ejemplo, puede reparar fotografías antiguas, eliminar objetos de las imágenes, cambiar las características del sujeto y agregar nuevos elementos a la imagen.
Creación de video
Con características como Deforum de GitHub, es posible crear animaciones y videoclips cortos con Stable Diffusion. Otra aplicación consiste en agregar diferentes estilos a una película. También es posible animar las fotos mediante la creación de un efecto de movimiento, como ocurre con el agua que fluye.
¿Cómo puede ayudar AWS con Stable Diffusion?
Amazon Bedrock es la forma más sencilla de crear y escalar aplicaciones de IA generativa con modelos básicos. Amazon Bedrock es un servicio completamente administrado que pone a su disposición los principales modelos fundacionales, incluido Stable Diffusion, a través de una API, de modo que pueda elegir de entre varios modelos fundacionales para encontrar el que mejor se adapte a su caso de uso. Con Bedrock, puede acelerar el desarrollo y el despliegue de aplicaciones de IA generativa escalables, confiables y seguras sin administrar la infraestructura.
Amazon SageMaker JumpStart, que es un centro de aprendizaje automático que ofrece modelos, algoritmos y soluciones, brinda acceso a cientos de modelos básicos, incluidos los modelos básicos de mejor rendimiento disponibles al público, como Stable Diffusion. Se siguen añadiendo nuevos modelos de base, incluida Stable Diffusion XL 1.0, la última versión del modelo de generación de imágenes.