¿Qué es Stable Diffusion?

Stable Diffusion es un modelo de inteligencia artificial generativa (IA generativa) que produce imágenes fotorrealistas únicas a partir de mensajes de texto e imagen. Se lanzó originalmente en 2022. Además de imágenes, también puede usar el modelo para crear videos y animaciones. El modelo se basa en la tecnología de difusión y utiliza el espacio latente. Esto reduce de manera significativa los requisitos de procesamiento y puede ejecutar el modelo en computadoras de escritorio o portátiles equipadas con GPU. Stable Diffusion se puede ajustar para satisfacer sus necesidades específicas con tan solo cinco imágenes mediante el aprendizaje por transferencia.

Stable Diffusion está disponible para todos bajo una licencia permisiva. Esto diferencia a Stable Diffusion de sus predecesores.

Más información sobre la IA generativa »

¿Por qué es importante la administración de incidentes?

La administración de incidentes guía a los equipos de TI sobre la respuesta más adecuada para cualquier incidente. Crea un sistema para que los equipos de TI puedan capturar todos los detalles relevantes para seguir aprendiendo. Puede considerar la administración de incidentes como el manual para restablecer las operaciones normales lo más rápido posible con una interrupción mínima para los clientes internos y externos.

Sin sistemas implementados, la recuperación de incidentes conduce inevitablemente a errores repetidos, a un mal uso de los recursos y a un mayor impacto negativo en la organización. A continuación, analizamos algunas formas en las que puede beneficiarse de la administración de incidentes.

Reduzca la incidencia de incidentes

Al tener un manual para seguir en caso de un incidente, los equipos pueden resolver los incidentes lo más rápido posible. Al mismo tiempo, la administración de incidentes también reduce la incidencia a lo largo del tiempo. Al identificar los riesgos en una fase temprana del proceso de administración de incidentes, se reduce la posibilidad de que se produzcan incidentes en el futuro. La recopilación del análisis forense completo del incidente ayuda a la corrección proactiva y ayuda a evitar que ocurran incidentes similares más adelante.

Mejor rendimiento

Cuando utiliza una supervisión eficaz y sensible en la administración de incidentes de TI, puede identificar e investigar pequeñas reducciones de calidad. También puede descubrir nuevas formas de mejorar el rendimiento. Con el tiempo, su equipo de TI puede evaluar los patrones de identificación de incidentes de calidad del servicio, lo que puede conducir a una corrección predictiva y a un servicio continuo.

Colaboración efectiva

A menudo, diferentes equipos tienen que trabajar juntos para la recuperación de incidentes. Puede mejorar la colaboración de manera significativa si describe las pautas de comunicación para todas las partes dentro del marco de respuesta a incidentes. También puede administrar las opiniones de las partes interesadas de forma más eficaz.

¿Por qué Stable Diffusion es importante?

Stable Diffusion es importante porque es accesible y fácil de usar. Puede ejecutarse en tarjetas gráficas de consumo. Por primera vez, cualquiera puede descargar el modelo y generar sus imágenes. También puede controlar los hiperparámetros clave, como el número de pasos de eliminación de ruido y el grado de ruido aplicado. 

Stable Diffusion es fácil de usar, y usted no necesita información adicional para crear imágenes. Tiene una comunidad activa, por lo que Stable Diffusion tiene muchos manuales y tutoriales prácticos. La versión de software está bajo la licencia Creative ML OpenRail-M, que le permite usar, cambiar y redistribuir el software modificado. Si lanza software derivado, debe publicarlo bajo la misma licencia e incluir una copia de la licencia original de Stable Diffusion.

¿Cómo funciona Stable Diffusion?

Como modelo de difusión, Stable Diffusion se diferencia de muchos otros modelos de generación de imágenes. En principio, los modelos de difusión utilizan el ruido gaussiano para codificar una imagen. Luego, utilizan un predictor de ruido junto con un proceso de difusión inversa para recrear la imagen.

Además de tener las diferencias técnicas de un modelo de difusión, Stable Diffusion es único porque no utiliza el espacio de píxeles de la imagen. En su lugar, utiliza un espacio latente de definición reducida.  

La razón de esto es que una imagen en color con una resolución de 512 x 512 tiene 786 432 valores posibles. En comparación, Stable Diffusion utiliza una imagen comprimida que es 48 veces más pequeña con 16 384 valores. Esto reduce significativamente los requisitos de procesamiento. Y es por eso que se puede usar Stable Diffusion en un escritorio con una GPU NVIDIA con 8 GB de RAM. El espacio latente más pequeño funciona porque las imágenes naturales no son aleatorias. Stable Diffusion utiliza archivos de codificador automático variacional (VAE) en el decodificador para pintar detalles finos como ojos. 

Stable Diffusion V1 se entrenó con tres conjuntos de datos recopilados por LAION a través del Common Crawl. Esto incluye el conjunto de datos de imágenes LAION-Aesthetics v2.6 con una calificación estética de 6 o superior.

¿Qué arquitectura utiliza Stable Diffusion?

Los principales componentes arquitectónicos de Stable Diffusion incluyen un codificador automático variacional, difusión directa e inversa, un predictor de ruido y acondicionamiento de texto.

Codificador automático variacional

El codificador automático variacional consiste en un codificador y un decodificador separados. El codificador comprime la imagen de 512 x 512 píxeles en un modelo más pequeño de 64 x 64 en un espacio latente que es más fácil de manipular. El decodificador restaura el modelo del espacio latente a una imagen de tamaño completo de 512 x 512 píxeles.

Difusión directa

La difusión directa agrega progresivamente ruido gaussiano a una imagen hasta que todo lo que queda es ruido aleatorio. No es posible identificar cuál era la imagen a partir de la imagen final con ruido. Durante el entrenamiento, todas las imágenes pasan por este proceso. La difusión directa ya no se utiliza más, excepto cuando se lleva a cabo una conversión de imagen a imagen.

Difusión inversa

Este proceso es esencialmente un proceso parametrizado que deshace iterativamente la difusión directa. Por ejemplo, puede entrenar al modelo con solo dos imágenes, como un gato y un perro. Si lo hiciera, el proceso inverso se inclinaría hacia un gato o un perro y nada intermedio. En la práctica, el entrenamiento de modelos implica miles de millones de imágenes y utiliza indicaciones para crear imágenes únicas.

Predictor de ruido (U-Net)

Un predictor de ruido es clave para eliminar el ruido de las imágenes. Stable Diffusion utiliza un modelo U-Net para ello. Los modelos U-Net son redes neuronales convolucionales desarrolladas originalmente para la segmentación de imágenes en biomedicina. En particular, Stable Diffusion utiliza el modelo de red neuronal residual (ResNet) desarrollado para la visión artificial.

El predictor de ruido estima la cantidad de ruido en el espacio latente y lo sustrae de la imagen. Repite este proceso un número específico de veces y reduce el ruido de acuerdo con los pasos especificados por el usuario. El predictor de ruido es sensible a las indicaciones de acondicionamiento que ayudan a determinar la imagen final.

Acondicionamiento de texto

La forma más común de acondicionamiento son las indicaciones de texto. Un tokenizador CLIP analiza cada palabra de un mensaje textual e incrusta estos datos en un vector de 768 valores. Puede usar hasta 75 tokens en un mensaje. Stable Diffusion envía estos mensajes desde el codificador de texto al predictor de ruido U-Net mediante un transformador de texto. Al configurar la semilla en un generador de números aleatorios, puede generar diferentes imágenes en el espacio latente.

¿Qué puede hacer Stable Diffusion?

Stable Diffusion representa una mejora notable en la generación de modelos de texto a imagen. Está ampliamente disponible y necesita mucha menos potencia de procesamiento que muchos otros modelos de conversión de texto en imagen. Sus capacidades incluyen conversión de texto a imagen, imagen a imagen, diseño gráfico, edición de imágenes y creación de videos.

Generación de texto a imagen

Esta es la forma más común en que la gente usa Stable Diffusion. Stable Diffusion genera una imagen mediante un mensaje de texto. Para crear diferentes imágenes, puede ajustar el número inicial del generador aleatorio o cambiar el programa de eliminación de ruido para obtener diferentes efectos.

Generación de imagen a imagen

Con una imagen de entrada y un mensaje de texto, puede crear imágenes basadas en una imagen de entrada. Un caso típico sería utilizar un boceto y un mensaje adecuado.

Creación de gráficos, obras de arte y logotipos

Con una selección de mensajes, es posible crear obras de arte, gráficos y logotipos en una amplia variedad de estilos. Naturalmente, no es posible predeterminar el resultado, aunque puede guiar la creación del logotipo mediante un boceto.

Edición y retoque de imágenes

Puede usar Stable Diffusion para editar y retocar fotos. Con AI Editor, cargue una imagen y use un borrador para enmascarar el área que desea editar. Luego, al generar un mensaje que defina lo que quiere lograr, edite o pinte la imagen. Por ejemplo, puede reparar fotografías antiguas, eliminar objetos de las imágenes, cambiar las características del sujeto y agregar nuevos elementos a la imagen.

Creación de video

Con características como Deforum de GitHub, es posible crear animaciones y videoclips cortos con Stable Diffusion. Otra aplicación consiste en agregar diferentes estilos a una película.  También es posible animar las fotos mediante la creación de un efecto de movimiento, como ocurre con el agua que fluye. 

¿Cómo puede ayudar AWS con Stable Diffusion?

Amazon Bedrock es la forma más fácil de crear y escalar aplicaciones de IA generativa con modelos fundacionales. Amazon Bedrock es un servicio completamente administrado que pone a su disposición los principales modelos fundacionales, incluido Stable Diffusion, a través de una API, de modo que pueda elegir de entre varios modelos fundacionales para encontrar el que mejor se adapte a su caso de uso. Con Bedrock, puede acelerar el desarrollo y el despliegue de aplicaciones de IA generativa escalables, confiables y seguras sin administrar la infraestructura.

Amazon SageMaker JumpStart, que es un centro de ML que ofrece modelos, algoritmos y soluciones, proporciona acceso a cientos de modelos fundacionales, incluidos aquellos de mejor rendimiento disponibles públicamente, como Stable Diffusion. Se siguen agregando nuevos modelos fundacionales, incluido Stable Diffusion XL 1.0, la última versión del modelo de generación de imágenes.

Siguientes pasos en AWS

Descubra otros recursos relacionados con el producto
Innove más rápido con el conjunto más completo de servicios de IA y ML 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión