Qu'est-ce que Stable Diffusion ?

Stable Diffusion est un modèle d'intelligence artificielle générative (IA générative) qui produit des images photoréalistes uniques à partir de textes et d'images. Il a été lancé en 2022. Hormis les images, vous pouvez également utiliser le modèle pour créer des vidéos et des animations. Le modèle est basé sur la technologie de diffusion et utilise l'espace latent. Cela réduit considérablement les exigences de traitement et vous pouvez exécuter le modèle sur des ordinateurs de bureau ou portables équipés de GPU. Stable Diffusion peut être affiné pour répondre à vos besoins spécifiques avec seulement cinq images grâce à l'apprentissage par transfert.

Stable Diffusion est accessible à tous sous licence permissive. Cela différencie Stable Diffusion de ses prédécesseurs.

En savoir plus sur l'IA générative »

Pourquoi Stable Diffusion est-il importante ?

Stable Diffusion est important car il est accessible et facile à utiliser. Il peut fonctionner sur des cartes graphiques grand public. Pour la première fois, tout le monde peut télécharger le modèle et générer ses images. Vous pouvez également contrôler les hyperparamètres clés, tels que le nombre d'étapes de débruitage et le degré de bruit appliqué. 

Stable Diffusion est convivial et vous n'avez pas besoin d'informations supplémentaires pour créer des images. Sa communauté étant active, Stable Diffusion dispose d'une documentation abondante et de didacticiels. La version du logiciel est soumise à la licence Creative ML OpenRAIL-M, qui vous permet d'utiliser, de modifier et de redistribuer les logiciels modifiés. Si vous publiez un logiciel dérivé, vous devez le publier sous la même licence et inclure une copie de la licence Stable Diffusion originale.

Pourquoi la gestion des incidents est-elle importante ?

La gestion des incidents guide les équipes informatiques sur la réponse la plus appropriée à tout incident. Elle crée un système permettant aux équipes informatiques de saisir tous les détails pertinents en vue d'un apprentissage ultérieur. Vous pouvez considérer la gestion des incidents comme le manuel permettant de rétablir les opérations normales le plus rapidement possible en perturbant le moins possible les clients internes et externes.

Sans systèmes en place, la reprise après incident entraîne inévitablement des erreurs répétées, une mauvaise utilisation des ressources et un impact négatif plus important sur l'organisation. Nous abordons ci-après les avantages que vous pouvez tirer de la gestion des incidents.

Réduire le nombre d'incidents

En disposant d'un manuel à suivre en cas d'incident, les équipes peuvent résoudre les incidents le plus rapidement possible. Dans le même temps, la gestion des incidents réduit également le nombre d'incidents au fil du temps. Lorsque vous identifiez les risques à un stade précoce du processus d'IM, vous réduisez le risque d'incidents ultérieurs. La saisie de l'intégralité de l'analyse scientifique des incidents permet de remédier de manière proactive et d'éviter que des incidents similaires ne se reproduisent ultérieurement.

Performances améliorées

Lorsque vous utilisez une surveillance efficace et sensible dans le cadre de la gestion des incidents informatiques, vous pouvez identifier et étudier les baisses mineures de qualité. Cela vous permettra également de découvrir de nouveaux moyens d'améliorer vos performances. Au fil du temps, votre équipe informatique peut évaluer les modèles d'identification des incidents liés à la qualité de service, ce qui peut mener à des mesures correctives prédictives et à un service continu.

Collaboration efficace

Différentes équipes doivent souvent travailler ensemble pour la reprise après un incident. Vous pouvez améliorer la collaboration de manière significative en définissant des directives de communication pour toutes les parties dans le cadre de la réponse aux incidents. Vous pouvez également gérer plus efficacement les sentiments des parties prenantes.

Comment fonctionne Stable Diffusion ?

En tant que modèle de diffusion, Stable Diffusion se distingue de nombreux autres modèles de génération d'images. En principe, les modèles de diffusion utilisent le bruit gaussien pour coder une image. Ils utilisent ensuite un prédicteur de bruit associé à un processus de diffusion inverse pour recréer l'image.

Outre les différences techniques d'un modèle de diffusion, Stable Diffusion est unique en ce sens qu'il n'utilise pas l'espace des pixels de l'image. Il utilise plutôt un espace latent à définition réduite.  

La raison en est qu'une image couleur avec une résolution de 512 x 512 possède 786 432 valeurs possibles. À titre de comparaison, Stable Diffusion utilise une image compressée 48 fois plus petite à 16 384 valeurs. Cela réduit considérablement les exigences de traitement. C'est pourquoi vous pouvez utiliser Stable Diffusion sur un ordinateur de bureau équipé d'un GPU NVIDIA avec 8 Go de RAM. L'espace latent plus petit fonctionne parce que les images naturelles ne sont pas aléatoires. Stable Diffusion utilise des fichiers d'encodeur automatique variationnel (VAE) dans le décodeur pour peindre des détails fins tels que des yeux. 

Stable Diffusion V1 a été entraîné à l'aide de trois jeux de données collectés par LAION via le Common Crawl. Cela inclut le jeu de données LAION-Aesthetics v2.6 d'images avec une note esthétique de 6 ou plus.

Quelle architecture utilise Stable Diffusion ?

Les principaux composants architecturaux de Stable Diffusion incluent un encodeur automatique variationnel, une diffusion directe et inverse, un prédicteur de bruit et un conditionnement de texte.

Encodeur automatique variationnel

L'encodeur automatique variationnel se compose d'un encodeur et d'un décodeur séparés. L'encodeur compresse l'image de 512 x 512 pixels dans un modèle plus petit de 64 x 64 pixels dans un espace latent plus facile à manipuler. Le décodeur restaure le modèle à partir de l'espace latent en une image pleine grandeur de 512 x 512 pixels.

Diffusion directe

La diffusion directe ajoute progressivement du bruit gaussien à une image jusqu'à ce qu'il n'en reste plus qu'un bruit aléatoire. Il n'est pas possible d'identifier l'image de départ à partir de l'image bruitée finale. Pendant l'entraînement, toutes les images passent par ce processus. La diffusion directe n'est plus utilisée, sauf lors d'une conversion d'image en image.

Diffusion inverse

Ce processus est essentiellement un processus paramétré qui annule de manière itérative la diffusion directe. Par exemple, vous pouvez entraîner le modèle avec seulement deux images, comme un chat et un chien. Le cas échéant, le processus inverse s'orienterait soit vers un chat, soit vers un chien, et rien entre les deux. Dans la pratique, l'entraînement des modèles implique des milliards d'images et utilise des instructions pour créer des images uniques.

Prédicteur de bruit (U-Net)

Un prédicteur de bruit est essentiel pour débruiter les images. Pour ce faire, Stable Diffusion utilise un modèle U-Net. Les modèles U-Net sont des réseaux neuronaux convolutifs initialement développés pour la segmentation d'images en biomédecine. En particulier, Stable Diffusion utilise le modèle de réseau neuronal résiduel (ResNet) développé pour la vision par ordinateur.

Le prédicteur de bruit estime la quantité de bruit dans l'espace latent et la soustrait de l'image. Il répète ce processus un certain nombre de fois, réduisant ainsi le bruit selon les étapes spécifiées par l'utilisateur. Le prédicteur de bruit est sensible aux instructions de conditionnement qui aident à déterminer l'image finale.

Conditionnement du texte

Les invites textuelles constituent la forme de conditionnement la plus courante. Un analyseur lexical CLIP analyse chaque mot d'une invite textuelle et intègre ces données dans un vecteur à 768 valeurs. Vous pouvez utiliser jusqu'à 75 symboles par invite. Stable Diffusion transmet ces instructions de l'encodeur de texte au prédicteur de bruit U-Net à l'aide d'un transformateur de texte. En définissant la graine sur un générateur de nombres aléatoires, vous pouvez générer différentes images dans l'espace latent.

Que peut faire Stable Diffusion ?

Stable Diffusion représente une amélioration notable de la génération de modèles texte-image. Il est largement disponible et nécessite une puissance de traitement nettement inférieure à celle de nombreux autres modèles de conversion de texte en image. Ses fonctionnalités incluent le texte en image, l'image en image, les illustrations graphiques, l'édition d'images et la création de vidéos.

Génération de texte en image

C'est la façon la plus courante d'utiliser Stable Diffusion. Stable Diffusion génère une image à l'aide d'une invite textuelle. Vous pouvez créer différentes images en ajustant le nombre de graines du générateur aléatoire ou en modifiant le programme de débruitage pour différents effets.

Génération d'image par image

À l'aide d'une invite de saisie d'image et de texte, vous pouvez créer des images à partir d'une image d'entrée. Un cas typique serait d'utiliser un croquis et une invite appropriée.

Création de graphiques, d'illustrations et de logos

À l'aide d'une sélection d'instructions, il est possible de créer des illustrations, des graphiques et des logos dans une grande variété de styles. Bien entendu, il n'est pas possible de prédéterminer le résultat, bien que vous puissiez guider la création du logo à l'aide d'un croquis.

Modification et retouche d'images

Vous pouvez utiliser Stable Diffusion pour modifier et retoucher des photos. À l'aide d'AI Editor, chargez une image et utilisez un pinceau pour masquer la zone que vous souhaitez modifier. Ensuite, en générant une invite définissant ce que vous souhaitez réaliser, modifiez ou peignez l'image. Par exemple, vous pouvez réparer d'anciennes photos, supprimer des objets d'images, modifier les caractéristiques du sujet et ajouter de nouveaux éléments à l'image.

Création de vidéos

Grâce à des fonctionnalités telles que Deforum de GitHub, il est possible de créer de courts clips vidéo et des animations avec Stable Diffusion. Une autre application consiste à ajouter différents styles à un film.  Il est également possible d'animer des photos en créant une impression de mouvement, comme avec de l'eau qui coule. 

Comment AWS peut-il répondre à vos exigences relatives à Stable Diffusion ?

Amazon Bedrock est le moyen le plus simple de créer et de mettre à l'échelle des applications d'IA générative à l'aide des modèles de fondation. Amazon Bedrock est un service entièrement géré qui met à disposition les principaux modèles de fondation, y compris Stable Diffusion, par le biais d'une API, de sorte que vous pouvez choisir parmi différents modèles de fondation pour trouver celui qui convient le mieux à votre cas d'utilisation. Avec Bedrock, vous pouvez accélérer le développement et le déploiement d'applications d'IA générative évolutives, fiables et sécurisées sans gérer l'infrastructure.

Amazon SageMaker JumpStart, un hub ML proposant des modèles, des algorithmes et des solutions, donne accès à des centaines de modèles de fondation, y compris les modèles de fondation les plus performants accessibles au public, tels que Stable Diffusion. De nouveaux modèles de base continuent d'être ajoutés, notamment Stable Diffusion XL 1.0, la dernière version du modèle de génération d'images.

Prochaines étapes sur AWS

Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter