Was ist Stabile Diffusion?

Stabile Diffusion ist ein Modell der generativen künstlichen Intelligenz (generative KI), das aus Text- und Bildanweisungen einzigartige fotorealistische Bilder erzeugt. Es wurde ursprünglich im Jahr 2022 eingeführt. Neben Bildern können Sie das Modell auch verwenden, um Videos und Animationen zu erstellen. Das Modell basiert auf der Diffusionstechnologie und nutzt latente Umgebung. Dadurch werden die Verarbeitungsanforderungen erheblich reduziert, und Sie können das Modell auf Desktops oder Laptops mit GPUs ausführen. Stabile Diffusion kann durch Transferlernen mit nur fünf Bildern genau auf Ihre spezifischen Anforderungen abgestimmt werden.

Stabile Diffusion steht allen unter einer permissiven Lizenz zur Verfügung. Dies unterscheidet Stabile Diffusion von seinen Vorgängern.

Lesen Sie mehr über generative KI »

Warum ist Incident Management wichtig?

Das Incident Management unterstützt IT-Teams dabei, auf jeden Vorfall am besten zu reagieren. Es erstellt ein System, mit dem IT-Teams alle relevanten Details für weiteres Lernen erfassen können. Sie können das Incident Management als das Handbuch betrachten, mit dem Sie den normalen Betrieb so schnell wie möglich und mit minimalen Störungen für interne und externe Kunden wiederherstellen können.

Ohne Systeme führt die Wiederherstellung von Zwischenfällen unweigerlich zu wiederholten Fehlern, missbräuchlichen Ressourcen und größeren negativen Auswirkungen auf das Unternehmen. Als Nächstes besprechen wir einige Möglichkeiten, wie Sie vom Incident Management profitieren können.

Auftreten von Vorfällen reduzieren

Durch ein Playbook, das sie im Falle eines Vorfalls durchgehen können, können Teams Vorfälle so schnell wie möglich lösen. Gleichzeitig reduziert das Incident Management auch die Häufigkeit von Ereignissen im Laufe der Zeit. Wenn Sie Risiken frühzeitig im IM-Prozess erkennen, verringert sich die Wahrscheinlichkeit zukünftiger Vorfälle. Die Erfassung der gesamten Forensik von Vorfällen hilft bei der proaktiven Behebung und hilft zu verhindern, dass ähnliche Vorfälle später auftreten.

Verbesserte Leistung

Wenn Sie ein effektives und sensibles Monitoring im IT-Incident-Management einsetzen, können Sie geringfügige Qualitätseinbußen erkennen und untersuchen. Sie können auch neue Möglichkeiten zur Leistungssteigerung entdecken. Im Laufe der Zeit kann Ihr IT-Team die Muster der Servicequalität bei der Identifizierung von Vorfällen beurteilen, was zu vorausschauenden Problembehebungen und kontinuierlichem Service führen kann.

Effektive Zusammenarbeit

Bei der Behebung von Vorfällen müssen oft verschiedene Teams zusammenarbeiten. Sie können die Zusammenarbeit erheblich verbessern, indem Sie Kommunikationsrichtlinien für alle Beteiligten innerhalb des Vorfallreaktions-Frameworks festlegen. Sie können auch effektiver mit den Stimmungen Ihrer Stakeholder umgehen.

Warum ist Stabile Diffusion wichtig?

Stabile Diffusion ist wichtig, weil sie zugänglich und einfach zu bedienen ist. Sie kann auf Grafikkarten für Endverbraucher ausgeführt werden. Zum ersten Mal kann jeder das Modell herunterladen und seine Bilder generieren. Sie haben auch die Kontrolle über wichtige Hyperparameter, wie die Anzahl der Schritte zur Rauschunterzeichnung und den Grad des angewendeten Rauschens. 

Stabile Diffusion ist benutzerfreundlich und Sie benötigen keine zusätzlichen Informationen, um Bilder zu erstellen. Es hat eine aktive Community, daher bietet Stabile Diffusion eine umfangreiche Dokumentation und Anleitungen. Die Softwareversion steht unter der Creative-ML-OpenRAIL-M-Lizenz, mit der Sie modifizierte Software verwenden, ändern und weiterverteilen können. Wenn Sie abgeleitete Software veröffentlichen, müssen Sie diese unter derselben Lizenz veröffentlichen und eine Kopie der ursprünglichen Stabilen Diffusions-Lizenz beifügen.

Wie funktioniert Stabile Diffusion?

Als Diffusionsmodell unterscheidet sich Stabile Diffusion von vielen anderen Bilderzeugungsmodellen. Im Prinzip verwenden Diffusionsmodelle Gaußsches Rauschen, um ein Bild zu kodieren. Dann verwenden sie einen Rauschprädiktor zusammen mit einem umgekehrten Diffusionsprozess, um das Bild neu zu erstellen.

Abgesehen von den technischen Unterschieden eines Diffusionsmodells ist Stabile Diffusion insofern einzigartig, als es den Pixelraum des Bildes nicht nutzt. Stattdessen wird ein latenter Raum mit reduzierter Definition verwendet.  

Der Grund dafür ist, dass ein Farbbild mit einer Auflösung von 512x512 786.432 mögliche Werte hat. Im Vergleich dazu verwendet Stabile Diffusion ein komprimiertes Bild, das mit 16.384 Werten 48-mal kleiner ist. Dies reduziert die Verarbeitungsanforderungen erheblich. Aus diesem Grund können Sie Stabile Diffusion auf einem Desktop mit einer NVIDIA-GPU mit 8 GB RAM verwenden. Der kleinere latente Raum funktioniert, weil natürliche Bilder nicht zufällig sind. Stabile Diffusion verwendet VAE-Dateien (Variational Autoencoder) im Decoder, um feine Details wie Augen zu malen. 

Stabile Diffusion V1 wurde anhand von drei Datensätzen trainiert, die von LAION im Rahmen des Common Crawl gesammelt wurden. Dazu gehört auch der Datensatz LAION-Aesthetics v2.6 mit Bildern mit einer ästhetischen Bewertung von 6 oder höher.

Welche Architektur verwendet Stabile Diffusion?

Zu den wichtigsten architektonischen Komponenten von Stabiler Diffusion gehören ein variationeller Auto-Encoder, Vorwärts- und Rückwärtsdiffusion, ein Rauschprädiktor und Textkonditionierung.

Variationeller Auto-Encoder

Der variationelle Auto-Encoder besteht aus einem separaten Encoder und Decoder. Der Encoder komprimiert das 512x512-Pixel-Bild in ein kleineres 64x64-Modell im latenten Raum, das einfacher zu manipulieren ist. Der Decoder stellt das Modell aus dem latenten Raum in ein Bild mit 512 x 512 Pixeln in voller Größe wieder her.

Vorwärts-Diffusion

Die Vorwärts-Diffusion fügt einem Bild schrittweise Gaußsches Rauschen hinzu, bis nur noch zufälliges Rauschen übrig bleibt. Es ist nicht möglich, anhand des endgültigen verrauschten Bildes zu identifizieren, um welches Bild es sich handelt. Während der Schulung durchlaufen alle Bilder diesen Prozess. Die Vorwärts-Diffusion wird nicht weiter verwendet, es sei denn, es wird eine Bild-zu-Bild-Konvertierung durchgeführt.

Umgekehrte Diffusion

Dieser Prozess ist im Wesentlichen ein parametrisierter Prozess, der die Vorwärts-Diffusion iterativ rückgängig macht. Sie könnten das Modell beispielsweise mit nur zwei Bildern wie einer Katze und einem Hund schulen. Wenn Sie das tun würden, würde der umgekehrte Prozess entweder zu einer Katze oder einem Hund führen und zu nichts dazwischen. In der Praxis umfasst die Modellschulung Milliarden von Bildern und verwendet Aufforderungen, um einzigartige Bilder zu erstellen.

Rauschprädiktor (U-Net)

Ein Rauschprädiktor ist entscheidend für die Rauschunterzeichnung von Bildern. Stabile Diffusion verwendet dazu ein U-Net-Modell. U-Net-Modelle sind neuronale Faltungsnetzwerke, die ursprünglich für die Bildsegmentierung in der Biomedizin entwickelt wurden. Insbesondere verwendet Stabile Diffusion das ResNet-Modell (Residual Neural Network), das für Computer Vision entwickelt wurde.

Der Rauschprädiktor schätzt die Menge des Rauschens im latenten Raum und subtrahiert dieses vom Bild. Er wiederholt diesen Vorgang eine bestimmte Anzahl von Malen und reduziert dabei das Rauschen gemäß den vom Benutzer festgelegten Schritten. Der Rauschprädiktor reagiert empfindlich auf Aufforderungen zur Konditionierung, die bei der Bestimmung des endgültigen Bildes helfen.

Textkonditionierung

Die häufigste Form der Konditionierung sind Textansagen. Ein CLIP-Tokenizer analysiert jedes Wort in einer Textaufforderung und bettet diese Daten in einen 768-Werte-Vektor ein. Sie können bis zu 75 Token in einer Aufforderung verwenden. Stable Diffusion leitet diese Eingabeaufforderungen mithilfe eines Texttransformators vom Text-Encoder an den U-Net-Rauschprädiktor weiter. Indem Sie den Startwert auf einen Zufallszahlengenerator setzen, können Sie verschiedene Bilder im latenten Raum erzeugen.

Was kann Stabile Diffusion bewirken?

Stabile Diffusion stellt eine deutliche Verbesserung bei der Generierung von Text-zu-Bild-Modellen dar. Sie ist allgemein verfügbar und benötigt deutlich weniger Rechenleistung als viele andere Text-zu-Bild-Modelle. Zu ihren Funktionen gehören Text-zu-Bild, Bild-zu-Bild, Grafik, Bildbearbeitung und Videoerstellung.

Text-zu-Bild-Generierung

Dies ist die häufigste Art und Weise, wie Menschen Stabile Diffusion verwenden. Stabile Diffusion generiert ein Bild mithilfe einer Textaufforderung. Sie können verschiedene Bilder erstellen, indem Sie die Startzahl für den Zufallsgenerator anpassen oder den Rauschunterdrückungsplan für verschiedene Effekte ändern.

Bild-zu-Bild-Generierung

Mithilfe eines Eingabebilds und einer Textaufforderung können Sie Bilder auf der Grundlage eines Eingabebilds erstellen. Ein typischer Fall wäre die Verwendung einer Skizze und einer geeigneten Aufforderung.

Erstellung von Grafiken, Illustrationen und Logos

Mithilfe einer Auswahl von Eingabeaufforderungen ist es möglich, Illustrationen, Grafiken und Logos in einer Vielzahl von Stilen zu erstellen. Natürlich ist es nicht möglich, die Ausgabe vorab festzulegen, obwohl Sie die Logoerstellung anhand einer Skizze steuern können.

Bildbearbeitung und Retusche

Sie können Stabile Diffusion verwenden, um Fotos zu bearbeiten und zu retuschieren. Laden Sie mit dem KI-Editor ein Bild und maskieren Sie den Bereich, den Sie bearbeiten möchten, mit einem Radierpinsel. Dann, indem Sie eine Aufforderung generieren, in der Sie definieren, was Sie erreichen möchten, bearbeiten oder das Bild einmalen. Sie können beispielsweise alte Fotos reparieren, Objekte aus Bildern entfernen, Motivmerkmale ändern und dem Bild neue Elemente hinzufügen.

Erstellung von Videos

Mit Funktionen wie Deforum von GitHub können Sie mit Stabiler Diffusion kurze Videoclips und Animationen erstellen. Eine andere Anwendung besteht darin, einem Film verschiedene Stile hinzuzufügen.  Sie können Fotos auch animieren, indem Sie den Eindruck von Bewegung erwecken, wie bei fließendem Wasser. 

Wie kann AWS bei Stabiler Diffusion helfen?

Amazon Bedrock ist die einfachste Möglichkeit, generative KI-Anwendungen mit Basismodellen zu erstellen und zu skalieren. Amazon Bedrock ist ein vollständig verwalteter Service, der führende Basismodelle einschließlich Stable Diffusion über eine API zur Verfügung stellt, sodass Sie aus verschiedenen FMs das Modell auswählen können, das für Ihren Anwendungsfall am besten geeignet ist. Mit Bedrock können Sie die Entwicklung und Bereitstellung skalierbarer, zuverlässiger und sicherer generativer KI-Anwendungen beschleunigen, ohne die Infrastruktur verwalten zu müssen.

Amazon SageMaker JumpStart ist ein ML-Hub, der Modelle, Algorithmen und Lösungen anbietet. Er bietet Zugriff auf Hunderte von Basismodellen, einschließlich der leistungsstärksten öffentlich verfügbaren Basismodelle wie beispielsweise Stable Diffusion. Es werden weiterhin neue Basismodelle hinzugefügt, darunter Stable Diffusion XL 1.0, die neueste Version des Bildgenerierungsmodells.

Nächste Schritte in AWS

Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden