什麼是 Stable Diffusion?
穩定擴散是一種生成人工智能(生成 AI)模型,可從文本和圖像提示產生獨特的光逼真圖像。它最初於 2022 年推出。除了影像之外,您還可以使用該模型來建立影片和動畫。該模型基於擴散技術並使用潛在空間。這顯著降低了處理要求,讓您可以在配備 GPU 的桌上型電腦或筆記型電腦上執行該模型。透過遷移學習,只需五張影像即可 Stable Diffusion 進行微調,以滿足特定需求。
任何人都可以在遵循寬鬆授權要求的情況下使用 Stable Diffusion。這是 Stable Diffusion 與過往同類產品的不同之處。
為什麼 Stable Diffusion 如此重要?
Stable Diffusion 非常重要,因為它易於存取且可輕鬆使用。Stable Diffusion 可以在消費級圖形卡上運行。這是第一次任何人都可以下載模型並產生自己的影像。您還可以控制關鍵的超參數,例如去雜訊步驟的數量和施加的雜訊程度。
Stable Diffusion 便於使用者使用,您無需其他資訊即可建立影像。Stable Diffusion 有一個活躍的社群,因此存在大量的相關文件和操作教程。該軟體版本受 Creative ML OpenRail-M 授權的約束,該授權允許您使用、變更和重新分發修改後的軟體。如果您發行衍生軟體,則必須在相同的授權下發行軟體,並附上原始穩定擴散授權的副本。
Stable Diffusion 如何運作?
作為擴散模型,Stable Diffusion 不同於許多其他影像產生模型。原則上,擴散模型使用高斯雜訊對影像進行編碼。然後,模型使用雜訊預測器和反向擴散程序來重現影像。
除了具有不同的擴散模型技術之外,Stable Diffusion 的獨特之處在於它不使用影像的圖元空間。相反,它使用降低解析度的潛在空間。
其原因是,解析度為 512x512 的彩色影像具有 786,432 個可能的值。相比之下,Stable Diffusion 使用的壓縮影像要小 48 倍,其值為 16,384。這就大幅度降低了處理要求。因此,您可以在帶有 8GB RAM 的 NVIDIA GPU 的桌上型電腦上使用 Stable Diffusion。較小的潛在空間之所以可發揮作用,是因為自然影像不是隨機的。Stable Diffusion 使用解碼器中的變分自動編碼器 (VAE) 檔來繪製眼睛等精細細節。
使用 LAION 透過 Common Crawl 收集的三個資料集訓練 Stable Diffusion V1。這包括美學評分為 6 或更高的 LAION-Aesthetics v2.6 影像資料集。
Stable Diffusion 使用何種架構?
Stable Diffusion 的主要架構元件包括變分自動編碼器、正向和反向擴散、雜訊預測器和文字調整。
变分自动编码器
變分自動編碼器由單獨的編碼器和解碼器組成。編碼器在更易於操作的潛在空間中將 512x512 圖元的影像壓縮成更小的 64x64 模型。解碼器將模型從潛在空間復原為全尺寸 512x512 圖元的影像。
正向擴散
正向擴散逐漸向影像新增高斯雜訊,直到剩下的全部是隨機雜訊。無法從最終充滿雜訊的影像中識別出原始影像。在訓練期間,所有影像都會經過此程序。除非執行影像間的轉換,否則不會進一步使用正向擴散。
反向擴散
此程序本質上是一個參數化的過程,其會迭代撤消正向擴散。例如,可以僅使用兩張影像來訓練模型,例如貓和狗的圖片。如果採用此程序,反向程序就會偏向貓或狗,而非兩者之間的任何動物。實際上,模型訓練涉及數十億張影像,並使用提示來建立獨特的影像。
雜訊預測器 (U-Net)
雜訊預測器是對影像去雜訊的關鍵所在。Stable Diffusion 使用 U-Net 模型來執行去雜訊。U-Net 模型是捲曲式神經網絡,最初為生物醫學中的圖像細分開發。特別是,Stable Diffusion 使用為電腦視覺開發的殘差神經網路 (ResNet) 模型。
雜訊預測器會估計潛在空間中的雜訊量,並從影像中減去此雜訊量。它會重複此程序指定的次數,並根據使用者指定的步驟降低雜訊。雜訊預測器對於協助決定最終影像的調整提示很敏感。
文字調整
最常見的調整形式是文字提示。CLIP 分詞器分析文字提示中的每個字詞,並將這些資料嵌入 768 個值的向量中。最多可以在提示中使用 75 個字符。Stable Diffusion 使用文字轉換器將這些提示從文字編碼器傳送到 U-Net 雜訊預測器。透過將種子設定為亂數產生器,可以在潛在空間中產生不同的影像。
Stable Diffusion 可執行哪些動作?
穩 Stable Diffusion 代表文字轉影像模型產生方面的顯著改進。與許多其他文字轉影像模型相比,Stable Diffusion 可以廣泛使用,並且需要更低的處理能力。它的功能包括文字轉影像、影像轉影像、圖形插圖、影像編輯和影片創作。
文字轉影像產生
這是人們使用 Stable Diffusion 的最常見方式。Stable Diffusion 會使用文字提示產生影像。可以透過調整隨機產生器的種子數或變更不同效果的去雜訊排程來建立不同的影像。
影像轉影像產生
使用輸入影像和文字提示,您可以根據輸入影像建立新影像。典型的案例是使用草圖和合適的提示。
建立圖形、插圖和標誌
使用一系列提示,可以建立各種風格的插圖、圖形和標誌。當然,儘管可以使用草圖來指導標誌的創作,但不可能預先確定輸出。
影像編輯與修版
可以使用 Stable Diffusion 來編輯和修版照片。使用 AI Editor 載入影像並使用橡皮擦畫筆遮住要編輯的區域。然後,透過產生提示來定義想要實現的目標,編輯或重新繪製圖片。例如,可以修復舊照片、移除圖片中的物件、變更主體特徵以及向圖片新增新元素。
影片創作
使用 GitHub 中的 Deforum 等功能,可以藉助 Stable Diffusion 創作短影片片段和動畫。另一種應用是為電影新增不同的風格。 還可以透過營造運動印象 (例如流水) 來為照片製作動畫。
AWS 如何協助採用 Stable Diffusion?
Amazon Bedrock 是使用基礎模型建置和擴展生成人工智能應用程序的最簡單方法。Amazon Bedrock 是一項全受管服務,可透過 API 提供領先的基礎模型 (包括 Stable Diffusion),因此您可以從各種 FM 中進行選擇,以找到最適合您的使用案例的模型。 藉助 Bedrock,您可以加快開發和部署可擴展、可靠和安全的生成式 AI 應用程式,而無需管理基礎設施。
Amazon SageMaker JumpStart 是提供模型、演算法和解決方案的 ML 中樞,可以存取數百種基礎模型,包括最高效能的公開可用基礎模型,例如穩定擴散。繼續添加新的基礎模型,包括最新版圖像生成模型的穩定擴散 XL 1.0 。