Apa itu Difusi Stabil? - Penjelasan AI Difusi Stabil

Apa itu Stable Diffusion?

Difusi Stabil adalah model kecerdasan buatan generatif (AI generatif) yang menghasilkan gambar fotorealistik unik dari teks dan petunjuk gambar. Awalnya diluncurkan pada tahun 2022. Selain gambar, Anda juga dapat menggunakan model untuk membuat video dan animasi. Model ini didasarkan pada teknologi difusi dan menggunakan ruang laten. Hal ini secara signifikan mengurangi persyaratan pemrosesan dan Anda dapat menjalankan model di desktop atau laptop yang dilengkapi dengan GPU. Stable Diffusion dapat disesuaikan untuk memenuhi kebutuhan spesifik Anda hanya dengan lima gambar melalui pembelajaran transfer.

Stable Diffusion tersedia untuk semua orang di bawah lisensi permisif. Hal ini membuat Stable Diffusion berbeda dari pendahulunya.

Baca mengenai AI generatif »

Mengapa Stable Diffusion penting?

Stable Diffusion penting karena mudah diakses dan mudah digunakan. Stable Diffusion dapat berjalan pada kartu grafis tingkat konsumen. Untuk pertama kalinya, siapa pun dapat mengunduh model dan menghasilkan gambar mereka. Anda juga memiliki kendali atas hiperparameter kunci, seperti jumlah langkah denoising dan tingkat noise yang diterapkan.

Stable Diffusion mudah digunakan dan Anda tidak memerlukan informasi tambahan untuk membuat gambar. Stable Diffusion memiliki komunitas yang aktif sehingga Stable Diffusion memiliki banyak dokumentasi dan tutorial cara penggunaan. Rilis perangkat lunak berada di bawah lisensi Creative ML OpenRAIL-M, yang memungkinkan Anda menggunakan, mengubah, dan mendistribusikan ulang perangkat lunak yang diubah. Jika Anda merilis perangkat lunak turunan, Anda harus merilisnya di bawah lisensi yang sama dan menyertakan salinan lisensi Stable Diffusion asli.

Bagaimana cara kerja Stable Diffusion?

Sebagai model difusi, Stable Diffusion berbeda dari banyak model pembuatan gambar lainnya. Pada prinsipnya, model difusi menggunakan noise Gaussian untuk mengenkode gambar. Kemudian, model difusi menggunakan prediktor noise bersama dengan proses difusi mundur untuk membuat ulang gambar.

Selain memiliki perbedaan teknis model difusi, Stable Diffusion unik karena tidak menggunakan ruang piksel gambar. Sebaliknya, model ini menggunakan ruang laten definisi rendah.

Alasannya, karena gambar berwarna dengan resolusi 512x512 memiliki 786.432 kemungkinan nilai. Sebagai perbandingan, Stable Diffusion menggunakan gambar terkompresi yang 48 kali lebih kecil pada 16.384 nilai. Hal ini secara signifikan mengurangi persyaratan pemrosesan. Dan itulah mengapa Anda dapat menggunakan Stable Diffusion pada desktop dengan GPU NVIDIA dengan RAM 8 GB. Ruang laten yang lebih kecil berfungsi karena gambar alami tidak acak. Stable Diffusion menggunakan file enkoder otomatis variasional (VAE) dalam dekoder untuk melukiskan detail halus, seperti mata.

Stable Diffusion V1 dilatih menggunakan tiga set data yang dikumpulkan oleh LAION melalui Common Crawl. Set data ini termasuk set data gambar LAION-Aesthetics v2.6 dengan peringkat estetika 6 atau lebih tinggi.

Arsitektur apa yang digunakan Stable Diffusion?

Komponen arsitektur utama Stable Diffusion termasuk enkoder otomatis variasional, difusi maju dan mundur, prediktor noise, dan pengondisian teks.

Enkoder otomatis variasional

Enkoder otomatis variasional terdiri dari enkoder dan dekoder terpisah. Enkoder mengompres gambar 512x512 piksel menjadi model 64x64 yang lebih kecil dalam ruang laten yang lebih mudah dimanipulasi. Dekoder mengembalikan model dari ruang laten menjadi gambar 512x512 piksel ukuran penuh.

Difusi maju

Difusi maju secara progresif menambahkan noise Gaussian ke gambar sampai yang tersisa hanyalah noise acak. Mustahil mengidentifikasi gambar tersebut dari gambar noise akhir. Selama pelatihan, semua gambar melalui proses ini. Difusi maju tidak digunakan lebih lanjut kecuali saat melakukan konversi gambar ke gambar.

Difusi mundur

Proses ini pada dasarnya adalah proses berparameter yang secara iteratif membatalkan difusi maju. Misalnya, Anda bisa melatih model hanya dengan dua gambar, seperti kucing dan anjing. Jika Anda melakukannya, proses sebaliknya akan mengarah pada kucing atau anjing dan tidak ada yang lain. Dalam praktiknya, pelatihan model melibatkan miliaran gambar dan menggunakan prompt untuk membuat gambar unik.

Prediktor noise (U-Net)

Prediktor noise adalah kunci untuk melakukan denoising gambar. Stable Diffusion menggunakan model U-Net untuk melakukan hal ini. Model U-Net adalah jaringan saraf konvolusi yang awalnya dikembangkan untuk segmentasi gambar dalam biomedis. Secara khusus, Stable Diffusion menggunakan model Jaringan Neural Residual (ResNet) yang dikembangkan untuk penglihatan komputer.

Prediktor noise memperkirakan jumlah noise di ruang laten dan menguranginya dari gambar. Prediktor noise mengulangi proses ini beberapa kali sehingga mengurangi noise sesuai dengan langkah-langkah yang ditentukan pengguna. Prediktor noise sensitif terhadap prompt pengondisian yang membantu menentukan gambar akhir.

Pengondisian teks

Bentuk pengondisian yang paling umum adalah prompt teks. Tokenizer CLIP menganalisis setiap kata dalam prompt tekstual dan menyematkan data ini ke dalam vektor nilai 768. Anda dapat menggunakan hingga 75 token dalam satu prompt. Stable Diffusion memberi umpan pada prompt ini dari enkoder teks ke prediktor noise U-Net menggunakan transformator teks. Dengan mengatur angka awal ke generator angka acak, Anda dapat menghasilkan gambar yang berbeda di ruang laten.

Apa saja yang bisa dilakukan Stable Diffusion?

Stable Diffusion merupakan peningkatan penting dalam pembuatan model teks ke gambar. Stable Diffusion tersedia secara luas dan membutuhkan daya pemrosesan yang jauh lebih sedikit daripada banyak model teks ke gambar lainnya. Kemampuannya meliputi teks ke gambar, gambar ke gambar, karya seni grafis, pengeditan gambar, dan pembuatan video.

Pembuatan teks ke gambar

Ini adalah cara paling umum yang digunakan orang untuk menggunakan Stable Diffusion. Stable Diffusion menghasilkan gambar menggunakan prompt tekstual. Anda dapat membuat gambar yang berbeda dengan menyesuaikan angka awal untuk generator acak atau mengubah jadwal denoising untuk efek yang berbeda.

Pembuatan gambar ke gambar

Menggunakan gambar input dan prompt teks, Anda dapat membuat gambar berdasarkan gambar input. Kasus tipikal adalah menggunakan sketsa dan prompt yang sesuai.

Pembuatan grafis, karya seni, dan logo

Menggunakan pilihan prompt, Anda dapat membuat karya seni, grafik, dan logo dalam berbagai gaya. Biasanya, hasil akhir tidak bisa ditentukan sebelumnya, meski Anda bisa memandu pembuatan logo dengan menggunakan sketsa.

Pengeditan dan perbaikan gambar

Anda dapat menggunakan Stable Diffusion untuk mengedit dan memperbaiki foto. Menggunakan Editor AI, muat gambar dan gunakan kuas penghapus untuk menutupi area yang ingin Anda edit. Kemudian, dengan menghasilkan prompt yang menentukan apa yang ingin Anda capai, edit atau warnai gambar tersebut. Misalnya, Anda dapat memperbaiki foto lama, menghapus objek dari gambar, mengubah fitur subjek, dan menambahkan elemen baru ke gambar.

Pembuatan video

Menggunakan fitur, seperti Deforum dari GitHub, Anda dapat membuat klip video pendek dan animasi dengan Stable Diffusion. Aplikasi lain adalah menambahkan gaya yang berbeda ke film. Anda juga dapat menghidupkan foto dengan menciptakan kesan gerak, seperti air yang mengalir.

Bagaimana AWS dapat membantu Stable Diffusion?

Amazon Bedrock adalah cara termudah untuk membangun dan menskalakan aplikasi AI generatif dengan model dasar. Amazon Bedrock adalah layanan terkelola penuh yang membuat model fondasi terkemuka termasuk Stable Diffusion tersedia melalui API sehingga Anda dapat memilih dari berbagai FM untuk menemukan model yang paling cocok bagi kasus penggunaan Anda. Dengan Bedrock, Anda dapat mempercepat pengembangan dan deployment aplikasi AI generatif yang dapat diskalakan, andal, dan aman tanpa mengelola infrastruktur.

Amazon SageMaker JumpStart, yang merupakan hub ML yang menawarkan model, algoritme, dan solusi, menyediakan akses ke ratusan model dasar, termasuk model dasar yang tersedia untuk umum dengan kinerja terbaik seperti Stable Diffusion. Model dasar baru terus ditambahkan, termasuk Stable Diffusion XL 1.0, versi terbaru dari model pembuatan gambar.

Apa itu Stable Diffusion?

Apa itu Stable Diffusion?

Mengapa Stable Diffusion penting?

Bagaimana cara kerja Stable Diffusion?

Arsitektur apa yang digunakan Stable Diffusion?

Enkoder otomatis variasional

Difusi maju

Difusi mundur

Prediktor noise (U-Net)

Pengondisian teks

Apa saja yang bisa dilakukan Stable Diffusion?

Pembuatan teks ke gambar

Pembuatan gambar ke gambar

Pembuatan grafis, karya seni, dan logo

Pengeditan dan perbaikan gambar

Pembuatan video

Bagaimana AWS dapat membantu Stable Diffusion?

Langkah Berikutnya di AWS

Lihat sumber daya terkait produk tambahan

Daftar untuk akun gratis

Mulai membangun di konsol

Pelajari

Sumber Daya

Developer

Bantuan