Stable Diffusion คืออะไร

Stable Diffusion เป็นแบบจำ ลองปัญญาประดิษฐ์แบบสร้าง (generative AI) ที่สร้างภาพสมจริงที่เป็นเอกลักษณ์จากข้อความและข้อความแจ้งอิมเมจ แต่เดิมเปิดตัวในปี 2022 นอกจากภาพแล้ว คุณยังสามารถใช้โมเดลนี้เพื่อสร้างวิดีโอและภาพแอนิเมชันได้อีกด้วย โมเดลจะอาศัยเทคโนโลยีการแพร่กระจายและใช้พื้นที่แฝง ซึ่งจะช่วยลดความต้องการในการประมวลผลได้มาก และคุณสามารถเรียกใช้โมเดลบนเดสก์ท็อปหรือแล็ปท็อปที่ติดตั้ง GPU ได้ Stable Diffusion สามารถปรับอย่างละเอียดเพื่อให้ตรงกับความต้องการเฉพาะของคุณ โดยใช้ภาพน้อยสุดเพียง 5 รูปผ่านการเรียนรู้ถ่ายโอน

Stable Diffusion สามารถใช้ได้ทุกคนภายใต้ใบอนุญาต สิ่งนี้ทำให้ Stable Diffusion แตกต่างจากรุ่นก่อน

อ่านเกี่ยวกับ AI ช่วยสร้าง »

เหตุใด Stable Diffusio จึงมีความสำคัญ

Stable Diffusion เป็นคุณสมบัติสำคัญเนื่องจากสามารถเข้าถึงได้และใช้งานง่าย โดยสามารถทำงานบนการ์ดจอระดับผู้บริโภคได้ ซึ่งเป็นครั้งแรกที่ใครๆ ก็สามารถดาวน์โหลดโมเดลและสร้างรูปภาพของตนเองได้ นอกจากนี้ คุณยังควบคุมไฮเปอร์พารามิเตอร์ที่สำคัญได้ เช่น จำนวนขั้นตอนการลดสัญญาณรบกวนและระดับสัญญาณรบกวนที่ใช้

Stable Diffusion ใช้งานง่าย และคุณไม่จำเป็นต้องมีข้อมูลเพิ่มเติมเพื่อสร้างรูปภาพ อีกทั้งยังมีชุมชนที่พูดคุยเกี่ยวกับ Stable Diffusion ดังนั้น Stable Diffusion จึงมีเอกสารประกอบและคำแนะนำการใช้งานมากมาย ซอฟต์แวร์ที่เผยแพร่อยู่ภายใต้ลิขสิทธิ์ของ Creative ML OpenRAIL-M ซึ่งช่วยให้คุณใช้ เปลี่ยนแปลง และกระจายซอฟต์แวร์ที่แก้ไขแล้วได้ หากคุณปล่อยซอฟต์แวร์อนุพันธ์ คุณต้องปล่อยซอฟต์แวร์ภายใต้ใบอนุญาตเดียวกันและรวมสำเนาของใบอนุญาต S table Diffusion ดั้งเดิ ม

Stable Diffusio ทำงานอย่างไร

เนื่องจากเป็นโมเดลการแพร่กระจาย Stable Diffusion จึงแตกต่างจากโมเดลการสร้างรูปภาพอื่นๆ มากมาย โดยหลักการแล้ว โมเดลการแพร่กระจายจะใช้สัญญาณรบกวนแบบเกาส์เซียนในการเข้ารหัสภาพ จากนั้นก็จะใช้ตัวคาดการณ์สัญญาณรบกวนร่วมกับกระบวนการกระจายแบบย้อนกลับเพื่อสร้างรูปภาพขึ้นมาใหม่

นอกเหนือจากความแตกต่างทางเทคนิคของโมเดลการแพร่กระจายแล้ว Stable Diffusion ยังมีเอกลักษณ์เฉพาะตรงที่ไม่ใช้พื้นที่พิกเซลของรูปภาพ แต่จะใช้พื้นที่แฝงที่มีความละเอียดลดลงแทน

เหตุผลก็คือภาพสีที่มีความละเอียด 512x512 มีค่าที่เป็นไปได้ 786,432 ค่า จากการเปรียบเทียบ Stable Diffusion ใช้ภาพที่บีบอัดซึ่งเล็กกว่า 48 เท่าโดยมี 16,384 ค่า ซึ่งจะช่วยลดความต้องการในการประมวลผลได้อย่างมาก ด้วยเหตุนี้ คุณจึงสามารถใช้ Stable Diffusion บนเดสก์ท็อปที่มี NVIDIA GPU พร้อม RAM ขนาด 8 GB ได้ พื้นที่แฝงที่เล็กกว่านั้นก็ใช้ได้เนื่องจากภาพที่เป็นธรรมชาติไม่ได้เกิดขึ้นแบบสุ่ม Stable Diffusion ใช้ไฟล์ Variational Autoencoder (VAE) ในตัวถอดรหัสเพื่อลงรายละเอียดเล็กๆ น้อยๆ เช่น ดวงตา

Stable Diffusion V1 ได้รับการฝึกโดยใช้ชุดข้อมูล 3 ชุดที่รวบรวมโดย LAION ด้วยวิธีการ Common Crawl ซึ่งรวมถึงชุดข้อมูล LAION-Aesthetics v2.6 ของรูปภาพที่มีคะแนนความสวยงามตั้งแต่ 6 ขึ้นไป

Stable Diffusion ใช้สถาปัตยกรรมแบบใด

องค์ประกอบทางสถาปัตยกรรมหลักของ Stable Diffusion ได้แก่ ตัวเข้ารหัสอัตโนมัติแบบแปรผัน, Forward Diffusion, Reverse Diffusion, ตัวคาดการณ์สัญญาณรบกวน และการปรับสภาพข้อความ

ตัวเข้ารหัสอัตโนมัติแบบแปรผัน

ตัวเข้ารหัสอัตโนมัติแบบแปรผันประกอบด้วยตัวเข้ารหัสและตัวถอดรหัสที่แยกจากกัน ตัวเข้ารหัสจะบีบอัดรูปภาพขนาด 512x512 พิกเซลให้เป็นโมเดลขนาด 64x64 ที่เล็กลงในพื้นที่แฝงซึ่งง่ายต่อการจัดการ ตัวถอดรหัสจะกู้คืนโมเดลจากพื้นที่แฝงไปเป็นรูปภาพขนาดเต็ม 512x512 พิกเซล

Forward Diffusion

Forward Diffusion จะเพิ่มสัญญาณรบกวนแบบเกาส์เซียนให้กับภาพอย่างต่อเนื่อง จนกระทั่งสิ่งที่เหลืออยู่คือสัญญาณรบกวนแบบสุ่ม ไม่สามารถระบุได้ว่าภาพนั้นคืออะไรจากภาพที่มีสัญญาณรบกวนขั้นสุดท้าย ในระหว่างการฝึก รูปภาพทั้งหมดจะผ่านกระบวนการนี้ Forward Diffusion จะไม่ใช้อีกต่อไป ยกเว้นเมื่อทำการแปลงรูปภาพเป็นรูปภาพ

Reverse Diffusion

กระบวนการนี้เป็นกระบวนการที่กำหนดพารามิเตอร์โดยพื้นฐานแล้วซึ่งจะยกเลิก Forward Diffusion ซ้ำๆ ตัวอย่างเช่น คุณสามารถฝึกโมเดลด้วยรูปภาพเพียง 2 รูป เช่น แมวและสุนัข หากคุณทำเช่นนั้น กระบวนการย้อนกลับจะเปลี่ยนไปเป็นแมวหรือสุนัข และไม่มีสิ่งใดอยู่ระหว่างนั้น ในทางปฏิบัติ การฝึกโมเดลเกี่ยวข้องกับรูปภาพหลายพันล้านรูป และใช้พรอมต์เพื่อสร้างรูปภาพที่แตกต่างกัน

ตัวคาดการณ์สัญญาณรบกวน (U-Net)

ตัวคาดการณ์สัญญาณรบกวนเป็นกุญแจสำคัญในการลดจุดรบกวนของภาพ Stable Diffusion ใช้โมเดล U-Net ในการดำเนินการนี้ แบบจำลอง U-Net เป็นเครือข่ายประสาทแบบผนึกที่พัฒนาขึ้น ครั้งแรกสำหรับการแบ่งส่วน ภาพในชีวเวชศาสตร์ โดยเฉพาะอย่างยิ่ง Stable Diffusion ใช้โมเดล Residual Neural Network (ResNet) ที่พัฒนาขึ้นสำหรับคอมพิวเตอร์วิทัศน์

ตัวคาดการณ์สัญญาณรบกวนจะประมาณปริมาณสัญญาณรบกวนในพื้นที่แฝงและลบสัญญาณรบกวนนี้ออกจากภาพ โดยจะทำซ้ำขั้นตอนนี้ตามจำนวนครั้งที่ระบุ เพื่อลดสัญญาณรบกวนตามขั้นตอนที่ผู้ใช้กำหนด ตัวคาดการณ์สัญญาณรบกวนมีความไวต่อพรอมต์การปรับสภาพที่ช่วยกำหนดรูปภาพขั้นสุดท้าย

การปรับสภาพข้อความ

รูปแบบการปรับสภาพที่พบบ่อยที่สุดคือพรอมต์ข้อความ โทเค็นไนเซอร์ CLIP จะวิเคราะห์แต่ละคำในพรอมต์ข้อความและฝังข้อมูลนี้ลงในเวกเตอร์ค่า 768 คุณสามารถใช้ได้สูงสุด 75 โทเค็นในพรอมต์ Stable Diffusion จะป้อนพรอมต์เหล่านี้จากตัวเข้ารหัสข้อความไปยังตัวคาดการณ์สัญญาณรบกวน U-Net โดยใช้ตัวแปลงข้อความ ด้วยการตั้งค่าซีดเป็นตัวสร้างตัวเลขสุ่ม คุณจะสามารถสร้างรูปภาพต่างๆ ในพื้นที่แฝงได้

Stable Diffusion สามารถทำอะไรได้บ้าง

Stable Diffusion แสดงให้เห็นถึงการพัฒนาที่โดดเด่นในการสร้างโมเดลที่แปลงข้อความเป็นรูปภาพ ซึ่งมีการใช้งานอย่างแพร่หลายและใช้พลังในการประมวลผลน้อยกว่าโมเดลที่แปลงข้อความเป็นรูปภาพอื่นๆ อย่างมาก ความสามารถของโมเดลนี้ ได้แก่ การแปลงข้อความเป็นรูปภาพ รูปภาพเป็นรูปภาพ งานศิลปะกราฟิก การแก้ไขรูปภาพ และการสร้างวิดีโอ

การสร้างข้อความเป็นรูปภาพ

คนส่วนใหญ่ใช้ Stable Diffusion ในวิธีนี้ Stable Diffusion จะสร้างรูปภาพโดยใช้พรอมต์ข้อความ คุณสามารถสร้างรูปภาพต่างๆ ได้โดยการปรับหมายเลขเริ่มต้นสำหรับตัวสร้างแบบสุ่ม หรือเปลี่ยนกำหนดเวลาการลดสัญญาณรบกวนสำหรับเอฟเฟกต์ต่างๆ

การสร้างรูปภาพเป็นรูปภาพ

คุณสามารถสร้างรูปภาพตามรูปภาพที่ป้อนได้ โดยใช้รูปภาพที่ป้อนและพรอมต์ข้อความ กรณีทั่วไปจะเป็นการใช้ภาพร่างและพรอมต์ที่เหมาะสม

การสร้างกราฟิก งานศิลปะ และโลโก้

ด้วยการเลือกพรอมต์ คุณจึงสามารถสร้างงานศิลปะ กราฟิก และโลโก้ในหลากหลายสไตล์ได้ โดยปกติแล้ว เป็นไปไม่ได้ที่จะกำหนดผลลัพธ์ล่วงหน้า แม้ว่าคุณจะสามารถใช้ภาพร่างเป็นแนวทางในการสร้างโลโก้ก็ตาม

การแก้ไขและรีทัชรูปภาพ

คุณสามารถใช้ Stable Diffusion เพื่อแก้ไขและรีทัชรูปภาพได้ โหลดรูปภาพและใช้แปรงยางลบเพื่อมาสก์พื้นที่ที่คุณต้องการแก้ไข โดยใช้ AI Editor จากนั้นจึงกำหนดสิ่งที่คุณต้องการทำ แก้ไข หรือลงสีรูปภาพโดยการสร้างพรอมต์ ตัวอย่างเช่น คุณสามารถซ่อมแซมภาพถ่ายเก่า ลบวัตถุออกจากรูปภาพ เปลี่ยนคุณสมบัติของวัตถุ และเพิ่มองค์ประกอบใหม่ให้กับรูปภาพได้

การสร้างวิดีโอ

คุณสามารถสร้างคลิปวิดีโอสั้นๆ และภาพเคลื่อนไหวได้ด้วย Stable Diffusion โดยใช้คุณสมบัติต่างๆ เช่น Deforum จาก GitHub การใช้งานอีกอย่างหนึ่งคือการเพิ่มสไตล์ที่แตกต่างให้กับภาพยนตร์ คุณยังสามารถทำให้รูปภาพเคลื่อนไหวได้โดยสร้างความรู้สึกของการเคลื่อนไหว เช่น น้ำที่กำลังไหล

AWS สามารถช่วยในส่วนของ Stable Diffusion ได้อย่างไร

Amazon Bedrock เป็นวิธี ที่ง่ายที่สุดในการสร้างและปรับขนาดแอปพลิเคชัน AI แบบสร้างด้วยโมเดลพื้นฐ าน Amazon Bedrock เป็นบริการที่มีการจัดการเต็มรูปแบบซึ่งทำให้โมเดลพื้นฐานชั้นนำ รวมถึง Stable Diffusion พร้อมใช้งานได้ผ่าน API คุณจึงสามารถเลือกจาก FM ต่างๆ เพื่อค้นหาโมเดลที่เหมาะสำหรับกรณีการใช้งานของคุณมากที่สุด การใช้งาน Bedrock จะทำให้คุณสามารถเร่งการพัฒนาและปรับใช้แอปพลิเคชัน AI ช่วยสร้างที่ปรับขนาดได้ เชื่อถือได้ และปลอดภัย โดยไม่ต้องจัดการโครงสร้างพื้นฐาน

Amazon SageMaker JumpStart ซึ่งเป็นฮับ ML ที่นำเสนอโมเดล อัลกอริทึม และโซลูชัน ให้การเข้าถึงโมเดลมูลฐานหลายร้อยแบบ รวมถึงโมเดลฐานที่เปิดเผยต่อสาธารณะที่มีประสิทธิภาพสูงสุด เช่น Stable Diffusion โมเดลฐานใหม่ยังคงถูกเพิ่มเข้ามา รวมถึง S table Diffusion XL 1.0 ซึ่งเป็นรุ่นล่าสุดของรุ่นสร้างภาพ

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

สร้างสรรค์นวัตกรรมได้เร็วขึ้นด้วยบริการ AI ช่วยสร้างของ AWS

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Stable Diffusion คืออะไร