Stable Diffusion là gì?

Tạo tài khoản AWS

Stable Diffusion là gì?

Sự khuếch tán ổn định là một mô hình trí tuệ nhân tạo tạo (AI generative) tạo ra hình ảnh thực tế độc đáo từ văn bản và lời nhắc hình ảnh. Mô hình này ra mắt lần đầu vào năm 2022. Ngoài hình ảnh, bạn cũng có thể sử dụng mô hình này để tạo ra video và hoạt ảnh. Mô hình này dựa trên công nghệ khuếch tán và sử dụng không gian ngầm. Điều này làm giảm đáng kể yêu cầu xử lý và bạn có thể chạy mô hình trên máy tính để bàn hoặc máy tính xách tay được trang bị GPU. Stable Diffusion có thể được tinh chỉnh để đáp ứng nhu cầu riêng của bạn với chỉ năm hình ảnh thông qua quá trình học chuyển giao.

Tất cả những người có giấy phép cấp phép đều có thể sử dụng Stable Diffusion. Điều này tạo nên sự khác biệt giữa Stable Diffusion với các mô hình cùng loại trước đây.

Tìm hiểu về AI tạo sinh »

Tại sao Stable Diffusion lại quan trọng?

Stable Diffusion rất quan trọng vì nó dễ truy cập và dễ sử dụng. Nó có thể chạy trên thẻ đồ họa cấp tiêu dùng. Lần đầu tiên, bất kỳ ai cũng có thể tải xuống mô hình và tạo hình ảnh. Bạn cũng có quyền kiểm soát các siêu tham số chính, chẳng hạn như số bước khử nhiễu và mức độ nhiễu được áp dụng.

Stable Diffusion thân thiện với người dùng và bạn không cần thông tin bổ sung để tạo hình ảnh. Stable Diffusion có một cộng đồng hoạt động tích cực, vì vậy nó có đa dạng tài liệu và hướng dẫn thực hiện. Bản phát hành phần mềm này tuân theo giấy phép Creative ML OpenRAIL-M, cho phép bạn sử dụng, thay đổi và phân phối lại phần mềm đã sửa đổi. Nếu bạn phát hành phần mềm phái sinh, bạn phải phát hành nó theo cùng một giấy phép và bao gồm một bản sao của giấy phép Stable Diffusion gốc.

Stable Diffusion hoạt động như thế nào?

Là một mô hình khuếch tán, Stable Diffusion khác với nhiều mô hình tạo hình ảnh khác. Về nguyên tắc, các mô hình khuếch tán sử dụng nhiễu Gaussian để mã hóa một hình ảnh. Sau đó, chúng sử dụng công cụ dự đoán nhiễu cùng với quá trình khuếch tán đảo ngược để tái tạo hình ảnh.

Ngoài các điểm khác biệt về kỹ thuật của mô hình khuếch tán, Stable Diffusion còn độc đáo ở chỗ nó không sử dụng không gian pixel của hình ảnh. Thay vào đó, nó sử dụng một không gian ngầm giảm độ nét.

Lý do là hình ảnh màu với độ phân giải 512x512 có thể có 786.432 giá trị. Để so sánh, Stable Diffusion sử dụng hình ảnh nén nhỏ hơn 48 lần với 16.384 giá trị. Điều này làm giảm đáng kể yêu cầu xử lý. Và đó là lý do tại sao bạn có thể sử dụng Stable Diffusion trên máy tính để bàn có GPU NVIDIA với 8 GB RAM. Không gian ngầm nhỏ hơn làm việc hiệu quả vì hình ảnh tự nhiên không phải là ngẫu nhiên. Stable Diffusion sử dụng các tệp mã hóa tự động biến đổi (VAE) trong bộ giải mã để vẽ các chi tiết sắc nét như mắt.

Stable Diffusion V1 được đào tạo bằng cách sử dụng ba tập dữ liệu do LAION thu thập thông qua Common Crawl, bao gồm tập dữ liệu LAION-Aesthetics v2.6 với các hình ảnh có xếp hạng thẩm mỹ từ 6 trở lên.

Stable Diffusion sử dụng kiến trúc nào?

Các thành phần kiến trúc chính của Stable Diffusion bao gồm bộ mã hóa tự động biến đổi, khuếch tán thuận và đảo ngược, công cụ dự đoán nhiễu và biến đổi văn bản.

Bộ mã hóa tự động biến đổi

Bộ mã hóa tự động biến đổi bao gồm một bộ mã hóa và bộ giải mã riêng biệt. Bộ mã hóa nén hình ảnh 512x512 pixel thành mô hình 64x64 nhỏ hơn trong không gian ngầm dễ thao tác hơn. Bộ giải mã khôi phục mô hình từ không gian ngầm thành hình ảnh 512x512 pixel kích thước thực.

Khuếch tán thuận

Khuếch tán thuận thêm dần nhiễu Gaussian vào hình ảnh cho đến khi chỉ còn lại nhiễu ngẫu nhiên. Không thể xác định hình ảnh ban đầu là gì từ hình ảnh nhiễu cuối cùng. Trong quá trình đào tạo, tất cả các hình ảnh đều đi qua quá trình này. Khuếch tán thuận không được sử dụng thêm trừ khi thực hiện chuyển đổi hình ảnh thành hình ảnh.

Khuếch tán đảo ngược

Quá trình này về cơ bản là một quá trình được tham số hóa hoàn tác lại nhiều lần quá trình khuếch tán thuận. Ví dụ: bạn có thể huấn luyện mô hình chỉ với hai hình ảnh, như một con mèo và một con chó. Nếu bạn làm vậy, quá trình đảo ngược sẽ lệch về phía con mèo hoặc con chó và không có hình ảnh nào ở giữa. Trong thực tế, đào tạo mô hình bao gồm hàng tỷ hình ảnh và sử dụng lời nhắc để tạo ra hình ảnh độc đáo.

Công cụ dự đoán nhiễu (U-Net)

Công cụ dự đoán nhiễu là chìa khóa để khử nhiễu hình ảnh. Stable Diffusion sử dụng mô hình U-Net để thực hiện điều này. Các mô hình U-Net là mạng nơ -ron chập chập ban đầu được phát triển để phân đoạn hình ảnh trong y sinh. Cụ thể, Stable Diffusion sử dụng mô hình Mạng nơ-ron dư (ResNet) được phát triển cho thị giác máy tính.

Công cụ dự đoán nhiễu ước tính lượng nhiễu trong không gian ngầm và loại bỏ lượng nhiễu này khỏi hình ảnh. Công cụ này lặp lại quá trình này theo một số lần định sẵn, giảm nhiễu theo các bước do người dùng chỉ định. Công cụ dự đoán nhiễu nhạy cảm với các lời nhắc biến đổi giúp xác định hình ảnh cuối cùng.

Biến đổi văn bản

Hình thức biến đổi phổ biến nhất là lời nhắc văn bản. Tác nhân token hóa CLIP phân tích từng từ trong lời nhắc văn bản và nhúng dữ liệu này vào vectơ 768 giá trị. Bạn có thể sử dụng tối đa 75 token trong một lời nhắc. Stable Diffusion đưa các lời nhắc này từ bộ mã hóa văn bản đến công cụ dự đoán nhiễu U-Net bằng cách sử dụng bộ biến đổi văn bản. Bằng cách đặt hạt giống vào trình tạo số ngẫu nhiên, bạn có thể tạo ra các hình ảnh khác nhau trong không gian ngầm.

Stable Diffusion có thể làm gì?

Stable Diffusion đại diện cho bước cải tiến đáng chú ý trong việc tạo mô hình chuyển văn bản thành hình ảnh. Mô hình này được cung cấp rộng rãi và cần ít năng lực xử lý hơn đáng kể so với nhiều mô hình chuyển văn bản thành hình ảnh khác. Các tính năng của nó bao gồm chuyển văn bản thành hình ảnh, chuyển hình ảnh thành hình ảnh, tác phẩm nghệ thuật đồ họa, chỉnh sửa hình ảnh và tạo video.

Chuyển văn bản thành hình ảnh

Đây là cách sử dụng Stable Diffusion phổ biến nhất. Stable Diffusion tạo hình ảnh bằng cách sử dụng lời nhắc văn bản. Bạn có thể tạo các hình ảnh khác nhau bằng cách điều chỉnh số hạt giống cho trình tạo ngẫu nhiên hoặc thay đổi lịch biểu khử nhiễu để đạt được các hiệu ứng khác nhau.

Chuyển hình ảnh thành hình ảnh

Bạn có thể tạo hình ảnh dựa trên hình ảnh đầu vào bằng cách sử dụng lời nhắc hình ảnh và văn bản đầu vào. Trường hợp điển hình là sử dụng một bản phác thảo và một lời nhắc phù hợp.

Tạo đồ họa, tác phẩm nghệ thuật và logo

Bạn có thể tạo ra tác phẩm nghệ thuật, đồ họa và logo theo nhiều phong cách khác nhau bằng cách sử dụng một loạt các lời nhắc. Dù bạn có thể hướng dẫn tạo logo bằng cách sử dụng bản phác thảo nhưng bạn không thể xác định trước đầu ra.

Chỉnh sửa và cải thiện hình ảnh

Bạn có thể sử dụng Stable Diffusion để chỉnh sửa và cải thiện ảnh. Sử dụng Trình chỉnh sửa AI, tải hình ảnh và sử dụng cọ xóa để che vùng bạn muốn chỉnh sửa. Sau đó, chỉnh sửa hoặc tái tạo hình ảnh bằng cách tạo ra lời nhắc xác định mục tiêu bạn muốn đạt được. Ví dụ: bạn có thể sửa ảnh cũ, xóa các đối tượng khỏi ảnh, thay đổi các điểm đặc trưng của chủ đề và thêm các yếu tố mới vào ảnh.

Tạo video

Bạn có thể tạo các đoạn video ngắn và hoạt ảnh với Stable Diffusion bằng cách sử dụng các tính năng như Deforum của GitHub. Một ứng dụng khác là thêm các phong cách khác nhau vào một bộ phim. Bạn cũng có thể tạo chuyển động cho ảnh bằng cách tạo cảm giác chuyển động, ví dụ như dòng nước chảy.

AWS có thể trợ giúp như thế nào với Stable Diffusion?

Amazon Bedrock là cách dễ nhất để xây dựng và mở rộng các ứng dụng AI tổng hợp với các mô hình nền tảng. Amazon Bedrock là một dịch vụ được quản lý toàn phần có khả năng tạo ra mô hình nền tảng hàng đầu bao gồm Stable Diffusion thông qua API, vì vậy bạn có thể chọn từ nhiều FM khác nhau để tìm ra mô hình phù hợp nhất cho trường hợp sử dụng của mình. Với Bedrock, bạn có thể tăng tốc độ phát triển và triển khai các ứng dụng AI tạo sinh có quy mô linh hoạt, đáng tin cậy và an toàn mà không cần phải quản lý cơ sở hạ tầng.

Amazon SageMaker JumpStart, một trung tâm ML cung cấp các mô hình, thuật toán và giải pháp, cung cấp quyền truy cập vào hàng trăm mô hình nền tảng, bao gồm các mô hình nền tảng công khai có hiệu suất cao nhất như Stable Diffusion. Các mô hình nền tảng mới tiếp tục được thêm vào, bao gồm Stable Diffusion XL 1.0, phiên bản mới nhất của mô hình tạo hình ảnh.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm

Tăng tốc độ đổi mới với các dịch vụ AI tạo sinh của AWS

Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký

Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong Bảng điều khiển quản lý AWS.

Đăng nhập

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Đang tải

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Stable Diffusion là gì?