什么是稳定扩散?

稳定扩散是一种生成式人工智能(生成式人工智能)模型,可根据文本和图像提示生成独特的逼真图像。该模型最初于 2022 年推出。除图像外,您还可以使用该模型创建视频和动画。该模型基于扩散技术,使用潜在空间。这大大降低了处理需求,并且您可以在配备 GPU 的台式机或笔记本电脑上运行该模型。通过迁移学习,只需五张图像,就可以对稳定扩散进行微调以满足您的特定需求。

只要有许可证,所有人都可以使用稳定扩散。这使稳定扩散与其前代产品区分开来。

阅读有关生成式人工智能的信息 »

为什么事件管理如此重要?

事件管理指导 IT 团队针对任何事件做出最合适的响应。事件管理会创建一个系统,因此 IT 团队可以获取所有相关详细信息以供进一步学习。可以将事件管理视为手册,用于快速恢复正常运营,同时最大限度地减少对内部和外部客户的干扰。

如果没有适当的系统,事件恢复不可避免地会导致重复的错误和资源的滥用,并对组织产生更严重的负面影响。接下来,我们将讨论如何从事件管理中受益。

减少事件发生率

通过在发生事件时仔细阅读手册,团队可以尽快解决事件。同时,随着时间的推移,事件管理还可以减少事件发生率。当您在 IM 流程的早期识别风险时,将来发生事故的几率就会降低。获取完整的事件取证有助于主动补救,并有助于防止以后再发生类似事件。

提高性能

在 IT 事件管理中使用有效而敏感的监控时,您可以识别并调查质量的较小幅度降低。还可以发现提高性能的新方法。随着时间的推移,IT 团队可以判断服务事件识别模式的质量,从而实现预测性补救和持续服务。

有效的协作

不同的团队通常必须协同工作进行事件恢复。可以通过概述事件响应框架内各方的沟通指南来显著改善协作。还可以更有效地管理利益相关者的情绪。

为什么 Stable Diffusion 如此重要?

Stable Diffusion 非常重要,因为它易于访问且可轻松使用。Stable Diffusion 可以在消费级显卡上运行。这是第一次任何人都可以下载模型并生成自己的图像。您还可以控制关键的超参数,例如降噪步骤的数量和施加的噪点程度。 

Stable Diffusion 便于用户使用,您无需其他信息即可创建图像。Stable Diffusion 有一个活跃的社区,因此存在大量的相关文档和操作教程。该软件版本受 Creative ML OpenRail-M 许可证的约束,该许可证允许您使用、更改和重新分发修改后的软件。如果您发布衍生软件,则必须使用相同的许可证发布该软件,并附上原始 Stable Diffusion 许可证的副本。

Stable Diffusion 如何运作?

作为扩散模型,Stable Diffusion 不同于许多其他图像生成模型。原则上,扩散模型使用高斯噪点对图像进行编码。然后,模型使用噪点预测器和反向扩散过程来重现图像。

除了具有不同的扩散模型技术之外,Stable Diffusion 的独特之处在于它不使用图像的像素空间。相反,它使用降低清晰度的潜在空间。  

其原因是,分辨率为 512x512 的彩色图像具有 786,432 个可能的值。相比之下,Stable Diffusion 使用的压缩图像要小 48 倍,其值为 16,384。这就大幅度降低了处理要求。因此,您可以在带有 8GB RAM 的 NVIDIA GPU 的台式机上使用 Stable Diffusion。较小的潜在空间之所以可发挥作用,是因为自然图像不是随机的。Stable Diffusion 使用解码器中的变分自动编码器(VAE)文件来绘制眼睛等精细细节。 

使用 LAION 通过 Common Crawl 收集的三个数据集训练 Stable Diffusion V1。这包括美学评分为 6 或更高的 LAION-Aesthetics v2.6 图像数据集。

Stable Diffusion 使用何种架构?

Stable Diffusion 的主要架构组件包括变分自动编码器、正向和反向扩散、噪点预测器和文本调整。

变分自动编码器

变分自动编码器由单独的编码器和解码器组成。编码器在更易于操作的潜在空间中将 512x512 像素的图像压缩成更小的 64x64 模型。解码器将模型从潜在空间恢复为全尺寸 512x512 像素的图像。

正向扩散

正向扩散逐渐向图像添加高斯噪点,直到剩下的全部是随机噪点。无法从最终充满噪点的图像中识别出原始图像。在训练期间,所有图像都要经过此过程。除非执行图像间的转换,否则不会进一步使用正向扩散。

反向扩散

此过程本质上是一个参数化过程,它以迭代方式撤消正向扩散。例如,可以仅使用两幅图像来训练模型,例如猫和狗的图片。如果采用此过程,反向过程就会偏向猫或狗,而非两者之间的任何动物。实际上,模型训练涉及数十亿幅图像,并使用提示来创建独特的图像。

噪点预测器(U-Net)

噪点预测器是图像降噪的关键所在。Stable Diffusion 使用 U-Net 模型来执行降噪。U-Net 模型是最初为生物医学中的图像分割而开发的卷积神经网络。特别是,Stable Diffusion 使用为计算机视觉开发的残差神经网络(ResNet)模型。

噪点预测器估计潜在空间中的噪点量,然后从图像中减去此噪点量。它重复此过程指定次数,从而根据用户指定的步骤减少噪点。噪点预测器对有助于确定最终图像的调整性提示很敏感。

文本调整

最常见的调整形式是文本提示。CLIP 分词器分析文本提示中的每个单词,并将这些数据嵌入 768 个值的向量中。最多可以在提示中使用 75 个令牌。Stable Diffusion 使用文本转换器将这些提示从文本编码器传送到 U-Net 噪点预测器。通过将种子设置为随机数生成器,可以在潜在空间中生成不同的图像。

Stable Diffusion 可执行哪些操作?

Stable Diffusion 代表文本转图像模型生成方面的显著改进。与许多其他文本转图像模型相比,Stable Diffusion 可以广泛使用,并且需要更低的处理能力。其功能包括文本转图像、图像转图像、图形插图、图像编辑和视频创作。

文本转图像生成

这是人们使用 Stable Diffusion 的最常见方式。Stable Diffusion 使用文本提示生成图像。可以通过调整随机生成器的种子数或更改不同效果的降噪时间表来创建不同的图像。

图像转图像生成

使用输入图像和文本提示,您可以根据输入图像创建新图像。典型的案例是使用草图和合适的提示。

创作图形、插图和徽标

使用一系列提示,可以创建各种风格的插图、图形和徽标。当然,尽管可以使用草图来指导徽标的创作,但不可能预先确定输出。

图像编辑和修版

可以使用 Stable Diffusion 来编辑和修版照片。使用 AI Editor 加载图像并使用橡皮擦画笔遮住要编辑的区域。然后,通过生成提示来定义想要实现的目标,编辑或重新绘制图片。例如,可以修复旧照片、移除图片中的对象、更改主体特征以及向图片添加新元素。

视频创作

使用 GitHub 中的 Deforum 等功能,可以借助 Stable Diffusion 创作短视频片段和动画。另一种应用是为电影添加不同的风格。  还可以通过营造运动印象(例如流水)来为照片制作动画。 

AWS 如何帮助实现 Stable Diffusion?

Amazon Bedrock 是使用根基模型构建和扩展生成式人工智能应用程序的最简单方法。Amazon Bedrock 是一项完全托管的服务,可通过 API 提供领先的根基模型(包括 Stable Diffusion),因此您可以从各种 FM 中进行选择,找到最适合您的应用场景的模型。 借助 Bedrock,您可以加快开发和部署可扩展、可靠和安全的生成式人工智能应用程序,而无需管理基础设施。

Amazon SageMaker JumpStart 是推出各种模型、算法和解决方案的机器学习中心,它提供数百种根基模型的访问权限,包括性能最佳的公开根基模型,例如 Stable Diffusion。新的根基模型正在持续出现,包括最新版本的图像生成模型 Stable Diffusion XL 1.0

AWS 上的后续步骤

查看其他与产品相关的资源
使用最全面的 AI 和 ML 服务集更快地创新 
注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录