亚马逊AWS官方博客

Stability AI 的最佳图像生成模型现已在 Amazon Bedrock 中推出



从今天开始,您可以在 Amazon Bedrock 中使用 Stability AI 的三种全新文本到图像模型:Stable Image Ultra、Stable Diffusion 3 Large 和 Stable Image Core。这些模型极大地提高了多主题提示、图像质量和排版方面的性能,可用于为营销、广告、媒体、娱乐、零售等领域的各种使用案例快速生成高质量的视觉效果。

这些模型擅长制作具有精美的照片级真实感的图像,拥有卓越的细节、色彩和光影效果,可以解决诸如渲染逼真的手部和脸部等常见难题。其先进的即时理解能力能够解读涉及空间推理、构图和风格的复杂指令。

Amazon Bedrock 中提供的三种全新 Stability AI 模型涵盖了不同的使用案例:

Stable Image Ultra:生成最高质量、照片级真实感的输出,非常适合专业印刷媒体和大幅面应用。Stable Image Ultra 擅长呈现出色的细节和真实感。

Stable Diffusion 3 Large:在生成速度和输出质量之间取得平衡,是制作网站、时事通讯和营销材料等大批量、高质量数字资产的理想之选。

Stable Image Core:针对快速且经济实惠的图像生成进行了优化,非常适合在构思期间快速迭代概念。

下表总结了这些模型的主要功能:

功能 Stable Image Ultra Stable Diffusion 3 Large Stable Image Core
参数 160 亿 80 亿 26 亿
输入 文本 文本或图像 文本
排版 专为大屏显示
量身定制
专为大屏显示
量身定制
不同尺寸和应用的
多功能性和可读性
视觉
美学
照片级真实感的
图像输出
高度逼真,
更注重细节
渲染效果不错;
但不太注重细节

与 Stable Diffusion XL(SDXL)相比,Stable Image Ultra 和 Stable Diffusion 3 Large 的主要改进之一是生成的图像中的文本质量,由于其创新的 Diffusion Transformer 架构,拼写和排版错误更少。该架构为图像和文本实现了两组独立的权重,但允许两种模式之间的信息流动。

以下是使用这些模型创建的一些图像。

Stable Image Ultra:提示词:照片,逼真,一名女子坐在田野里观看天空中飞翔的风筝,天空乌云密布,高度细致,概念艺术,复杂,专业构图。

Stable Diffusion 3 Ultra:提示词:照片,逼真,一名女子坐在田野里观看天空中飞翔的风筝,天空乌云密布,高度细致,概念艺术,复杂,专业构图。

Stable Diffusion 3 Large:提示词:漫画风格的插图,男侦探站在路灯下,黑色风格的城市,身穿风衣,头戴礼帽,天色昏暗并下着雨,霓虹灯招牌,湿漉漉的路面上反射出的倒影,细致而有氛围感的光影效果。

Stable Diffusion 3 Large:提示词:漫画风格的插图,男侦探站在路灯下,黑色风格的城市,身穿风衣,头戴礼帽,天色昏暗并下着雨,霓虹灯招牌,湿漉漉的路面上反射出的倒影,细致而有氛围感的光影效果。

Stable Image Core:提示词:专业的 3D 效果图,一双白色和橙色相间的运动鞋,漂浮在中间,悬浮,漂浮,高质量,照片级真实感。

Stable Image Core:提示词:专业的 3D 效果图,一双白色和橙色相间的运动鞋,漂浮在中间,悬浮,漂浮,高质量,照片级真实感

Amazon Bedrock 中全新 Stability AI 模型的使用案例
文本到图像模型为各行各业的企业提供了变革潜力,可以大幅简化市场营销和广告部门的创意工作流程,为营销活动、社交媒体内容和产品模型快速生成高质量的视觉效果。通过加快创作过程,公司可以更快地应对市场趋势,缩短新项目的上市时间。此外,这些模型可以增强头脑风暴会议,提供概念的即时视觉呈现,从而激发进一步的创新。

对于电子商务企业而言,AI 生成的图像可以帮助大规模创建多样化的产品展示和个性化的营销材料。在用户体验和界面设计领域,这些工具可以快速生成线框和原型,从而加快设计迭代过程。采用文本到图像模型可以显著节省成本,提高生产力,并在各种企业职能的视觉沟通中占据竞争优势。

以下是不同行业的一些示例使用案例:

广告和营销

  • Stable Image Ultra 适用于奢侈品广告和照片级真实感的产品展示
  • Stable Diffusion 3 Large 适用于高质量的产品营销图像和印刷营销活动
  • 使用 Stable Image Core 可对社交媒体广告的视觉概念进行快速 A/B 测试

电子商务

  • Stable Image Ultra 适用于高端产品定制和按订单制作的商品
  • Stable Diffusion 3 Large 适用于电子商务网站上的大多数产品视觉效果
  • Stable Image Core 可快速生成产品图像并使商品列表保持最新状态

媒体和娱乐

  • Stable Image Ultra 适用于超逼真的重要插图、营销材料和游戏视觉效果
  • Stable Diffusion 3 Large 适用于环境纹理、角色艺术和游戏内资产
  • Stable Image Core 适用于快速原型设计和概念艺术探索

现在,让我们看看这些新模型的实际应用,首先使用 AWS 管理控制台,然后使用 AWS 命令行界面(AWS CLI)AWS SDK

在 Amazon Bedrock 控制台中使用全新 Stability AI 模型
Amazon Bedrock 控制台中,我从导航窗格中选择模型访问权限,以启用对 Stability AI 部分中三种新模型的访问权限。

现在,我已经获得访问权限,我将在导航窗格的操场部分选择图像。对于模型,我选择 Stability AIStable Image Ultra

在提示符下,我将输入:

一张风格化的图片,展示了一个可爱的老式蒸汽朋克机器人,手里拿着一块用粉笔写的牌子,上面写着“Stable Image Ultra in Amazon Bedrock”。

我将所有其他选项保留为默认值,然后选择运行。几秒钟后,我得到了想要的东西。以下是该图片:

一张风格化的图片,展示了一个可爱的老式蒸汽朋克机器人,手里拿着一块用粉笔写的牌子,上面写着“Stable Image Ultra in Amazon Bedrock”。

通过 AWS CLI 使用 Stable Image Ultra
当我还在控制台图像操场中时,我会选择操场窗口角落的三个小圆点,然后选择查看 API 请求。通过这种方式,我可以看到与我刚刚在控制台中执行的操作等效的 AWS 命令行界面(AWS CLI)命令:

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"一张风格化的图片,展示了一个可爱的老式蒸汽朋克机器人,手里拿着一块用粉笔写的牌子,上面写着 \\\"Stable Image Ultra in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
invoke-model-output.txt

要使用 Stable Image Core 或 Stable Diffusion 3 Large,我可以替换模型 ID

前面的命令以 Base64 格式向文本文件中的 JSON 对象输出图像。

为了通过单个命令获取图像,我将输出 JSON 文件写入标准输出,然后使用 jq 工具提取编码的图像,以便即时解码。输出写入 img.png 文件中。以下是完整的命令:

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"一张风格化的图片,展示了一个可爱的老式蒸汽朋克机器人,手里拿着一块用粉笔写的牌子,上面写着 \\\"Stable Image Ultra in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
/dev/stdout | jq -r '.images[0]' | base64 --decode > img.png

通过 AWS SDK 使用 Stable Image Ultra
下面介绍如何将 Stable Image Ultra 与适用于 Python 的 Amazon SDK(Boto3)结合使用。这个简单的应用程序以交互方式请求输入文本到图像提示词,然后调用 Amazon Bedrock 生成图像。

import base64
import boto3
import json
import os

MODEL_ID = "stability.stable-image-ultra-v1:0"

bedrock_runtime = boto3.client("bedrock-runtime", region_name="us-west-2")

print("输入文本到图像模型的提示词:")
prompt = input()

body = {
    "prompt": prompt,
    "mode": "text-to-image"
}
response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps(body))

model_response = json.loads(response["body"].read())

base64_image_data = model_response["images"][0]

i, output_dir = 1, "output"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
while os.path.exists(os.path.join(output_dir, f"img_{i}.png")):
    i += 1

image_data = base64.b64decode(base64_image_data)

image_path = os.path.join(output_dir, f"img_{i}.png")
with open(image_path, "wb") as file:
    file.write(image_data)

print(f"生成的图像已保存到 {image_path}")

应用程序会将生成的图像写入 output 目录,如果不存在则会创建该目录。为了避免覆盖现有文件,代码会检查现有文件,找到以 img_<number>.png 格式提供的第一个文件名。

AWS 文档代码库中提供了有关如何使用 Stable Diffusion 模型的更多示例。

客户心声
向 Stability AI 全球联盟总监 Ken Hoge 了解 Stable Diffusion 模型如何让行业重新洗牌,实现从文本到图像再到视频、音频和 3D 的进化,以及 Amazon Bedrock 如何通过一体化、安全和可扩展的解决方案为客户赋能。

与 Stride Learning 产品负责人 Nicolette Han 一起走进一个生动的阅读世界。在 Amazon Bedrock 和 AWS 的支持下,Stride Learning 的 Legend Library 正在利用 AI 创作精美安全的童话插图,从而改变青少年接触和理解文学作品的方式。

注意事项
全新的 Stability AI 模型(Stable Image UltraStable Diffusion 3 LargeStable Image Core)现已在美国西部(俄勒冈州)AWS 区域Amazon Bedrock 中推出。通过此次发布,Amazon Bedrock 提供了一套更广泛的解决方案,以提高您的创造力并加快内容生成工作流程。请参阅 Amazon Bedrock 定价页面,了解您的使用案例的成本。

你可以在详细介绍底层技术的研究论文中找到有关 Stable Diffusion 3 的更多信息。

首先,请参阅《Amazon Bedrock User Guide》中的 Stability AI 模型部分。要了解其他人如何在其解决方案中使用生成式人工智能,并通过学习深入了解技术内容,请访问 community.aws

Danilo


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。