亚马逊AWS官方博客

全新 Amazon Bedrock 服务层级助您兼顾 AI 工作负载的性能和成本



今天,Amazon Bedrock 推出了全新的服务层级,让您能够在满足应用程序所需性能的同时,更好地控制 AI 工作负载的成本。

我长期与构建 AI 应用程序的客户合作,亲眼目睹了不同的工作负载对性能和成本的权衡取舍。许多运行 AI 工作负载的组织都面临着如何在性能需求和成本优化之间取得平衡的挑战。有些应用程序需要快速响应以支持实时交互,而另一些应用程序则可以逐步处理数据。考虑到这些挑战,我们今天宣布推出更多定价选项,让您在满足工作负载需求和优化成本方面拥有更大的灵活性。

Amazon Bedrock 现在提供三种工作负载服务层级:优先层级、标准层级和灵活层级。每个层级都旨在满足特定的工作负载需求。应用程序的响应时间要求因使用案例而异。有些应用程序(如金融交易系统)需要最快的响应速度,另一些则需要快速响应来支持内容生成等业务流程,而内容摘要等应用程序则可以逐步处理数据。

优先层级会比其他层级更先处理您的请求,为关键任务型应用程序(例如面向客户的聊天助手和实时语言翻译服务)提供优先计算资源分配,尽管其价格较高。标准层级以稳定的速率为日常 AI 任务提供一致的性能,非常适合内容生成、文本分析和常规文档处理。对于可以承受更高延迟的工作负载,灵活层级能以更低的价格提供更具成本效益的选择,非常适合模型评测、内容摘要、多步骤分析和代理式工作流程。

现在,您可以将每个工作负载与最合适的层匹配,从而优化您的支出。例如,如果您运行的客户服务聊天助手需要快速响应,则可以使用优先层级以获得最快的处理速度。对于可以容忍较长处理时间的内容摘要任务,您可以使用灵活层级来降低成本,同时保持可靠的性能。对于大多数支持优先层级的模型,客户的每秒输出令牌(OTPS)延迟较标准层级可降低高达 25%。

查看 Amazon Bedrock 文档,获取每个服务层级支持的模型的最新列表

为您的工作负载选择合适的层级

以下思路可帮助您为工作负载选择合适的层级。

类别 推荐的服务层级 描述
任务关键型 优先 比其他层级更先处理请求。为面向用户的应用程序(如客户服务聊天助手、实时语言翻译、交互式 AI 助手)提供低延迟响应
业务标准型 标准 为重要工作负载(例如,内容生成、文本分析、常规文档处理)提供响应迅速的性能
业务非关键型 灵活 为不太紧急的工作负载(例如,模型评测、内容摘要、多步骤代理工作流)提供经济高效的解决方案

首先,与应用程序所有者一起审查您当前的使用模式。接下来,确定哪些工作负载需要立即响应,哪些工作负载可以逐步处理数据。然后,您可以将一小部分流量路由到不同的层级,以测试性能和成本效益。

AWS 定价计算器可帮助您估算不同服务层级的成本,只需输入每个层级的预期工作负载即可。您可以根据具体的使用模式估算预算。

要监控您的使用情况和成本,您可以使用 AWS 服务配额控制台,或在 Amazon Bedrock 中启用模型调用日志记录,并使用 Amazon CloudWatch 查看指标。这些工具让您可以了解令牌的使用情况,并帮助您跟踪不同层级的性能。

Amazon Bedrock 调用可观测性

您可以立即开始使用新的服务等级。您可以为每次 API 调用选择层级。以下示例使用 ChatCompletions OpenAI API,但您也可以在 InvokeModelInvokeModelWithResponseStreamConverseConverseStream API 的请求体中传递相同的 service_tier 参数(适用于支持的模型):

from openai import OpenAI

client = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1",
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Replace with actual API key
)

completion = client.chat.completions.create(
    model= "openai.gpt-oss-20b-1:0",
    messages=[
        {
            "role": "developer",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "Hello!"
        }
    ]
    service_tier= "priority"  # options: "priority | default | flex"
)

print(completion.choices[0].message)

要了解更多信息,请查看 Amazon Bedrock 用户指南,或联系你的 AWS 账户团队获取详细的规划帮助。

我期待了解您如何利用这些新的定价选项来优化您的 AI 工作负载。欢迎在社交网络上与我分享您的经验,或者在 AWS 活动中与我交流。

— seb

AWS 架构师中心: 云端创新的引领者

探索 AWS 架构师中心,获取经实战验证的最佳实践与架构指南,助您高效构建安全、可靠的云上应用