Amazon Bedrock 推出优先和灵活推理服务套餐
今天,Amazon Bedrock 推出了两种新的推理服务套餐,以优化不同 AI 工作负载的成本和性能。新的灵活套餐针对非时间敏感型应用程序(如模型评测和内容摘要)提供经济实惠的定价,而优先套餐则为任务关键型应用程序提供出色的性能和优先处理服务。对于大多数提供优先套餐的模型,与标准套餐相比,客户每秒输出Token(OTPS)的延迟最多可缩短 25%。这两种套餐加入了现有的标准套餐,为日常 AI 应用程序提供可靠的性能。
这些服务套餐解决了组织在大规模部署 AI 时面临的关键挑战。灵活套餐专为可承受更长延迟的非交互式工作负载而设计,是模型评测、内容摘要、标注和注释以及多步骤代理工作流的理想之选,而且与标准套餐相比,其价格提供折扣。在高需求期间,灵活套餐的请求处理优先级低于标准套餐。优先套餐非常适合任务关键型应用程序、实时终端用户互动和需要稳定快速响应的互动体验。在高需求期间,优先套餐的请求处理优先级高于其他服务套餐,同时价格更高。这些新的服务套餐现在适用于一系列领先的基础模型,包括 OpenAI(gpt-oss-20b、gpt-oss-120b)、DeepSeek(DeepSeek V3.1)、Qwen3(Coder-480B-A35B-Instruct、Coder-30B-A3B-Instruct、32B dense、Qwen3-235B-A22B-2507)以及 Amazon Nova(Nova Pro 和 Nova Premier)。借助这些新选项,Amazon Bedrock 可帮助客户更好地控制成本效率与性能要求之间的平衡,使他们能够经济地扩展 AI 工作负载,同时确保最关键的应用程序提供最佳的用户体验。
有关提供 Amazon Bedrock 优先和灵活推理服务套餐的 AWS 区域的更多信息,请参阅 AWS 区域表。