Amazon Bedrock 推出 Priority 和 Flex 推論服務方案
Amazon Bedrock 今日推出兩項全新推論服務方案,可最佳化不同 AI 工作負載的成本和效能。新的 Flex 方案能夠為模型評估和內容摘要等對時間不敏感的應用程式提供具成本效益的定價,而 Priority 方案能夠為任務關鍵型應用程式提供頂級效能和優先處理。與標準方案相比,客戶能夠在支援 Priority 方案的大多數模型上降低高達 25% 的每秒輸出字符 (OTPS) 延遲。這些方案會與現有的標準方案形成互補,能夠適用於日常 AI 應用程式,並具備可靠的效能。
這些服務方案能夠解決組織在大規模部署 AI 時所面臨的關鍵挑戰。Flex 方案是針對可容忍較長延遲的非互動式工作負載設計而成,因此非常適合模型評估、內容摘要、標記作業和註釋以及多步驟代理式工作流程,而且價格低於標準方案。在需求較高的期間,Flex 請求的優先順序會低於標準方案。因為一致、快速的回應對任務關鍵型應用程式、即時終端使用者互動和互動體驗至關重要,所以 Priority 方案是這類應用的理想選擇。在需求較高的期間,Priority 請求會因其較高的價格,而獲得較其他服務方案更優先的處理。這些全新服務方案現已適用於一系列領先的基礎模型,包括 OpenAI (gpt-oss-20b、gpt-oss-120b)、DeepSeek (DeepSeek V3.1)、Qwen3 (Coder-480B-A35B-Instruct、Coder-30B-A3B-Instruct、32B dense、Qwen3-235B-A22B-2507) 以及 Amazon Nova (Nova Pro 和 Nova Premier)。Amazon Bedrock 能夠借助這些新選項,協助客戶更好地在成本效率與效能需求之間保持平衡,使客戶能夠在確保最關鍵應用程式具備最佳使用者體驗的同時,以具成本效益經濟的方式擴展 AI 工作負載。
如需提供 Amazon Bedrock Priority 和 Flex 推論服務方案之 AWS 區域的詳細資訊,請參閱 AWS 區域表