簡介在 Amazon Bedrock 中針對基礎模型的延遲最佳化推論

張貼日期: 2024年12月2日

Amazon Bedrock 中基礎模型的延遲最佳化推論現已提供公共預覽版,可為 AI 應用程式提供更快的回應時間並提高回應能力。而在目前,這些新的推論選項支援 Anthropic 的 Claude 3.5 Haiku 模型Meta 的 Llama 3.1 405B 和 70B 模型,與標準模型相比,可在不影響準確性的情況下減少延遲。經過 Anthropic 驗證,借助 Amazon Bedrock 中的延遲最佳化推論,Claude 3.5 Haiku 在 AWS 上的執行速度比其他任何地方都更快速 此外,借助 Bedrock 中的延遲最佳化推論,Llama 3.1 405B 和 70B 在 AWS 上的執行速度比任何其他主要雲端供應商都更快速。

隨著越來越多的客戶將其生成式人工智慧應用程式投入生產,最佳化使用者體驗變得至關重要,特別是對於即時客戶服務聊天機器人和互動式編碼助理等延遲敏感的應用程式。使用 AWS Trainium2 等專用 AI 晶片和 Amazon Bedrock 中的進階軟體最佳化,客戶可以存取更多選項來最佳化特定使用案例的推論。存取這些功能不需要額外的設定或模型微調,進而可以用更快的回應時間立即增強現有應用程式。

在美國東部 (俄亥俄) 區域,Anthropic 的 Claude 3.5 Haiku 和 Meta 的 Llama 3.1 405B 和 70B 可以透過跨區域推論進行延遲最佳化推論。若要開始使用,請造訪 Amazon Bedrock 主控台。如需 Amazon Bedrock 及其功能的詳細資訊,請造訪 Amazon Bedrock 產品頁面定價頁面文件