SageMaker JumpStart 現在為基礎模型提供最佳化的部署
SageMaker JumpStart 現在提供最佳化的部署,使客戶能夠使用根據特定使用案例和效能限制量身打造的預先配置的設定來部署基礎模型。SageMaker JumpStart 最佳化部署透過提供任務感知的組態,可根據您的工作負載需求來最佳化成本、輸送量或延遲 (無論是內容產生、摘要或問答),從而簡化模型部署作業。此次發佈的版本包括對 Meta、Microsoft、Mistral AI、Qwen、Google 和 TII 的 30 多種常用模型的支援,並可讓您掌握關鍵效能指標,例如 P50 延遲、首個字符產生時間 (TTFT) 和部署前的輸送量。
有了 SageMaker JumpStart 最佳化部署,客戶可以從使用案例特定的組態中進行選擇 (例如生成式寫作或聊天式互動),並選擇最佳化目標,包括成本最佳化、輸送量最佳化、延遲最佳化或平衡效能。模型會部署至 SageMaker AI 受管推論端點或 SageMaker HyperPod 叢集,並採用預先設定的組態,可在保持部署詳細資料完整可見性的同時消除需要進行猜測的情形。可用的模型包含 Meta Lama 3.1 和 3.2 變體、Microsoft Phi-3、Mistral AI 模型 (包括新的 Mistral-Small-24B-Instruct-2501)、Qwen 2 和 3 系列 (包括多模態 Qwen2-VL)、Google Gemma 和 TII Falcon3。所有部署都會利用 SageMaker 的 VPC 部署功能,確保資料控制和生產就緒基礎架構,並具有企業級安全性。此功能適用於目前支援 SageMaker JumpStart 的所有 AWS 區域。
若要著手使用最佳化的部署,請瀏覽至 SageMaker Studio 中的「模型」、在「JumpStart 模型」索引標籤中選取所需的基礎模型、選擇「部署」,然後選取您的使用案例和效能最佳化目標。如需詳細資訊,請瀏覽 SageMaker JumpStart 文件。AWS 正積極擴展支援,以包含其他模型。