SageMaker JumpStart 现在为基础模型提供优化部署

发布于: 2026年4月17日

SageMaker JumpStart 现在提供优化部署,使客户能够使用针对特定使用案例和性能限制量身定制的预配置设置来部署基础模型。SageMaker JumpStart 优化部署通过提供任务感知配置来简化模型部署,这些配置可根据您的工作负载要求(无论是内容生成、汇总还是问答)来优化成本、吞吐量或延迟。此次发布包括对来自 Meta、Microsoft、Mistral AI、Qwen、Google 和 TII 的 30 多种热门模型的支持,并允许在部署前查看 P50 延迟、首次令牌签发时间(TTFT)和吞吐量等关键绩效指标。

借助 SageMaker JumpStart 优化部署,客户可以从特定使用案例配置(例如生成式写作或聊天式交互)中进行选择,并选择包括成本优化、吞吐量优化、延迟优化或平衡性能在内的优化目标。模型使用预设配置部署到 SageMaker AI 托管推理端点或 SageMaker HyperPod 集群,让客户无需猜测,同时保持对部署细节的全面了解。可用模型包括 Meta Llama 3.1 和 3.2 变体、Microsoft Phi-3、包括全新 Mistral-Small-24B-Instruct-2501 的 Mistral AI 模型、包括多模态 Qwen2-VL 的 Qwen 2 和 3 系列、Google Gemma 和 TII Falcon3。所有部署都利用 SageMaker 的 VPC 部署功能,确保数据控制和生产就绪基础设施具有企业级安全性。该功能适用于目前支持 SageMaker JumpStart 的所有 AWS 区域。

要开始使用优化部署,请导航到 SageMaker Studio 中的“模型”,在“JumpStart 模型”选项卡中选择所需的基础模型,选择“部署”,然后选择您的使用案例和性能优化目标。有关详细信息,请访问 SageMaker JumpStart 文档。AWS 正在积极扩大支持范围,以纳入更多模型。