Amazon SageMaker HyperPod 功能
在数千个人工智能加速器上扩展和加速生成式人工智能模型的开发
任务治理
灵活的训练计划
用于自定义模型的优化方案
SageMaker HyperPod 方案可帮助各种技能水平的数据科学家和开发人员从最先进的性能中获益,同时可以快速开始训练和微调公开可用的生成式人工智能模型,包括 Llama、Mixtral、Mistral 和 DeepSeek 模型。此外,您还可以利用一系列技术对 Amazon Nova 基础模型(FM)(包括 Nova Micro、Nova Lite 和 Nova Pro)进行自定义,这些技术包括监督式微调(SFT)、知识蒸馏、直接偏好优化(DPO)、近端策略优化以及持续预训练,并支持在 SFT、蒸馏和 DPO 过程中选择参数高效或完整模型训练方式。每个配方都包含一个已经过 AWS 测试的训练堆栈,从而避免了花费数周时间来测试不同模型配置的繁琐工作。您可以通过更改单行配方在基于 GPU 和基于 AWS Trainium 的实例之间进行切换,启用自动模型检查点以提高训练灵活性,并在 SageMaker HyperPod 上运行生产工作负载。
高性能分布式训练
高级可观测性和实验工具
SageMaker HyperPod 的可观测性功能提供了预配置在 Amazon Managed Grafana 中的统一控制面板,其监测数据会自动发布到 Amazon Managed Prometheus 工作区中。您可以在一个视图中查看实时性能指标、资源使用情况和集群运行状况,从而使各个团队能够迅速发现瓶颈、避免代价高昂的延误,并优化计算资源。SageMaker HyperPod 还与 Amazon CloudWatch Container Insights 相集成,以便您更深入地了解集群的性能、运行状况和使用情况。SageMaker 中的托管式 TensorBoard 通过可视化模型架构来识别和修复整合问题,从而帮助您缩短开发时间。SageMaker 中的托管式 MLflow 可帮助您高效地大规模管理实验。

工作负载调度和编排
自动集群运行状况检查和修复
加速从 SageMaker Jumpstart 部署开源权重模型
SageMaker HyperPod 自动以经过简化的方式部署来自 SageMaker JumpStart 的开源权重基础模型以及来自 Amazon S3 和 Amazon FSx 的经过微调的模型。SageMaker HyperPod 可自动预置所需的基础设施并设置端点,从而省去了手动预置的步骤。借助 SageMaker HyperPod 任务治理功能,端点流量将得到持续监控,并能动态调整计算资源,同时还会将全面的性能指标发布到可观测性控制面板上,以便进行实时监控和优化。

找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。