Amazon SageMaker HyperPod 宣布新增可观测性功能

发布于: 2025年7月10日

借助 Amazon SageMaker HyperPod 新推出的可观测性功能,客户可以全面查看计算资源与模型开发任务,从而加速开发生成式人工智能模型。该功能省去了以下手动工作:从整个堆栈中收集数百项指标、可视化这些指标之间的关联,以及恢复生成式人工智能模型开发任务性能。 HyperPod 可观测性功能可实时追踪任务性能指标,在任何指标出现异常时提醒客户,并依据客户定义的策略自动修复根本问题。

SageMaker HyperPod 可观测性功能改变了客户监控与优化其生成式人工智能模型开发任务的方式。通过在 Amazon Managed Grafana 中预先配置的统一仪表板(监控数据会自动发布到 Amazon Managed Prometheus 工作区),客户现可在单一视图中查看生成式人工智能任务性能指标、资源利用率和集群运行状况。这使团队能够快速发现瓶颈,避免代价高昂的延迟,并优化计算资源。客户只需单击几下,即可设置自动提醒、针对应用场景创建任务指标,并将其发布至统一仪表板。通过将故障排除时间从数日缩短至数分钟,该功能可以帮助客户加快投入生产的进程,并最大化其人工智能投资回报率。

SageMaker HyperPod 可观测性功能已在所有支持 SageMaker HyperPod 的 AWS 区域推出,美国西部(北加利福尼亚)和亚太地区(墨尔本)除外。要了解更多信息并开始使用,请访问博客文档SageMaker HyperPod 网页