亚马逊AWS官方博客

通过 AWS Systems Manager OpsCenter 和 Systems Manager Automation 实现自动化的运维管理

随着企业对亚马逊云服务的深入使用,必将面临大规模云服务的运维效率问题。为此 AWS 提供了 Systems Manager 来帮助客户查看、管理和控制 AWS 服务上的基础设施,处理日常运维事件。Systems Manager 简化了企业运维人员对资源和应用程序的管理,缩短了检测和解决运营问题的时间,并使企业运维人员能够大规模安全地运营和管理云基础设施。

在 Amazon EKS 上使用 AWS Trainium 训练 Llama2

大语言模型和生成式人工智能的规模不断扩大,大大增加了计算需求,导致开发和部署成本不断上升。随着数据规模和模型复杂度的不断增加,训练模型所需的资源也越来越多。这种趋势凸显了类似 Amazon EKS 这类高性价比解决方案的重要性。Amazon EKS 提供了必需的可扩展性和计算能力,可在不产生高昂费用的情况下灵活管理模型训练的工作负载。