亚马逊AWS官方博客

Tag: Amazon Elastic Compute Cloud

新功能 – Amazon SageMaker 中的托管数据并行简化了大型数据集上的训练

随着数据集和模型的规模越来越大、越来越复杂,从事大型分布式训练作业的机器学习 (ML) 从业人员不得不面临越来越长的训练时间,即使在使用 Amazon Elastic Compute Cloud (EC2) p3 和 p4 实例等强大的实例时也是如此。举例来说,使用配备 8 个 NVIDIA V100 GPU 的 ml.p3dn.24xlarge 实例时,需要 6 个多小时在公开可用的 COCO 数据集上训练高级对象检测模型,例如 Mask RCNN 和 Faster RCNN。同样地,在相同实例上训练最新自然语言处理模型 BERT 需要 100 多个小时。我们的一些客户,例如自动驾驶汽车公司,经常要在大型 GPU 集群上处理运行数天的更大型训练作业。
可以想象,这些长时间的训练是机器学习项目的严重瓶颈,影响了生产效率并减缓了创新。客户向我们寻求帮助,而后我们就行动了。

Read More

SOCA 帮助半导体企业快速启动 EDA 云上部署

使用电子设计自动化 (EDA) 应用程序的半导体和电子产品公司可以通过利用 AWS 上近乎无限的计算、存储和其他可用资源,大大加快其产品开发生命周期和上市时间。在这篇工作负载支持的博客文章中,我将提供架构(Scale-Out Computing on AWS)和系统级指导,以构建能够将 EDA 应用程序扩展到 30000 个或以上核心的环境。

Read More