亚马逊AWS官方博客

Category: Tensorflow on AWS

新功能 – Amazon SageMaker 中的托管数据并行简化了大型数据集上的训练

随着数据集和模型的规模越来越大、越来越复杂,从事大型分布式训练作业的机器学习 (ML) 从业人员不得不面临越来越长的训练时间,即使在使用 Amazon Elastic Compute Cloud (EC2) p3 和 p4 实例等强大的实例时也是如此。举例来说,使用配备 8 个 NVIDIA V100 GPU 的 ml.p3dn.24xlarge 实例时,需要 6 个多小时在公开可用的 COCO 数据集上训练高级对象检测模型,例如 Mask RCNN 和 Faster RCNN。同样地,在相同实例上训练最新自然语言处理模型 BERT 需要 100 多个小时。我们的一些客户,例如自动驾驶汽车公司,经常要在大型 GPU 集群上处理运行数天的更大型训练作业。
可以想象,这些长时间的训练是机器学习项目的严重瓶颈,影响了生产效率并减缓了创新。客户向我们寻求帮助,而后我们就行动了。

Read More

Amazon SageMaker 继续引领 Machine Learning,并宣布使用 GPU 实例可将价格最高降低 18%

自 2006 年以来,Amazon Web Services (AWS) 一直在帮助数百万客户构建和管理他们的 IT 工作负载。从初创公司到大型企业,再到公共部门,各种规模的组织都在使用我们的云计算服务,它们实现了前所未有的安全性、弹性和可扩展性水平。每天,他们都能够以比以往更少的时间和更低的成本进行试验、创新和生产部署。因此,他们可以探索、抓住商业机会,并将其转化为工业级产品和服务。

Read More