亚马逊AWS官方博客

Tag: Amazon SageMaker

在 Amazon SageMaker Ground Truth 中简化 YOLO 对象检测的数据标记流程

本文介绍了如何在Amazon Ground Truth中为对象检测模型创建高效的端到端数据收集管道。您可以在创建对象检测模型时亲自体验整个操作过程。您也可以修改后期处理注释,以Pascal VOC格式生成带有标签的数据,可用于Faster RCNN等模型。您还可以在适当修改之后,将这套基本框架应用于其他特定于不同作业需求的数据标记管道。例如,您可以重写注释后处理过程改造框架用于实例分割任务,即对各类对象进行像素级标记,而不是本文示例中在对象周边绘制矩形

Read More

新功能 — 使用 Amazon SageMaker 功能库,存储、发现和共享机器学习功能

今天,我非常高兴地宣布 Amazon SageMaker 功能库,一项 Amazon SageMaker 新功能,它可以使数据科学家和机器学习工程师轻松安全地存储、发现和共享培训和预测工作流程中使用的精选数据。
对于选择正确算法来培训机器学习 (ML) 模型的重要性,经验丰富的从业人员知道提供高质量数据有多么重要。清理数据是很好的第一步,机器学习工作流程通常包括填充缺失值、删除异常值等步骤。然后,他们经常使用被称为“特征工程”的常见技术和难懂的技术进行数据转换。

Read More

新功能 – Amazon SageMaker 中的托管数据并行简化了大型数据集上的训练

随着数据集和模型的规模越来越大、越来越复杂,从事大型分布式训练作业的机器学习 (ML) 从业人员不得不面临越来越长的训练时间,即使在使用 Amazon Elastic Compute Cloud (EC2) p3 和 p4 实例等强大的实例时也是如此。举例来说,使用配备 8 个 NVIDIA V100 GPU 的 ml.p3dn.24xlarge 实例时,需要 6 个多小时在公开可用的 COCO 数据集上训练高级对象检测模型,例如 Mask RCNN 和 Faster RCNN。同样地,在相同实例上训练最新自然语言处理模型 BERT 需要 100 多个小时。我们的一些客户,例如自动驾驶汽车公司,经常要在大型 GPU 集群上处理运行数天的更大型训练作业。
可以想象,这些长时间的训练是机器学习项目的严重瓶颈,影响了生产效率并减缓了创新。客户向我们寻求帮助,而后我们就行动了。

Read More