亚马逊AWS官方博客

Tag: Amazon SageMaker

在 AWS 上构建云原生机器学习流水线

近两年,机器学习已经渗透到各行各业,各种人工智能和机器学习的应用蓬勃发展,在其背后实际上会有一个完善的机器学习平台和流水线来支撑模型的开发、测试和迭代。但是这样一个系统性的平台,往往需要通过整合基础架构层和平台层来完成。在本篇Blog中,我们将展现如果通过AWS的服务构建云原生的机器学习流水线。

Read More

在Amazon SageMaker中正确设计资源规划、避免非必要成本

本文向大家介绍了Amazon SageMaker的计费标准,根据机器学习项目内各个阶段正确调整Amazon SageMaker计算资源大小的最佳实践,以及如何通过自动停止闲置的按需notebook实例以避免产生非必要运营成本的具体方法。最后,我们还分享了如何自动检测Amazon SageMaker端点以保证不致发生误删情况。

Read More

利用 AWS SageMaker BlazingText 对不均衡文本进行多分类

本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。

Read More

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法,能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片,借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间,因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。

Read More

使用 Amazon SageMaker 在生产环境中对机器学习模型 A/B 测试

Amazon SageMaker可帮助用户在端点之上运行多个生产变体,从而轻松对生产环境中的ML模型进行A/B测试。大家可以使用SageMaker提供的功能配合不同训练数据集、超参数、算法以及ML框架测试由此训练出的模型,了解它们在不同实例类型上的执行性能,并将各项因素整合起来形成不同搭配。我们还可以在端点上的各变体之间进行流量分配,Amazon SageMaker会根据指定的分发方式将推理流量拆分并分发至各个变体。

Read More

SNCF Réseau 和 Olexya 如何将 Caffe2 计算机视觉流水线任务迁移至 Amazon SageMaker 中的 Managed Spot Training

Amazon SageMaker支持从数据注释、到生产部署、再到运营监控的整个ML开发周期。正如Olexya与SNCF Réseau的工作所示,Amazon SageMaker具有良好的框架中立性,能够容纳各类深度学习工作负载及框架。除了预先为Sklearn、TensorFlow、PyTorch、MXNet、XGBoost以及Chainer创建配套Docker镜像与SDK对象以外,您也可以使用自定义Docker容器,几乎任何框架,如PeddlePaddle、Catboost、R以及Caffe2。

Read More