亚马逊AWS官方博客

利用 AWS SageMaker BlazingText 对不均衡文本进行多分类

本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法,能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片,借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间,因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。

新增功能 — 使用 AWS PrivateLink 通过 AWS 专用网络访问 AWS Lambda

AWS Lambda 是一种让您在运行代码时无需预置或管理服务器的无服务器计算服务。您只需上传代码,Lambda 就会完成执行及扩展代码的所有工作来实现高可用性。如今,许多 AWS 客户使用此无服务器计算平台来显著提高其在开发和运行应用程序时的工作效率。

Amazon S3 更新 – 新推出三项安全和访问控制功能

在我们推出 Amazon S3 后一年左右,我参加了一次技术会议,在乘坐电梯时听到几位开发人员谈论,他们解决数据存储挑战的办法是“将其扔到 S3 中”。那一刻我记得非常清楚,因为听到这些意见非常偶然,而且这也是我最早被 S3 的快速普及完全震撼到的时刻之一。

使用 Amazon Timestream 存储和访问任何规模的时间序列数据 — 现已全面开放

时间序列是一种十分常见的数据格式,用于描述事物如何随时间的变化。最常见的时间序列数据来源包括工业机器和物联网设备、IT 基础设施堆栈(如硬件、软件和网络组件)以及共享其随时间变化的结果的应用程序。由于其数据模型不适合于通用数据库,要高效地管理时间序列数据绝非易事。

现已推出 Outposts 上的 Amazon S3

AWS Outposts 客户现在可以使用 Amazon Simple Storage Service (S3) API 来存储和检索数据,如同在常规 AWS 区域中访问或使用数据。这表示,许多已直接或通过 SDK 间接使用 S3 API 的工具、应用程序、脚本或实用程序,现在都可以配置为在 Outposts 本地存储这些数据。