亚马逊AWS官方博客

AWS Team

Author: AWS Team

使用 AWS CDK 结合 OPA 实现“策略即代码”

在大型组织中,基础设施即代码的接纳度越来越高,不过由于缺乏经验、人为因素或自动化的配置错误均可引发影响业务运营的重大问题。本文译自亚马逊全球官方博客文章 ,展示了如何使用AWS CDK结合OPA(开放策略代理),构建合规策略驱动的基础设施,在部署或更改发生之前,自动进行合规策略检查以降低风险(即策略即代码),以此为云资源的管理提供防护和信心。

深度解析 TalkingData 使用 DJL 进行大规模深度学习打分应用

TalkingData发现了AWS基于Java开发的深度学习框架DJL(Deep Java Library)可以很好解决Spark在深度学习运算中的一些困境。在这个博客中,我们将带领大家了解TalkingData部署的模型,以及他们是如何利用DJL在Apache Spark上实现生产环境部署深度学习模型。这个解决方案最终将之前的生产架构简化,一切任务都可以在Apache Spark轻松运行,总时间也减少了66%。从长远角度上,这显著节省了维护成本。

利用 AWS SageMaker BlazingText 对不均衡文本进行多分类

本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法,能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片,借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间,因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。

通过 Amazon SageMaker R 内核访问数据源

在本文中,我们演示了如何在您的运行环境中接入各类数据源,包括Amazon EMR上的Hive与PrestoDB、Amazon Athena、Amazon Redshift以及MySQL兼容型Amazon Aurora集群等,并借此经由Amazon SageMaker实现分析、剖析并运行统计计算。您也可以通过JDBC将同一方法扩展到其他数据源。