亚马逊AWS官方博客

“删库” 事件将引发快速构建低成本云安全灾备架构

删库”事件,不只一次发生,这次突发事件影响很大,影响的不只是6天144小时的服务暂停、10亿港币蒸发,约300万商户苦苦等待,还有SaaS信息系统重大突发事件处理经验和教训,以及企业对灾难备份重视。其实,类似事件时有发生是有原因的。按照海因里希安全法则,此类事件属于300∶29∶1法则中的1/330。这个1/330从信息系统的视角分析。这意味着:当一个企业的信息系统持续有300起安全隐患或违规问题,非常可能要发生29起轻度问题或故障事件,另外还有一起突发的重大信息系统事故。

Read More

AWS Glue 增量数据加载和优化的 Parquet 写入器

本文将介绍如何从 Amazon S3 数据湖以及JDBC连接数据库中的数据源增量加载数据,并且还会展示如何通过作业书签使 AWS Glue ETL 作业仅读取新添加的数据,以及如何通过在之前的作业运行结束时重置作业书签,让 AWS Glue ETL 作业处理晚到达的数据。本文还将回顾作业书签与复杂的AWS Glue ETL 脚本和工作负载配合使用的最佳实践。
最后,本文将介绍如何使用经过性能优化的自定义 AWS Glue Parquet 写入器,可以在运行时计算架构,避免额外的数据传输。AWS Glue Parquet 写入器还通过添加或删除列支持数据集的架构演变。

Read More

为什么使用 Docker 容器进行机器学习开发?

与其他人一样,我也喜欢在笔记本电脑上做原型开发。当我想与人协作时,我会将代码推送到 GitHub 并邀请协作者。当我想运行实验并需要更多的计算能力时,我会在云中租用 CPU 和 GPU 实例,将我的代码和依赖项复制到实例中,然后运行实验。如果您对这个过程很熟悉,那么您可能会奇怪:为什么一定要用 Docker 容器呢?在本文中,我会尝试说明为什么您应该考虑使用 Docker 容器进行机器学习开发。在本文的前半部分,我将讨论在使用复杂的开源机器学习软件时遇到的主要难题,以及采用容器将如何缓和这些问题。然后,我将介绍如何设置基于 Docker 容器的开发环境,并演示如何使用该环境来协作和扩展集群上的工作负载。

Read More

使用开源的 Crossplane 将 AWS 托管服务连接到 Argo CD 管道

云基础设施正在迅速成熟起来,使得企业能够利用新架构和服务以及运行在 Amazon Elastic Container Service (Amazon ECS) 上的应用程序。基础设施团队发现他们在使用 AWS CloudFormation 等工具管理传统云环境,同时还在管理 Amazon ECS 或 Kubernetes 等托管的容器本机系统。在本文中,我们将说明如何使用 Crossplane 和 Argo CD 来通过 Amazon Relational Database Service (Amazon RDS) 将一个简单的应用程序部署到两个 AWS 区域。

Read More

Verizon Media Group 如何将本地的 Apache Hadoop 和 Spark 迁移到 Amazon EMR

在 VMG,我们依赖诸如 Apache Hadoop 和 Apache Spark 之类的技术来运行我们的数据处理管道。我们之前使用 Cloudera Manager 管理我们的集群,但它的发布周期较慢。因此,我们运行较旧的可用开放源版本,但却无法从 Apache 项目的最新错误修复和性能改进中获得好处。基于上述原因,再加上我们对 AWS 的现有投资,使我们探索将我们的分布式计算管道迁移到 Amazon EMR。

Read More

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。

Read More

基于 ZFS 搭建 EDA 场景的共享存储系统架构与实践

本文针对大并发多任务 EDA 场景下对于存储的高性能、高吞吐需求,提供了结合 Amazon I3实例以及开源文件系统 ZFS 搭建一个可扩展的、安全的、低成本、高性能的共享文件系统的架构设计和操作实践。希望通过本文,可以为那些高性能、高吞吐存储需求的业务场景,不仅仅限于 EDA 领域,提供一个不同于云原生的一些存储服务的设计思路,从而在性能和成本上可以实现更多的选择。
本文的架构设计和实践部分假定你对 AWS 的计算和存储服务有一定的了解,能够基于控制台或者 CLI 命令行创建虚拟机、EBS 卷等常见操作,并且对 Linux 操作系统和开源 ZFS 文件系统常见命令有一定的了解。

Read More

使用原生 EBS 加密和存储桶级 S3 加密选项来保护 Amazon EMR 上的数据

数据加密是保护数据安全的有效方案之一。通过加密数据并管理对加密密钥的访问,您可以确保只有授权的用户或应用程序可以读取您的敏感收据。医疗卫生和金融等受监管行业的客户之所以选择 Amazon EMR,一个主要原因就是它提供了安全地存储和访问数据的合规环境。

Read More

利用 Amazon Redshift Spectrum 使用嵌套数据类型

Redshift Spectrum 是 Amazon Redshift 的一项功能,允许直接查询存储在 Amazon S3 上的数据,并支持嵌套数据类型。此文将讨论哪些用例可从嵌套数据类型中获益,如何将 Amazon Redshift Spectrum 与嵌套数据类型配合使用以实现出色的性能和存储效率,以及嵌套数据类型的一些局限性。

Read More