亚马逊AWS官方博客
在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧
对于 Amazon EMR 客户来说,尽管在 Amazon S3 中直接处理数据早已稀松平常,但有时您可能需要将数据从 S3 复制到 Amazon EMR 集群上的 Hadoop 分布式文件系统 (HDFS) 中。此外,您的某个使用案例还可能需要在存储桶或区域之间迁移大量数据。在这类使用案例中,简单的复制操作对大型数据集来说显然不适用。Amazon EMR 可以提供这方面的帮助。它提供了一个实用程序 S3distCp,用以帮助将数据从 S3 迁移到其他 S3 位置或集群上的 HDFS。
迁移到 Amazon EMR上基于 Amazon S3 的 Apache Hbase:指导和最佳实践
这篇博文提供了有关如何从 Apache HBase on HDFS 迁移到在 Amazon EMR 上使用 基于Amazon S3的Apache Hbase的指导和最佳实践。
DMS 服务支持加密数据库迁移实例
AWS中国的北京和宁夏区域,支持使用KMS加密。本文通过实际操作的演示,描述了在KMS建立迁移专用秘钥,并描述在DMS的使用过程中,如果食用Key去加密复制实例的过程。
使用 AWS License Manager 跟踪您的 Microsoft SQL Server 许可证
AWS License Manager 可以管理基于 vCPU、物理内核、物理插槽或实例数量的任何软件许可证。在本博文中,我们将介绍使用 AWS License Manager 帮助管理 SQL Server 许可证的常见使用案例。
在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践
根据数据和处理需求适当配置 Spark 应用程序以使其成功非常重要。使用默认设置时,Spark 可能不会使用集群的所有可用资源,最终可能会出现物理和/或虚拟内存问题。
本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。
使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本
在这篇博文中,我们将提出一种解决方案来减少这方面的成本。我们实施了一个 bash 脚本,将其安装在 EMR 集群的主节点上,并将该脚本计划为每 5 分钟运行一次。该脚本可监控集群并每 5 分钟向 CloudWatch 发送一次自定义指标 EMR-INUSE(0=非活动;1=活动)。如果 CloudWatch 在一些预定义数据点收到 0(非活动),则将触发警报,然后执行终止集群的 AWS Lambda 函数。
使用 Athena 替换 Hbase 实现对历史数据的查询分析
Amazon Athena服务近期将在中国区发布。Amaozn Athena在大数据平台的交互式查询中应用非常广泛。之前由于中国区没有发布Amazon Athena服务,有些用户为了实现历史数据的查询,选择使用Apache HBase服务,这除了给用户造成管理和成本的负担之外,也对HBase集群的性能带来大幅的降低。本文通过一个示例介绍如何一步一步的从HBase中剥离历史数据实现使用Amazon Athena进行交互式查询的方案。
新增功能 – 使用 Step Functions 协调 Amazon EMR 工作负载
从今天开始,Step Functions 将连接到 Amazon EMR,使您能够以最少的代码创建数据处理和分析工作流,节省时间,并优化集群利用率。例如,为机器学习构建数据处理管道不仅耗时,而且棘手。借助这一全新集成功能,您可以轻松协调工作流功能,包括上一步结果中的并行执行和依赖关系,并在运行数据处理作业时处理故障和异常情况。
Service Broker 在 AWS 中国区的落地
OpenShift运行在AWS上,除了支持动态创建EBS卷、调用ELB等基础功能外,还可以通过Service Broker直接创建AWS原生服务,并提供给OpenShift中的容器化应用使用。
本文就针对OpenShift 3.11在AWS中国区如何使用Service Broker进行详细说明。
使用阻止公有访问配置保护您的 Amazon EMR 集群免受意外网络攻击
本文讨论了一种新的账户级功能,称为阻止公有访问 (Block Public Access ,BPA) 配置,可以帮助管理员在同一个区域中的所有 EMR 集群中强制执行一种通用的公共访问规则。