亚马逊AWS官方博客

Tag: Amazon EMR

在 Amazon EMR 中使用 Apache Knox 实现边界安全

边界安全可帮助提升Apache Hadoop 集群的安全性,防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式,简化了客户端与集群的交互。例如,在与启用 Kerberos 的集群上的服务进行交互之前,客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中,我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。

Read More

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现

随着数据在当今世界中的作用不断发展演变,数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库,存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中,您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。

Read More

使用 Amazon EC2 Spot 实例和 Amazon EMR 运行 Apache Spark 应用程序的最佳实践

在本博客中,我们将重点讨论如何通过使用 Spot 实例在 Amazon EMR 上实现成本优化并高效运行 Spark 应用程序。我们提供了几个最佳实践建议,用于在使用Spot实例过程中提高Spark应用程序的容错能力。实施这些最佳实践不会对Spark应用程序的可用性,性能和执行时间产生大的影响。

Read More

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架(如 Apache Hadoop 和 Apache Spark)的强大功能,但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题,我们推出了 Amazon EMR 迁移指南(注:英文版首次出版于 2019 年 6 月,这是我们首次推出中文版)。 本文是一份全面的指南,旨在提供合理的技术建议,帮助客户规划如何从本地大数据部署迁移到 EMR。

Read More

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。

Read More

数据魔方 – 快速在 Amazon EMR 上部署 Apache Kylin 进行大数据分析

Amazon EMR是业界领先的原生云大数据平台,它极大地简化了在AWS上运行各种大数据框架进行大数据的处理和分析工作。通过使用这些框架和相关的开源项目(如Apache Spark、Apache Hive和Apache HBase等),并结合 Amazon EC2 的Auto Scaling动态弹性和 Amazon S3 的可扩展高可靠存储,您可以轻松、快速、经济高效地处理大规模海量数据。通过EMR ,您可以在数分钟内启动大数据集群,并且无需担心基础设施管理的任务,EMR会帮助完成这些工作,您只需要集中精力进行数据分析即可。

Read More

Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime

Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此runtime在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。

Read More

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成

本文将指导您完成整个流程,使用 AWS CloudFormation 建立跨领域信任,并将身份验证从 Active Directory 网络扩展到启用了 Kerberos 的 Amazon EMR 集群。建立跨领域信任后,Active Directory 用户可以使用自己的 Active Directory 凭证访问 Amazon EMR 集群,并以自己的身份运行作业。

Read More

使用 HBase on Amazon S3 设置只读副本集群

许多客户已经在享受使用HBase on Amazon S3的众多好处,包括更低的成本、更好的数据持久性和更便捷的可扩展性。美国金融业监管局 (FINRA) 已通过迁移到 HBase on Amazon S3架构将成本降低了 60%,并通过将存储与计算解耦以及将 S3 用作存储层获得了众多运营优势。HBase on Amazon S3允许您启动集群并立即开始对 S3 中的数据进行查询,而不必执行冗长的快照还原过程。

Read More

从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧

从 Amazon EMR 5.2.0 开始,您可以选择基于 Amazon S3 上的 Apache HBase。在 S3 上运行 HBase 可为您额外带来多项优势,包括降低成本、数据持久性和更轻松地进行扩展。
HBase 提供了多个可用于迁移和备份 HBase 表的选项。迁移到 S3 上的 HBase 的步骤与适用于 Apache Hadoop 分布式文件系统 (HDFS) 上的 HBase 的步骤类似。但是,如果您知道一些细微差别和一些“技巧”,则迁移会更容易。
在本文中,我将介绍如何使用一些常用的 HBase 迁移选项开始使用 S3 上的 HBase。

Read More