亚马逊AWS官方博客

Tag: Amazon EMR

如何使用 Apache Spark 与 Amazon EMR 改善 FRTB 的内部模型方法实现

随着金融机构积极拥抱FRTB,AWS提供的定性式解决方案将帮助更多组织满足愈发严苛的业务需求。凭借着AWS出色的弹性与速度表现,金融机构可以更快地响应新的、更复杂的法规要求。我们参考实例展示了金融机构如何实际使用AWS计算、存储以及其他服务资源。

Read More

Drop 如何使用 Amazon EMR for Spark 实现成本减半,并将处理速度提升5.4倍

Amazon EMR帮助Drop公司充分发挥数据资产的力量,据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率,借此获得了巨大的商业成功,这又反过来敦促我们持续探索管道改进的新方法。最终,我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步,才能不断将业务系统的运营效率提升至新的高点。

Read More

Intuit 公司使用 Amazon EMR、Amazon SageMaker 与 AWS Service Catalog 构建数据湖

本文介绍了我们用于构建Intuit数据湖的各项基本单元。我们的解决方案绝非妙手偶得,而是源自Intuit公司数十名工程师多年来积累下的共性最优方法,代表着我们运营经验的技术积注。这些实践使我们得以将PB级别的数据注入数据湖,并为数百个具有不同需求的处理账户提供服务支持。我们的生态系统仍在建设当中,希望我们的经历能够为大家的数据湖探索之旅带来启发。

Read More

在 Amazon EMR 中使用 Apache Knox 实现边界安全

边界安全可帮助提升Apache Hadoop 集群的安全性,防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式,简化了客户端与集群的交互。例如,在与启用 Kerberos 的集群上的服务进行交互之前,客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中,我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。

Read More

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现

随着数据在当今世界中的作用不断发展演变,数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库,存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中,您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。

Read More

使用 Amazon EC2 Spot 实例和 Amazon EMR 运行 Apache Spark 应用程序的最佳实践

在本博客中,我们将重点讨论如何通过使用 Spot 实例在 Amazon EMR 上实现成本优化并高效运行 Spark 应用程序。我们提供了几个最佳实践建议,用于在使用Spot实例过程中提高Spark应用程序的容错能力。实施这些最佳实践不会对Spark应用程序的可用性,性能和执行时间产生大的影响。

Read More

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架(如 Apache Hadoop 和 Apache Spark)的强大功能,但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题,我们推出了 Amazon EMR 迁移指南(注:英文版首次出版于 2019 年 6 月,这是我们首次推出中文版)。 本文是一份全面的指南,旨在提供合理的技术建议,帮助客户规划如何从本地大数据部署迁移到 EMR。

Read More

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。

Read More