Amazon EMR | 亚马逊AWS官方博客

在 Amazon EMR 上监控 Spark Streaming 应用程序

如何监控和调优Spark Streaming实时应用程序是一项非常挑战的工作，您需要随时应对环境中发生的种种变化。另外，还需要监控源数据流和作业的输出，从而可以了解全面的情况。Spark是一套非常灵活并且丰富的框架，它能够提供多种方式来对任务进行监控。本文主要探讨了其中一种有效的方法，使用SparkListeners并将提取到的指标与CloudWatch指标相集成，从而实现监控Spark Streaming微批处理程序的性能。

使用应用程序负载均衡器在私有子网内安全访问 Amazon EMR Web 接口

现在，大家可以将应用程序负载均衡器（ALB）作为HTTPS代理使用，通过互联网访问EMR Web接口。通过这种方式，避免了使用堡垒机创建SSH隧道。这种方法极大简化了对EMR Web接口的访问。

在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优

本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具，以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率，借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制，这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。

如何使用 Apache Spark 与 Amazon EMR 改善 FRTB 的内部模型方法实现

随着金融机构积极拥抱FRTB，AWS提供的定性式解决方案将帮助更多组织满足愈发严苛的业务需求。凭借着AWS出色的弹性与速度表现，金融机构可以更快地响应新的、更复杂的法规要求。我们参考实例展示了金融机构如何实际使用AWS计算、存储以及其他服务资源。

Drop 如何使用 Amazon EMR for Spark 实现成本减半，并将处理速度提升5.4倍

Amazon EMR帮助Drop公司充分发挥数据资产的力量，据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率，借此获得了巨大的商业成功，这又反过来敦促我们持续探索管道改进的新方法。最终，我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步，才能不断将业务系统的运营效率提升至新的高点。

在EMR 6.0.0 中使用 Docker 简化您的 Spark 依赖项管理

本文向大家讲解了如何使用Amazon EMR 6.0.0与Docker简化Spark中的依赖项管理流程。我们创建一套Docker镜像以打包现有Python依赖项，创建一个集群并将其设定为使用Docker运行时，而后将创建的Docker镜像与EMR Notebook配合使用以运行PySpark作业。

Intuit 公司使用 Amazon EMR、Amazon SageMaker 与 AWS Service Catalog 构建数据湖

本文介绍了我们用于构建Intuit数据湖的各项基本单元。我们的解决方案绝非妙手偶得，而是源自Intuit公司数十名工程师多年来积累下的共性最优方法，代表着我们运营经验的技术积注。这些实践使我们得以将PB级别的数据注入数据湖，并为数百个具有不同需求的处理账户提供服务支持。我们的生态系统仍在建设当中，希望我们的经历能够为大家的数据湖探索之旅带来启发。

使用 Amazon EMR、Amazon SageMaker 和 AWS Service Catalog 设置 Intuit 数据湖

我们将讨论在较高层面构建 Intuit 数据湖所包含的技术和过程，包括设置账户和资源所使用的整体结构与自动化等。请关注我们这个空间的未来动态，阅读由其他合作构建 Intuit 数据湖的团队和工程师发布的关于该系统特定方面的更详细博文。

在 Amazon EMR 中使用 Apache Knox 实现边界安全

边界安全可帮助提升Apache Hadoop 集群的安全性，防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式，简化了客户端与集群的交互。例如，在与启用 Kerberos 的集群上的服务进行交互之前，客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中，我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现

随着数据在当今世界中的作用不断发展演变，数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库，存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中，您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。

Tag: Amazon EMR