AWS Big Data | 亚马逊AWS官方博客

在 Amazon EMR 中使用 Apache Knox 实现边界安全

边界安全可帮助提升Apache Hadoop 集群的安全性，防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式，简化了客户端与集群的交互。例如，在与启用 Kerberos 的集群上的服务进行交互之前，客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中，我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现

随着数据在当今世界中的作用不断发展演变，数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库，存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中，您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。

AWS Glue 扩展 Apache Spark 作业以及数据分区的最佳实践

本博文讨论管理数据处理作业扩展的两项关键的 AWS Glue 功能,还将介绍在 AWS Glue中，针对采用 Amazon Kinesis Data Firehose 的流应用程序中提取的大量小文件，如何来扩展 Apache Spark 应用程序。此外，文章将介绍对 AWS Glue 作业如何利用在 Amazon S3 上大型数据集的分区结构，来缩短 Apache Spark 应用程序的执行时间。

在最大程度上优化 Amazon Redshift 上的数据提取与报告性能

本文提供了从 S3 将大型数据卷加载到 Amazon Redshift 的方法，并运用有效的分发技术优化在相对小型的 Amazon Redshift 集群上运行报告查询的性能。

使用 Amazon EC2 Spot 实例和 Amazon EMR 运行 Apache Spark 应用程序的最佳实践

在本博客中，我们将重点讨论如何通过使用 Spot 实例在 Amazon EMR 上实现成本优化并高效运行 Spark 应用程序。我们提供了几个最佳实践建议，用于在使用Spot实例过程中提高Spark应用程序的容错能力。实施这些最佳实践不会对Spark应用程序的可用性，性能和执行时间产生大的影响。

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架（如 Apache Hadoop 和 Apache Spark）的强大功能，但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题，我们推出了 Amazon EMR 迁移指南（注：英文版首次出版于 2019 年 6 月，这是我们首次推出中文版）。本文是一份全面的指南，旨在提供合理的技术建议，帮助客户规划如何从本地大数据部署迁移到 EMR。

Glue – “连接“功能介绍& Glue 通过连接对 Redshift 写入数据

手把手教你使用Glue连接功能连入Redshift。

AWS Glue 增量数据加载和优化的 Parquet 写入器

本文将介绍如何从 Amazon S3 数据湖以及JDBC连接数据库中的数据源增量加载数据，并且还会展示如何通过作业书签使 AWS Glue ETL 作业仅读取新添加的数据，以及如何通过在之前的作业运行结束时重置作业书签，让 AWS Glue ETL 作业处理晚到达的数据。本文还将回顾作业书签与复杂的AWS Glue ETL 脚本和工作负载配合使用的最佳实践。
最后，本文将介绍如何使用经过性能优化的自定义 AWS Glue Parquet 写入器，可以在运行时计算架构，避免额外的数据传输。AWS Glue Parquet 写入器还通过添加或删除列支持数据集的架构演变。

Verizon Media Group 如何将本地的 Apache Hadoop 和 Spark 迁移到 Amazon EMR

在 VMG，我们依赖诸如 Apache Hadoop 和 Apache Spark 之类的技术来运行我们的数据处理管道。我们之前使用 Cloudera Manager 管理我们的集群，但它的发布周期较慢。因此，我们运行较旧的可用开放源版本，但却无法从 Apache 项目的最新错误修复和性能改进中获得好处。基于上述原因，再加上我们对 AWS 的现有投资，使我们探索将我们的分布式计算管道迁移到 Amazon EMR。

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境（如 Amazon EMR 集群）中，当集群中的存储容量用满时，没有方便的办法处理该问题。出现这种情况的原因是，您设置了 Amazon Elastic Block Store (Amazon EBS) 卷，并在启动集群时配置了挂载点，因此很难在集群运行后修改存储容量。可行的解决方案通常有：向集群添加更多节点，将数据备份到数据湖，然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃，也可删除多余的数据。

亚马逊AWS官方博客

Category: AWS Big Data