亚马逊AWS官方博客

Category: AWS Big Data

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架(如 Apache Hadoop 和 Apache Spark)的强大功能,但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题,我们推出了 Amazon EMR 迁移指南(注:英文版首次出版于 2019 年 6 月,这是我们首次推出中文版)。 本文是一份全面的指南,旨在提供合理的技术建议,帮助客户规划如何从本地大数据部署迁移到 EMR。

Read More

AWS Glue 增量数据加载和优化的 Parquet 写入器

本文将介绍如何从 Amazon S3 数据湖以及JDBC连接数据库中的数据源增量加载数据,并且还会展示如何通过作业书签使 AWS Glue ETL 作业仅读取新添加的数据,以及如何通过在之前的作业运行结束时重置作业书签,让 AWS Glue ETL 作业处理晚到达的数据。本文还将回顾作业书签与复杂的AWS Glue ETL 脚本和工作负载配合使用的最佳实践。
最后,本文将介绍如何使用经过性能优化的自定义 AWS Glue Parquet 写入器,可以在运行时计算架构,避免额外的数据传输。AWS Glue Parquet 写入器还通过添加或删除列支持数据集的架构演变。

Read More

Verizon Media Group 如何将本地的 Apache Hadoop 和 Spark 迁移到 Amazon EMR

在 VMG,我们依赖诸如 Apache Hadoop 和 Apache Spark 之类的技术来运行我们的数据处理管道。我们之前使用 Cloudera Manager 管理我们的集群,但它的发布周期较慢。因此,我们运行较旧的可用开放源版本,但却无法从 Apache 项目的最新错误修复和性能改进中获得好处。基于上述原因,再加上我们对 AWS 的现有投资,使我们探索将我们的分布式计算管道迁移到 Amazon EMR。

Read More

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。

Read More

使用原生 EBS 加密和存储桶级 S3 加密选项来保护 Amazon EMR 上的数据

数据加密是保护数据安全的有效方案之一。通过加密数据并管理对加密密钥的访问,您可以确保只有授权的用户或应用程序可以读取您的敏感收据。医疗卫生和金融等受监管行业的客户之所以选择 Amazon EMR,一个主要原因就是它提供了安全地存储和访问数据的合规环境。

Read More

利用 Amazon Redshift Spectrum 使用嵌套数据类型

Redshift Spectrum 是 Amazon Redshift 的一项功能,允许直接查询存储在 Amazon S3 上的数据,并支持嵌套数据类型。此文将讨论哪些用例可从嵌套数据类型中获益,如何将 Amazon Redshift Spectrum 与嵌套数据类型配合使用以实现出色的性能和存储效率,以及嵌套数据类型的一些局限性。

Read More

使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 2 部分

在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,它们为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
在此博文系列的第 1 部分中,您已经学习了如何使用 Apache Airflow、Genie 和 Amazon EMR 管理大数据工作流。
本博文将指导您部署 AWS CloudFormation 模板、配置 Genie 以及运行在 Apache Airflow 中创作的示例工作流。

Read More

使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 1 部分

在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,从而为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
此博文介绍了可帮助集中平台团队维护大数据平台以同时服务数千个 ETL 工作流的架构,并且简化了实现该目的所需的操作任务。

Read More

数据魔方 – 快速在 Amazon EMR 上部署 Apache Kylin 进行大数据分析

Amazon EMR是业界领先的原生云大数据平台,它极大地简化了在AWS上运行各种大数据框架进行大数据的处理和分析工作。通过使用这些框架和相关的开源项目(如Apache Spark、Apache Hive和Apache HBase等),并结合 Amazon EC2 的Auto Scaling动态弹性和 Amazon S3 的可扩展高可靠存储,您可以轻松、快速、经济高效地处理大规模海量数据。通过EMR ,您可以在数分钟内启动大数据集群,并且无需担心基础设施管理的任务,EMR会帮助完成这些工作,您只需要集中精力进行数据分析即可。

Read More