亚马逊AWS官方博客
Category: AWS Big Data
AWS Glue 增量数据加载和优化的 Parquet 写入器
本文将介绍如何从 Amazon S3 数据湖以及JDBC连接数据库中的数据源增量加载数据,并且还会展示如何通过作业书签使 AWS Glue ETL 作业仅读取新添加的数据,以及如何通过在之前的作业运行结束时重置作业书签,让 AWS Glue ETL 作业处理晚到达的数据。本文还将回顾作业书签与复杂的AWS Glue ETL 脚本和工作负载配合使用的最佳实践。
最后,本文将介绍如何使用经过性能优化的自定义 AWS Glue Parquet 写入器,可以在运行时计算架构,避免额外的数据传输。AWS Glue Parquet 写入器还通过添加或删除列支持数据集的架构演变。
Verizon Media Group 如何将本地的 Apache Hadoop 和 Spark 迁移到 Amazon EMR
在 VMG,我们依赖诸如 Apache Hadoop 和 Apache Spark 之类的技术来运行我们的数据处理管道。我们之前使用 Cloudera Manager 管理我们的集群,但它的发布周期较慢。因此,我们运行较旧的可用开放源版本,但却无法从 Apache 项目的最新错误修复和性能改进中获得好处。基于上述原因,再加上我们对 AWS 的现有投资,使我们探索将我们的分布式计算管道迁移到 Amazon EMR。
动态扩展 Amazon EMR 集群上的存储
在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。
使用原生 EBS 加密和存储桶级 S3 加密选项来保护 Amazon EMR 上的数据
数据加密是保护数据安全的有效方案之一。通过加密数据并管理对加密密钥的访问,您可以确保只有授权的用户或应用程序可以读取您的敏感收据。医疗卫生和金融等受监管行业的客户之所以选择 Amazon EMR,一个主要原因就是它提供了安全地存储和访问数据的合规环境。
利用 Amazon Redshift Spectrum 使用嵌套数据类型
Redshift Spectrum 是 Amazon Redshift 的一项功能,允许直接查询存储在 Amazon S3 上的数据,并支持嵌套数据类型。此文将讨论哪些用例可从嵌套数据类型中获益,如何将 Amazon Redshift Spectrum 与嵌套数据类型配合使用以实现出色的性能和存储效率,以及嵌套数据类型的一些局限性。
使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 2 部分
在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,它们为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
在此博文系列的第 1 部分中,您已经学习了如何使用 Apache Airflow、Genie 和 Amazon EMR 管理大数据工作流。
本博文将指导您部署 AWS CloudFormation 模板、配置 Genie 以及运行在 Apache Airflow 中创作的示例工作流。
使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 1 部分
在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,从而为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
此博文介绍了可帮助集中平台团队维护大数据平台以同时服务数千个 ETL 工作流的架构,并且简化了实现该目的所需的操作任务。
数据魔方 – 快速在 Amazon EMR 上部署 Apache Kylin 进行大数据分析
Amazon EMR是业界领先的原生云大数据平台,它极大地简化了在AWS上运行各种大数据框架进行大数据的处理和分析工作。通过使用这些框架和相关的开源项目(如Apache Spark、Apache Hive和Apache HBase等),并结合 Amazon EC2 的Auto Scaling动态弹性和 Amazon S3 的可扩展高可靠存储,您可以轻松、快速、经济高效地处理大规模海量数据。通过EMR ,您可以在数分钟内启动大数据集群,并且无需担心基础设施管理的任务,EMR会帮助完成这些工作,您只需要集中精力进行数据分析即可。
Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime
Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此runtime在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。
快速构建基于 AWS Glue 的抽取跨区域 MySQL 8 的数据管道
AWS Glue 是一种完全托管的数据目录和 ETL工具,如果您是首次使用AWS Glue详细演示和概念讲解可参照此博客。当前AWS Glue原生的JDBC连接库不支持MySQL 8,本文展示如何利用自定义的JDBC库连接外部数据源。本文以MySQL 8 举例,但任何支持JDBC连接的数据源都适用于此方法。由于目前国内宁夏区域的成本更经济,所以生产系统的数据库在北京,但数据处理系统在宁夏的情况并不少见。