Amazon EMR | 亚马逊AWS官方博客

Amazon EMR HBase on S3 之二级索引、Thrift 和性能评测

本文从实战的角度，解释一下亚马逊云科技客户在选择使用 HBase on S3 的时候比较关心的两个问题，一个是如何把已有的 HBase on HDFS 迁移到 HBase on S3，并包含二级索引的迁移；另一个是 HBase on S3 的性能问题。

基于AWS Step Functions的通用负载编排框架

利用AWS Step Functions可以从正在运行的状态机开始新的状态机执行这一特性，可以构建基于AWS Step Functions的通用负载编排框架（Workload Orchestration Framework, WOF），使用嵌套工作流以实现降低主要流程的复杂性。为了更灵活的实现工作流，本方案开发了基于配置和Amazon EventBridge事件驱动的编排框架，可以通过配置文件而不是修改AWS Step Functions的JSON定义来编排工作流。

Data Analytics Foundations数据分析基座总览

亚马逊云科技大中华区专业服务团队（AWS Professional Services）发布了第一版数据分析基座快速部署解决方案（Data Analytics Foundations, DAF），提供一套解耦封装的功能模块，基于AWS的云原生服务进行了基础设施即代码IaC化的开发，功能面包括：数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等，可以按需一键部署到AWS账号环境中。

借助Serverless服务实现EMR Instance Fleets集群自定义弹性伸缩

EMR Instance Fleets可实现费用和可用性自动选择的最佳组合，但目前不支持自定义弹性伸缩。通过此方案，客户针对EMR Instance Fleets集群基于自定义阈值进行弹性伸缩，可最大化的优化成本及精细化管理。

Amazon SageMaker Studio集成EMR打通大数据与机器学习开发平台

本文讲详细介绍SageMaker Studio 集成 EMR的原理，并带您一步步搭建Amazon SageMaker Studio集成EMR打通大数据与机器学习的开发平台。使用SageMaker Studio集成EMR一站式开发平台的数据科学家、机器学习工程师可以使用统一的IDE环境完成大规模的数据分析、数据准备、模型训练和部署。

Amazon EMR 之 YARN Label 和 Amazon EC2 Spot 实例的天作之合

本文将会讨论如何对 EMR 进行配置，在集群的运行过程中，当 Spot 实例发生中断时，维持 EMR 集群的稳定性。

从 Kudu 迁移到 Hudi

在构建本地数据中心的时候，出于Kudu良好的性能和兼备OLTP和OLAP的特性，以及对Impala SQL和Spark的支持，很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖，导致无法支持的数据高可用和弹性扩缩容，以及社区的逐渐不活跃，越来越多的用户，开始迁移到云上的Trino/Spark + Hudi 技术栈，本文通过一个实际的例子，来看一下迁移过程中发生的代码的重构和数据的迁移。

多库多表场景下使用Amazon EMR CDC实时入湖最佳实践

使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖

大多数企业将其关键数据存储在数据湖中，您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理，例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。

在Amazon EMR上构建实时数据湖

在 Amazon EMR 集群上，通过使用Flink, Spark 等服务与Hudi 集成，配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建，从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销，让这些服务开箱即用，从而使我们只要关心数据湖的构建以及湖上的数据处理

Tag: Amazon EMR