亚马逊AWS官方博客
Tag: Amazon EMR
Amazon EMR HBase on S3 之二级索引、Thrift 和性能评测
本文从实战的角度,解释一下亚马逊云科技客户在选择使用 HBase on S3 的时候比较关心的两个问题,一个是如何把已有的 HBase on HDFS 迁移到 HBase on S3,并包含二级索引的迁移;另一个是 HBase on S3 的性能问题。
基于AWS Step Functions的通用负载编排框架
利用AWS Step Functions可以从正在运行的状态机开始新的状态机执行这一特性,可以构建基于AWS Step Functions的通用负载编排框架(Workload Orchestration Framework, WOF),使用嵌套工作流以实现降低主要流程的复杂性。为了更灵活的实现工作流,本方案开发了基于配置和Amazon EventBridge事件驱动的编排框架,可以通过配置文件而不是修改AWS Step Functions的JSON定义来编排工作流。
Data Analytics Foundations数据分析基座总览
亚马逊云科技大中华区专业服务团队(AWS Professional Services)发布了第一版数据分析基座快速部署解决方案(Data Analytics Foundations, DAF),提供一套解耦封装的功能模块,基于AWS的云原生服务进行了基础设施即代码IaC化的开发,功能面包括:数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等,可以按需一键部署到AWS账号环境中。
借助Serverless服务实现EMR Instance Fleets集群自定义弹性伸缩
EMR Instance Fleets可实现费用和可用性自动选择的最佳组合,但目前不支持自定义弹性伸缩。通过此方案,客户针对EMR Instance Fleets集群基于自定义阈值进行弹性伸缩,可最大化的优化成本及精细化管理。
Amazon SageMaker Studio集成EMR打通大数据与机器学习开发平台
本文讲详细介绍SageMaker Studio 集成 EMR的原理,并带您一步步搭建Amazon SageMaker Studio集成EMR打通大数据与机器学习的开发平台。使用SageMaker Studio集成EMR一站式开发平台的数据科学家、机器学习工程师可以使用统一的IDE环境完成大规模的数据分析、数据准备、模型训练和部署。
Amazon EMR 之 YARN Label 和 Amazon EC2 Spot 实例的天作之合
本文将会讨论如何对 EMR 进行配置,在集群的运行过程中,当 Spot 实例发生中断时,维持 EMR 集群的稳定性。
从 Kudu 迁移到 Hudi
在构建本地数据中心的时候,出于Kudu良好的性能和兼备OLTP和OLAP的特性,以及对Impala SQL和Spark的支持,很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖,导致无法支持的数据高可用和弹性扩缩容,以及社区的逐渐不活跃,越来越多的用户,开始迁移到云上的Trino/Spark + Hudi 技术栈,本文通过一个实际的例子,来看一下迁移过程中发生的代码的重构和数据的迁移。
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
在Amazon EMR上构建实时数据湖
在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理