亚马逊AWS官方博客

Category: AWS Big Data

一种使用 AWS 云原生服务部署高可用 APACHE AIRFLOW 集群的方案

对于需要在 AWS 上使用 Apache Airflow 但是 无法使用 AWS 托管服务 MWAA , 或者想使用特定 Apache Airflow 版本, 或者想定制 Apache Airflow 登陆、部署方式的用户,可以通过此方案搭建高可靠的 Apache Airflow 集群,同时提供用户登陆和鉴权机制。此方案已在全球知名 Tier One 汽车供应商的高级辅助驾驶系统(Advanced driver-assistance system, ADAS)开发平台成功应用。

使用Alluxio优化EMR上Flink Join

针对Flink流式处理业务场景中经常遇到的lookup join的性能瓶颈,本文提出了通过Alluxio缓存层和Flink时态表join方案,将hive维度表数据自动加载至Alluxio UFS缓存中,并做为join时变化表上视图,可以有效的解决该痛点

Feast on AWS 解决方案

本文介绍了Feast框架的整体架构及设计思路,并step by step详细说明了Feast on AWS集成和使用,包括安装部署离线/在线特征库、使用特征库、特征库同步的方法等。对于使用Feast开源框架构建MLOps平台的用户,本文可以作为快速构建和开发指南

Amazon EMR Hudi 性能调优——Clustering

Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。