AWS Big Data | 亚马逊AWS官方博客

使用新的 AWS Glue DynamoDB Export 连接器加速 AWS Glue 作业中的 Amazon DynamoDB 数据访问评论源

现代数据架构鼓励数据湖、数据仓库和专用数据存储的集成，从而实现统一治理和轻松数据移动。借助 AWS 上的现代数 […]

机器学习多步时间序列预测解决方案

AWS ProServe GCR 利用机器学习进行多步时间序列预测解决方案。

一种使用 AWS 云原生服务部署高可用 APACHE AIRFLOW 集群的方案

对于需要在 AWS 上使用 Apache Airflow 但是无法使用 AWS 托管服务 MWAA ，或者想使用特定 Apache Airflow 版本，或者想定制 Apache Airflow 登陆、部署方式的用户，可以通过此方案搭建高可靠的 Apache Airflow 集群，同时提供用户登陆和鉴权机制。此方案已在全球知名 Tier One 汽车供应商的高级辅助驾驶系统（Advanced driver-assistance system, ADAS）开发平台成功应用。

Alluxio on Amazon EMR 集成实践

本文档介绍了Alluxio及在Amazon EMR上部署的整体架构，并修正了Alluxio社区与Amazon EMR上集成的方案，新增加了对EMR task实例组及多主的支持

使用Alluxio优化EMR上Flink Join

针对Flink流式处理业务场景中经常遇到的lookup join的性能瓶颈，本文提出了通过Alluxio缓存层和Flink时态表join方案，将hive维度表数据自动加载至Alluxio UFS缓存中，并做为join时变化表上视图，可以有效的解决该痛点

Feast on AWS 解决方案

本文介绍了Feast框架的整体架构及设计思路，并step by step详细说明了Feast on AWS集成和使用，包括安装部署离线/在线特征库、使用特征库、特征库同步的方法等。对于使用Feast开源框架构建MLOps平台的用户，本文可以作为快速构建和开发指南

Amazon EMR Hudi 性能调优——Clustering

Hudi作为Amazon EMR提供的智能湖仓的重要组件，已经得到越来越广泛的应用，Hudi在考虑到多种业务场景的同时，也对查询性能提供了很多的优化的方法，例如Index，Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理，操作，以及查询性能的对比，有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。