亚马逊AWS官方博客

Category: Analytics

Amazon EMR Hudi 性能调优——Clustering

Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。

在 AWS 搭建无代码可视化的数据分析和建模平台

本文以汽车行业的故障分析为例,演示如何在亚马逊云科技上构建一套无代码数据分析平台,业务人员不需要有编程能力、 SQL 或任何机器学习的先验知识,即可自行根据业务场景和具体需求,自助式的上传导入数据做出分析,从而帮助业务人员以最短的时间,最方便的使用数据。

使用 Amazon Redshift 构建用于批量和实时分析的大数据 Lambda 架构

借助 Amazon Redshift,您可以使用标准 SQL 轻松分析数据仓库、运营数据库和数据湖中的所有数据类型。在这篇博文中,我们将实时收集、处理和分析数据流。通过数据共享,您可以在 Amazon Redshift 集群之间共享实时数据以进行读取,同时具有相对的安全性和开箱即用性。在这篇博文中,我们将讨论如何利用 Amazon Redshift 的数据共享功能来设置大数据 Lambda 架构,以支持批量分析和近实时分析。