Analytics | 亚马逊AWS官方博客

使用 AWS Step Functions 和 Amazon Athena 实现简易大数据编排

使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖

大多数企业将其关键数据存储在数据湖中，您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理，例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。

在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能

Amazon Athena 是一种交互式查询服务，可使用标准 SQL 轻松分析 Amazon Simple Storage Service（Amazon S3）中的数据。Athena 是一种无服务器服务，因此您无需管理任何基础设施，而且只需为所运行的查询付费。2019 年，Athena 增加了对联合查询的支持，以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。

EKS上有状态服务启用存储加密

在这个博客里我们针对EKS上有状态服务的数据保护安全需求，介绍了结合KMS服务，在EKS中如何使用StatefulSet、Snapshot Controller 的方式实现有状态服务的存储加密启用，该方式通过从底层存储解决数据加密存储及迁移，无需应用层介入数据迁移，从而简单有效解决了EKS上有状态服务的存储加密需求。

在 Amazon EMR 集群上，通过使用Flink, Spark 等服务与Hudi 集成，配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建，从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销，让这些服务开箱即用，从而使我们只要关心数据湖的构建以及湖上的数据处理

Amazon EMR Hudi 性能调优——Clustering

Hudi作为Amazon EMR提供的智能湖仓的重要组件，已经得到越来越广泛的应用，Hudi在考虑到多种业务场景的同时，也对查询性能提供了很多的优化的方法，例如Index，Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理，操作，以及查询性能的对比，有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。

在 AWS 搭建无代码可视化的数据分析和建模平台

本文以汽车行业的故障分析为例，演示如何在亚马逊云科技上构建一套无代码数据分析平台，业务人员不需要有编程能力、 SQL 或任何机器学习的先验知识，即可自行根据业务场景和具体需求，自助式的上传导入数据做出分析，从而帮助业务人员以最短的时间，最方便的使用数据。

使用Hue玩转Amazon EMR(SparkSQL, Phoenix)和Amazon Redshift

本文主要帮助使用Amazon EMR的用户，通过Hue实现统一数仓平台开发工具，一方面集中管理数仓SQL开发任务，另一方面为其它部门提供自主分析的平台，对数仓建设有一定的推动作用。

使用 Amazon Redshift 构建用于批量和实时分析的大数据 Lambda 架构

借助 Amazon Redshift，您可以使用标准 SQL 轻松分析数据仓库、运营数据库和数据湖中的所有数据类型。在这篇博文中，我们将实时收集、处理和分析数据流。通过数据共享，您可以在 Amazon Redshift 集群之间共享实时数据以进行读取，同时具有相对的安全性和开箱即用性。在这篇博文中，我们将讨论如何利用 Amazon Redshift 的数据共享功能来设置大数据 Lambda 架构，以支持批量分析和近实时分析。

利用 Amazon Glue、Amazon Kinesis Data Streams、Amazon DynamoDB 和 Amazon QuickSight 的零售无服务器运营数据湖

您想减少商店缺货情况吗？您想改善订单配送时间表吗？您想为客户提供精确到毫秒的产品供应吗？零售运营数据湖可 […]

亚马逊AWS官方博客

Category: Analytics