亚马逊AWS官方博客

Category: Analytics

使用Athena (Presto) 分析本地 Oracle 数据库导出的数据

在企业环境下,混合云架构是一种常见的架构,理想环境下摄取本地Oracle数据库的数据是通过Apache Sqoop或DMS使用网络专线将数据迁移到s3存储桶,进行数据分析。但受本地条件限制,很多用户是用Oracle Datapump或者Exp/Imp将数据导出后,再将本地数据传输到s3存储桶。本文通过阐述使用上述两种不同的工具,介绍如何将数据导入s3存储桶,使用Athena做数据分析。

使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖

大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。

在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能

Amazon Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon Simple Storage Service(Amazon S3)中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。2019 年,Athena 增加了对联合查询的支持,以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。

EKS上有状态服务启用存储加密

在这个博客里我们针对EKS上有状态服务的数据保护安全需求,介绍了结合KMS服务,在EKS中如何使用StatefulSet、Snapshot Controller 的方式实现有状态服务的存储加密启用,该方式通过从底层存储解决数据加密存储及迁移,无需应用层介入数据迁移,从而简单有效解决了EKS上有状态服务的存储加密需求。

在Amazon EMR上构建实时数据湖

在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理