亚马逊AWS官方博客

Tag: AWS Glue

基于AWS云端数据质量治理解决方案

这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag

基于AWS Step Functions的通用负载编排框架

利用AWS Step Functions可以从正在运行的状态机开始新的状态机执行这一特性,可以构建基于AWS Step Functions的通用负载编排框架(Workload Orchestration Framework, WOF),使用嵌套工作流以实现降低主要流程的复杂性。为了更灵活的实现工作流,本方案开发了基于配置和Amazon EventBridge事件驱动的编排框架,可以通过配置文件而不是修改AWS Step Functions的JSON定义来编排工作流。

Data Analytics Foundations数据分析基座总览

亚马逊云科技大中华区专业服务团队(AWS Professional Services)发布了第一版数据分析基座快速部署解决方案(Data Analytics Foundations, DAF),提供一套解耦封装的功能模块,基于AWS的云原生服务进行了基础设施即代码IaC化的开发,功能面包括:数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等,可以按需一键部署到AWS账号环境中。

使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖

大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。

在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能

Amazon Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon Simple Storage Service(Amazon S3)中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。2019 年,Athena 增加了对联合查询的支持,以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。

云原生编排数据分析管道初探

公有云是适合数据分析和大数据处理的天然平台。近年来,云服务和开源社区涌现出许多优秀的工作流编排工具,方便就数据分析中复杂的抽取转换加载 (ETL) 过程进行任务编排。要成功运行数据分析管道,需要至少两个必要准备,一是搭建好支持运行数据管道的基础设施。二是编排好数据管道的 ETL 任务顺序。前者涉及运维,后者事关业务。从数据分析的角度,则希望运维难度最小,业务易用度最大。本文从上述两个角度切入,就 Airflow 和状态机支持数据分析管道的情况进行分析,并初步探讨云原生编排数据管道的方法和意义。