亚马逊AWS官方博客

Tag: AWS Glue

基于AWS Step Functions的通用负载编排框架

利用AWS Step Functions可以从正在运行的状态机开始新的状态机执行这一特性,可以构建基于AWS Step Functions的通用负载编排框架(Workload Orchestration Framework, WOF),使用嵌套工作流以实现降低主要流程的复杂性。为了更灵活的实现工作流,本方案开发了基于配置和Amazon EventBridge事件驱动的编排框架,可以通过配置文件而不是修改AWS Step Functions的JSON定义来编排工作流。

Data Analytics Foundations数据分析基座总览

亚马逊云科技大中华区专业服务团队(AWS Professional Services)发布了第一版数据分析基座快速部署解决方案(Data Analytics Foundations, DAF),提供一套解耦封装的功能模块,基于AWS的云原生服务进行了基础设施即代码IaC化的开发,功能面包括:数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等,可以按需一键部署到AWS账号环境中。

使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖

大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。

在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能

Amazon Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon Simple Storage Service(Amazon S3)中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。2019 年,Athena 增加了对联合查询的支持,以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。

云原生编排数据分析管道初探

公有云是适合数据分析和大数据处理的天然平台。近年来,云服务和开源社区涌现出许多优秀的工作流编排工具,方便就数据分析中复杂的抽取转换加载 (ETL) 过程进行任务编排。要成功运行数据分析管道,需要至少两个必要准备,一是搭建好支持运行数据管道的基础设施。二是编排好数据管道的 ETL 任务顺序。前者涉及运维,后者事关业务。从数据分析的角度,则希望运维难度最小,业务易用度最大。本文从上述两个角度切入,就 Airflow 和状态机支持数据分析管道的情况进行分析,并初步探讨云原生编排数据管道的方法和意义。