亚马逊AWS官方博客
Tag: AWS Glue
使用 AWS Glue 蓝图将数据库中的数据大规模登陆到数据湖
在本文中,您将通过维护一个包含表名和几个参数的 JSON 文件,学习如何以标准化方式处理数据湖登陆作业部署。您可以进一步自定义亚马逊云科技 Glue 蓝图,创建自己的多步骤数据管道,将数据移动到下游层和专用的分析服务。
基于AWS云端数据质量治理解决方案
这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag
PBS 通过 Amazon Personalize 为观众带来量身定制的体验
Public Broadcasting Service(PBS)希望构建一个智能推荐引擎(SRE,Smart […]
基于AWS Step Functions的通用负载编排框架
利用AWS Step Functions可以从正在运行的状态机开始新的状态机执行这一特性,可以构建基于AWS Step Functions的通用负载编排框架(Workload Orchestration Framework, WOF),使用嵌套工作流以实现降低主要流程的复杂性。为了更灵活的实现工作流,本方案开发了基于配置和Amazon EventBridge事件驱动的编排框架,可以通过配置文件而不是修改AWS Step Functions的JSON定义来编排工作流。
Data Analytics Foundations数据分析基座总览
亚马逊云科技大中华区专业服务团队(AWS Professional Services)发布了第一版数据分析基座快速部署解决方案(Data Analytics Foundations, DAF),提供一套解耦封装的功能模块,基于AWS的云原生服务进行了基础设施即代码IaC化的开发,功能面包括:数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等,可以按需一键部署到AWS账号环境中。
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能
Amazon Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon Simple Storage Service(Amazon S3)中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。2019 年,Athena 增加了对联合查询的支持,以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。
使用 Amazon Glue DataBrew 对数据进行预处理
使用 Amazon Glue DataBrew 对数据进行预处理
快速搭建 AWS Glue ETL 开发环境
本文将展示如何自建Glue ETL的开发环境,以满足快速开发和调试的需求。
云原生编排数据分析管道初探
公有云是适合数据分析和大数据处理的天然平台。近年来,云服务和开源社区涌现出许多优秀的工作流编排工具,方便就数据分析中复杂的抽取转换加载 (ETL) 过程进行任务编排。要成功运行数据分析管道,需要至少两个必要准备,一是搭建好支持运行数据管道的基础设施。二是编排好数据管道的 ETL 任务顺序。前者涉及运维,后者事关业务。从数据分析的角度,则希望运维难度最小,业务易用度最大。本文从上述两个角度切入,就 Airflow 和状态机支持数据分析管道的情况进行分析,并初步探讨云原生编排数据管道的方法和意义。