亚马逊AWS官方博客
Tag: AWS Glue
使用 Amazon Glue DataBrew 对数据进行预处理
使用 Amazon Glue DataBrew 对数据进行预处理
Read More快速搭建 AWS Glue ETL 开发环境
本文将展示如何自建Glue ETL的开发环境,以满足快速开发和调试的需求。
Read More云原生编排数据分析管道初探
公有云是适合数据分析和大数据处理的天然平台。近年来,云服务和开源社区涌现出许多优秀的工作流编排工具,方便就数据分析中复杂的抽取转换加载 (ETL) 过程进行任务编排。要成功运行数据分析管道,需要至少两个必要准备,一是搭建好支持运行数据管道的基础设施。二是编排好数据管道的 ETL 任务顺序。前者涉及运维,后者事关业务。从数据分析的角度,则希望运维难度最小,业务易用度最大。本文从上述两个角度切入,就 Airflow 和状态机支持数据分析管道的情况进行分析,并初步探讨云原生编排数据管道的方法和意义。
Read More使用 Step Functions 编排从数据库到数据仓库的数据ETL
数据仓库是信息的中央存储库。业务分析师、数据工程师、数据科学家和决策者通过商业智能 (BI) 工具、SQL 客户端和其他分析应用程序访问数据。数据和分析已然成为各大企业保持竞争力所不可或缺的部分。企业用户依靠报告、控制面板和分析工具从其数据中获得洞察力、监控企业绩效以及更明智地决策。
Read MoreAmazon Glue ETL作业调度工具选型初探
Amazon Glue是一项完全托管,无服务器架构的ETL服务。客户无需预置基础设置,只需要专注开发ETL代码,并且使用Amazon Glue时,只需为ETL作业运行时间付费。 在迁移现有ETL任务到Glue的过程中,有可能面临编排选型的问题。本文就编排选型,如何实现自动化迁移工作流,减少开发人员适配工作上做一定的探索。
Read More基于亚马逊云科技构建电动汽车电池告警预测平台
该博客介绍了如何利用亚马逊云科技的服务组件快速搭建电动车电池告警预测平台,包括存储海量测试数据,构建基于Xgboost分类算法的电池故障报警预测模型,推理预测数据以及可视化的数据展示。
Read More在 AWS Glue 的 Python Shell 作业中部署 AWS Data Wrangler 进行 ETL 数据处理
本文首先介绍了AWS Glue以及该服务的功能和使用场景,然后介绍了AWS Glue 中的Python Shell作业,可以基于Python完成一些基础的ETL操作。接下来,我们又介绍了Pandas on AWS – AWS Data Wrangler这款在AWS上进行数据分析的利器,并通过一个示例场景(CSV转换Parquet)来介绍了如何在Python Shell作业引入AWS Data Wrangler来简化在AWS平台上的无服务器化的ETL任务。
Read More使用 Glue 和 Athena 分析 AWS 服务日志
本文以VPC流日志为例,指导如何使用Glue爬网程序构建VPC流日志的数据目录,并使用GLUE ETL 作业把源数据进行分区并转换成Parquet格式,加速Athena查询VPC流日志的速度并减少扫描量以降低分析的成本。
Read More宣布推出 AWS Glue DataBrew – 一种可帮助您更快地清理和标准化数据的可视化数据准备工具
因此,我很高兴地宣布 AWS Glue DataBrew 现已推出,该服务是一个可视化数据准备工具,可帮助您将清理和标准化数据的速度最高提高 80%,使您可以更加专注于您所能获得的商业价值。
Read More在 AWS 上构建云原生机器学习流水线
近两年,机器学习已经渗透到各行各业,各种人工智能和机器学习的应用蓬勃发展,在其背后实际上会有一个完善的机器学习平台和流水线来支撑模型的开发、测试和迭代。但是这样一个系统性的平台,往往需要通过整合基础架构层和平台层来完成。在本篇Blog中,我们将展现如果通过AWS的服务构建云原生的机器学习流水线。
Read More