亚马逊AWS官方博客
Tag: AWS Glue
使用 Step Functions 编排从数据库到数据仓库的数据ETL
数据仓库是信息的中央存储库。业务分析师、数据工程师、数据科学家和决策者通过商业智能 (BI) 工具、SQL 客户端和其他分析应用程序访问数据。数据和分析已然成为各大企业保持竞争力所不可或缺的部分。企业用户依靠报告、控制面板和分析工具从其数据中获得洞察力、监控企业绩效以及更明智地决策。
Amazon Glue ETL作业调度工具选型初探
Amazon Glue是一项完全托管,无服务器架构的ETL服务。客户无需预置基础设置,只需要专注开发ETL代码,并且使用Amazon Glue时,只需为ETL作业运行时间付费。 在迁移现有ETL任务到Glue的过程中,有可能面临编排选型的问题。本文就编排选型,如何实现自动化迁移工作流,减少开发人员适配工作上做一定的探索。
基于亚马逊云科技构建电动汽车电池告警预测平台
该博客介绍了如何利用亚马逊云科技的服务组件快速搭建电动车电池告警预测平台,包括存储海量测试数据,构建基于Xgboost分类算法的电池故障报警预测模型,推理预测数据以及可视化的数据展示。
在 AWS Glue 的 Python Shell 作业中部署 AWS Data Wrangler 进行 ETL 数据处理
本文首先介绍了AWS Glue以及该服务的功能和使用场景,然后介绍了AWS Glue 中的Python Shell作业,可以基于Python完成一些基础的ETL操作。接下来,我们又介绍了Pandas on AWS – AWS Data Wrangler这款在AWS上进行数据分析的利器,并通过一个示例场景(CSV转换Parquet)来介绍了如何在Python Shell作业引入AWS Data Wrangler来简化在AWS平台上的无服务器化的ETL任务。
使用 Glue 和 Athena 分析 AWS 服务日志
本文以VPC流日志为例,指导如何使用Glue爬网程序构建VPC流日志的数据目录,并使用GLUE ETL 作业把源数据进行分区并转换成Parquet格式,加速Athena查询VPC流日志的速度并减少扫描量以降低分析的成本。
宣布推出 AWS Glue DataBrew – 一种可帮助您更快地清理和标准化数据的可视化数据准备工具
因此,我很高兴地宣布 AWS Glue DataBrew 现已推出,该服务是一个可视化数据准备工具,可帮助您将清理和标准化数据的速度最高提高 80%,使您可以更加专注于您所能获得的商业价值。
在 AWS 上构建云原生机器学习流水线
近两年,机器学习已经渗透到各行各业,各种人工智能和机器学习的应用蓬勃发展,在其背后实际上会有一个完善的机器学习平台和流水线来支撑模型的开发、测试和迭代。但是这样一个系统性的平台,往往需要通过整合基础架构层和平台层来完成。在本篇Blog中,我们将展现如果通过AWS的服务构建云原生的机器学习流水线。
如何用 Glue ETL 输出分区数据
使用Glue ETL功能简单快捷的输出分区数据。
AWS 教您手把手玩转 Apache Superset 可视化 Amazon S3 里的数据
本篇博客会带您一步一步地在AWS上部署Apache Superset并在Superset上创建一个展示新冠肺炎情况的Dashboard(示例如下)。新冠肺炎数据存储于Amazon S3上并通过Amazon Athena来直接查询。
使用 Amazon EMR、Amazon SageMaker 和 AWS Service Catalog 设置 Intuit 数据湖
我们将讨论在较高层面构建 Intuit 数据湖所包含的技术和过程,包括设置账户和资源所使用的整体结构与自动化等。请关注我们这个空间的未来动态,阅读由其他合作构建 Intuit 数据湖的团队和工程师发布的关于该系统特定方面的更详细博文。