亚马逊AWS官方博客

Tag: AWS Glue

在 AWS Glue 的 Python Shell 作业中部署 AWS Data Wrangler 进行 ETL 数据处理

本文首先介绍了AWS Glue以及该服务的功能和使用场景,然后介绍了AWS Glue 中的Python Shell作业,可以基于Python完成一些基础的ETL操作。接下来,我们又介绍了Pandas on AWS – AWS Data Wrangler这款在AWS上进行数据分析的利器,并通过一个示例场景(CSV转换Parquet)来介绍了如何在Python Shell作业引入AWS Data Wrangler来简化在AWS平台上的无服务器化的ETL任务。

Read More

在 AWS 上构建云原生机器学习流水线

近两年,机器学习已经渗透到各行各业,各种人工智能和机器学习的应用蓬勃发展,在其背后实际上会有一个完善的机器学习平台和流水线来支撑模型的开发、测试和迭代。但是这样一个系统性的平台,往往需要通过整合基础架构层和平台层来完成。在本篇Blog中,我们将展现如果通过AWS的服务构建云原生的机器学习流水线。

Read More

在生产中结合使用 Amazon Redshift Spectrum、Amazon Athena 和 AWS Glue 与 Node.js

在此博文中,我们解释了将带 Redshift Spectrum 的 Amazon Redshift 扩展为现代数据仓库的原因。我将介绍我们的数据增长及平衡成本和性能的需求如何促使我们采用 Redshift Spectrum。我还将分享我们的环境中的关键性能指标,并讨论提供可扩展和快速环境的额外 AWS 服务,并提供数据供我们日益增长的用户群进行立即查询。

Read More

使用 AWS Glue 和 Amazon Redshift 分析您的 Amazon S3 支出

AWS 成本和使用情况报告 (CUR) 会追踪您的 AWS 使用情况,并提供与之相关联的预计费用。您可以配置此报告为以小时或日为间隔显示数据;在账单收费期最后结束前,它至少每天会更新一次。成本和使用情况报告会自动发送到由您指定的 Amazon S3 存储桶,可以在那里直接下载。您还可以将该报告整合到 Amazon Redshift,也可以通过 Amazon Athena 进行查询,或者把它上传到 Amazon QuickSight。

Read More