亚马逊AWS官方博客
Tag: AWS Glue
如何用 Glue ETL 输出分区数据
使用Glue ETL功能简单快捷的输出分区数据。
Read MoreAWS 教您手把手玩转 Apache Superset 可视化 Amazon S3 里的数据
本篇博客会带您一步一步地在AWS上部署Apache Superset并在Superset上创建一个展示新冠肺炎情况的Dashboard(示例如下)。新冠肺炎数据存储于Amazon S3上并通过Amazon Athena来直接查询。
Read More使用 Amazon EMR、Amazon SageMaker 和 AWS Service Catalog 设置 Intuit 数据湖
我们将讨论在较高层面构建 Intuit 数据湖所包含的技术和过程,包括设置账户和资源所使用的整体结构与自动化等。请关注我们这个空间的未来动态,阅读由其他合作构建 Intuit 数据湖的团队和工程师发布的关于该系统特定方面的更详细博文。
Read More在生产中结合使用 Amazon Redshift Spectrum、Amazon Athena 和 AWS Glue 与 Node.js
在此博文中,我们解释了将带 Redshift Spectrum 的 Amazon Redshift 扩展为现代数据仓库的原因。我将介绍我们的数据增长及平衡成本和性能的需求如何促使我们采用 Redshift Spectrum。我还将分享我们的环境中的关键性能指标,并讨论提供可扩展和快速环境的额外 AWS 服务,并提供数据供我们日益增长的用户群进行立即查询。
Read More使用 AWS Glue 和 Amazon Redshift 分析您的 Amazon S3 支出
AWS 成本和使用情况报告 (CUR) 会追踪您的 AWS 使用情况,并提供与之相关联的预计费用。您可以配置此报告为以小时或日为间隔显示数据;在账单收费期最后结束前,它至少每天会更新一次。成本和使用情况报告会自动发送到由您指定的 Amazon S3 存储桶,可以在那里直接下载。您还可以将该报告整合到 Amazon Redshift,也可以通过 Amazon Athena 进行查询,或者把它上传到 Amazon QuickSight。
Read MoreAWS Glue 扩展 Apache Spark 作业以及数据分区的最佳实践
本博文讨论管理数据处理作业扩展的两项关键的 AWS Glue 功能,还将介绍在 AWS Glue中,针对采用 Amazon Kinesis Data Firehose 的流应用程序中提取的大量小文件,如何来扩展 Apache Spark 应用程序。此外,文章将介绍对 AWS Glue 作业如何利用在 Amazon S3 上大型数据集的分区结构,来缩短 Apache Spark 应用程序的执行时间。
Read More使用 AWS Step Functions 和 AWS Glue 编排基于 Amazon Redshift 的 ETL 工作流
在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于Amazon Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。
Read More使用 AWS Lake Formation 构建、保护和管理数据湖
传统上,组织将数据保存在固化、单一用途的系统中,例如本地数据仓库设备。同样,他们使用单一方法来分析数据,例如预定义的 BI 报告。在数据库之间移动数据以使用不同方法(例如机器学习 (ML) 或即兴使用的 SQL 查询)来分析数据时,需要在分析之前进行“提取、转换、加载” (ETL) 处理。这些传统方法即便再好,也是效率低下且存在延迟的。最糟糕的是存在复杂的安全性。
Read More使用 AWS Glue 对非原生 JDBC 数据源运行 ETL 作业
AWS Glue 是一项完全托管的ETL(提取、转换和加载) 服务,可以帮助您更轻松地准备和加载数据以进行分析。在 AWS 管理控制台上,简单点击几下,就可以创建和运行 ETL 作业。只需要将 AWS Glue 指向您的数据源,AWS Glue 就可以发现您的数据,并将相关的元数据(例如,表定义和结构)存储在 AWS Glue的数据目录中。
Read More使用 AWS Glue 提取 Salesforce.com 中的数据并使用 Amazon Athena 进行分析
在本文中,我将向您展示如何使用 AWS Glue 提取您 Salesforce.com 账户里的数据,并将其保存到 Amazon S3。然后,将来自 Salesforce.com 的账户数据与来自单独的订单管理系统的订单数据结合起来,并使用 Amazon Athena 来生成报告。
Read More