亚马逊AWS官方博客
Tag: Amazon Glue
利用 Amazon Glue、Amazon Kinesis Data Streams、Amazon DynamoDB 和 Amazon QuickSight 的零售无服务器运营数据湖
您想减少商店缺货情况吗? 您想改善订单配送时间表吗? 您想为客户提供精确到毫秒的产品供应吗? 零售运营数据湖可 […]
从 Amazon EMR 和 AWS Glue 访问 Amazon S3 中数据的性能优化最佳实践
这篇文章介绍了使用 Amazon EMR 和 Amazon Glue 分析 Amazon S3 中数据时,实现所需性能扩展的最佳实践。我们重点强调了在 Amazon EMR 和 AWS Glue Spark 作业上针对 Apache Spark 进行优化。
使用 Amazon Glue、Amazon Neptune 和 Spline 为数据湖构建数据沿袭
随着数据环境复杂性的增加,客户在以经济高效且一致的方式捕获沿袭时,面临着巨大的可管理性挑战。在这篇文章中,我们将向您介绍为数据湖构建端到端的自动化数据沿袭解决方案的三个步骤:沿袭捕获、建模和存储,最后是可视化。
使用 AWS Glue、Apache Hudi 和 Amazon S3 构建无服务器管道以分析串流数据
企业通常会积累海量数据,并继续生成越来越多的数据量,从 TB 级到 PB 级,有时甚至会生成 EB 级的数据。此类数据通常在不同的系统中生成,需要聚合到一个位置进行分析和生成洞察。借助数据湖架构,您可以聚合各个孤岛中的数据,将其存储在一个集中式存储库中,实施数据治理,并支持基于这些存储的数据进行分析和机器学习(ML)。
基于Amazon Serverless和SageMaker实现空气质量预测
本文介绍了通过Amazon Serverlss实现低成本数据采集,并通过Amazon SageMaker进行数据处理与机器学习,对时间序列数据如空气质量进行分析与预测。
基于 VPC Flow Logs 的 NAT Gateway 网络流量分析与可视化方案
本解决方案提供了一种对流经NAT Gateway的流量进行分析与可视化的方案。通过亚马逊云科技提供的网络流量分析工具VPC Flow Logs,以及Serverless的数据分析工具Amazon Athena、Amazon Glue与Amazon QuickSight,建立了一套方便网络运维人员日常观测网络流量,或查询与诊断经NAT的网络问题的解决方案。
在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较
Amazon Athena 分区投影相关的功能,透过分区投影中的值做匹配计算,得出位置,减少分区元数据检索方面受到限制的查询的运行时间。随着时间的推移,Glue 也推出了分区索引相关的功能,可以方便客户与其他服务,如EMR、Glue ETL、Redshift Specturm… 等等,做元数据的储存与查询。许多人会有一个疑问是,Athena分区投影 与 Glue分区索引效能再一定的分区数量时的比较,也是这篇部落格会探讨的议题。
使用Amazon Glue构建无服务器流式ETL作业
在本文中,我们将深入探讨Amazon Glue中的流式ETL,介绍此功能如何帮助您在流式数据上构建持续的ETL应用程序。Amazon Glue中的流式ETL基于Apache Spark的结构化流引擎,该引擎提供一种高容错、可扩展且易于实现的方法,能够实现端到端的流处理。本文向大家展示使用Amazon Glue构建流处理管道的示例,其中包括从 Amazon Kinesis Data Streams当中读取流式数据、发现schema、运行流式ETL并将结果写入至接收端。
Amazon Glue 实现 JDBC 数据源增量数据加载
Amazon Glue实现JDBC数据源增量数据加载
使用 Amazon Glue 来调度 Amazon Redshift 跑 TPC-DS Benchmark
提供CDK模版部署Glue调度Redshift环境,并进行TPC-DS benchmark