亚马逊AWS官方博客

Tag: Amazon Glue

使用 AWS Glue、Apache Hudi 和 Amazon S3 构建无服务器管道以分析串流数据

企业通常会积累海量数据,并继续生成越来越多的数据量,从 TB 级到 PB 级,有时甚至会生成 EB 级的数据。此类数据通常在不同的系统中生成,需要聚合到一个位置进行分析和生成洞察。借助数据湖架构,您可以聚合各个孤岛中的数据,将其存储在一个集中式存储库中,实施数据治理,并支持基于这些存储的数据进行分析和机器学习(ML)。

基于 VPC Flow Logs 的 NAT Gateway 网络流量分析与可视化方案

本解决方案提供了一种对流经NAT Gateway的流量进行分析与可视化的方案。通过亚马逊云科技提供的网络流量分析工具VPC Flow Logs,以及Serverless的数据分析工具Amazon Athena、Amazon Glue与Amazon QuickSight,建立了一套方便网络运维人员日常观测网络流量,或查询与诊断经NAT的网络问题的解决方案。

在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较

Amazon Athena 分区投影相关的功能,透过分区投影中的值做匹配计算,得出位置,减少分区元数据检索方面受到限制的查询的运行时间。随着时间的推移,Glue 也推出了分区索引相关的功能,可以方便客户与其他服务,如EMR、Glue ETL、Redshift Specturm… 等等,做元数据的储存与查询。许多人会有一个疑问是,Athena分区投影 与 Glue分区索引效能再一定的分区数量时的比较,也是这篇部落格会探讨的议题。

使用Amazon Glue构建无服务器流式ETL作业

在本文中,我们将深入探讨Amazon Glue中的流式ETL,介绍此功能如何帮助您在流式数据上构建持续的ETL应用程序。Amazon Glue中的流式ETL基于Apache Spark的结构化流引擎,该引擎提供一种高容错、可扩展且易于实现的方法,能够实现端到端的流处理。本文向大家展示使用Amazon Glue构建流处理管道的示例,其中包括从 Amazon Kinesis Data Streams当中读取流式数据、发现schema、运行流式ETL并将结果写入至接收端。