亚马逊AWS官方博客
Category: AWS Glue
适用于 NetApp ONTAP 的 Amazon FSx 现已与 Amazon S3 集成,实现无缝数据访问
今天我们宣布推出通过 Amazon Simple Storage Service(Amazon S3)访问适用于 NetApp ONTAP 的 Amazon FSx 文件系统中数据的功能。借助此功能,您可利用企业文件数据增强生成式人工智能应用,通过 Amazon Bedrock 知识库实现检索增强生成(RAG);运用 Amazon SageMaker 训练机器学习(ML)模型;通过 Amazon S3 集成的第三方服务生成洞察;在 Amazon Quick Suite 等人工智能驱动的商业智能(BI)工具中使用全面研究功能;并基于 Amazon S3 运行云原生应用程序分析。所有这些操作均可在文件数据持续驻留于适用于 NetApp ONTAP 的 FSx 文件系统的同时完成。
新功能:借助 sort 和 z-order 压缩提升 Amazon S3 中 Apache Iceberg 的查询性能
现在,您可以使用 sort 和 z-order 压缩来提升 Amazon S3 表类数据存储服务和通用 S3 […]
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
使用新的 AWS Glue DynamoDB Export 连接器加速 AWS Glue 作业中的 Amazon DynamoDB 数据访问评论源
现代数据架构鼓励数据湖、数据仓库和专用数据存储的集成,从而实现统一治理和轻松数据移动。借助 AWS 上的现代数 […]
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
AWS Glue 版本 2.0 采用快 10 倍的作业启动时间和 1 分钟最低计费持续时间
AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,可让客户更轻松地准备和加载数据以进行分析。Glue 是一项“无服务器”服务,您无需预置或管理任何资源,并且只需在 Glue 有效运行时为资源付费。
使用 AWS Glue 和 Amazon S3 构建数据湖基础
数据湖是一种越来越受欢迎的数据存储和分析方法,可解决处理海量异构数据的难题。数据湖可让组织将所有结构化和非结构化数据存储在一个集中式存储库中。由于数据可以按原样存储,因此无需将其转换为预先定义的数据结构(区别于传统关系型数据仓库)。
使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习
您是否遇到过需要根据某些属性划分数据集的情况?K-means 是用于划分数据的最常见的机器学习算法之一。该算法 […]
AWS Glue 全托管 ETL 服务使用指南
作者:蒋华, AWS合作伙伴解决方案架构师 目 录 第1章 Glue概述 1.1 Glue介绍 1.2 Gl […]




