发布于: Feb 24, 2023

AWS Glue 爬网程序现在与 AWS Lake Formation 集成,简化了爬网程序设置,并支持对 AWS S3 数据湖进行账户内和跨账户爬网的集中权限。  

AWS Glue 爬网程序用于发现数据集、提取架构信息以及填充 AWS Glue Data Catalog。在此集成之前,您需要设置 Amazon IAM 和 Amazon S3 存储桶策略以供爬网程序访问 S3 数据湖目标。使用 Lake Formation 管理这些目标的客户更喜欢将所有权限集中在 Lake Formation 中,而不是为爬网程序角色设置直接 S3 访问权限。通过此 Glue 爬网程序与 Lake Formation 的集成,您现在可以使用 Lake Formation 权限供爬网程序访问 Lake Formation 托管表。 

当您将 AWS Glue 爬网程序配置为使用 Lake Formation 时,默认情况下,爬网程序会使用 Lake Formation 在同一账户中获取数据访问凭证。但是,您也可以通过在创建过程中提供账户 ID 将爬网程序配置为将 Lake Formation 用于其他账户。跨账户功能允许客户通过中央治理账户管理权限。客户更喜欢中央治理体验,而不是在每个存储桶所有账户中单独编写存储桶策略。要构建数据网格架构,您可以在单个 Lake Formation 治理中创建权限,以管理对跨其数据湖中多个账户的数据位置和爬网程序的访问权限。

AWS Glue 爬网程序对 Lake Formation 的支持已在推出 AWS Glue 和 Lake Formation 的所有区域全面推出。 有关区域列表,请参阅 AWS 区域表。要了解更多信息,请阅读此博客文章,并访问 AWS Glue 爬网程序文档