发布于: Nov 22, 2022
现在,Amazon EMR 客户可以在 Flink 上的流媒体和批处理 SQL 工作流程中使用 AWS Glue Data Catalog。AWS Glue Data Catalog 是一个兼容 Apache Hive Metastore 的目录。您可以在 Amazon EMR 上配置 Flink 作业,将 Data Catalog 用作外部 Apache Hive 元存储。通过此次发布,您可以直接针对存储在 Data Catalog 中的表运行 Flink SQL 查询。
Flink 支持将集群内 Hive 元存储用作开箱即用的持久化目录。这意味着当集群关闭时,元数据必须重新创建,且多个集群很难共享相同的元数据信息。从 Amazon EMR 6.9 开始,您在 Amazon EMR 上的 Flink 作业可以管理 AWS Glue Data Catalog 中的 Flink 元数据。您可以使用一个完全托管的持久 Glue Data Catalog 作为集中式存储库。每个 Data Catalog 都是一个高度可扩展的表的集合,这些表被组织为数据库。
AWS Glue Data Catalog 提供了一个统一的存储库,不同的系统可以在其中存储和查找元数据,以跟踪数据孤岛中的数据。然后,您可以查询元数据,并跨各种应用程序以一致的方式转换这些数据。通过支持 AWS Glue Data Catalog,您可以在 Amazon EMR 上使用 Apache Flink 对 Apache Hive 表或任何 Flink 表源(如 Iceberg、Kinesis 或 Kafka)的元数据进行统一的 BATCH 和 STREAM 处理。您可以使用 AWS 管理控制台、AWS CLI 或 Amazon EMR API 指定 AWS Glue Data Catalog 作为 Flink 的元存储。
您可以在提供 Amazon EMR 的所有区域中使用此功能。要了解有关此功能的更多信息,请参阅我们的文档。