投稿日: Nov 22, 2022

Amazon EMR のお客様は、Flink 上のストリーミングとバッチの SQL ワークフローから AWS Glue データカタログを使用できるようになりました。AWS Glue データカタログは、Apacher Hive メタストアと互換性があります。Amazon EMR でデータカタログを外部の Apache Hive メタストアとして使用するように Flink ジョブを設定できます。今回のリリースにより、データカタログに保存されているテーブルに対して Flink SQL クエリを直接実行できるようになりました。

 Flink では、すぐに使える永続的なカタログとしてオンクラスター Hive メタストアをサポートしています。つまり、クラスターがシャットダウンされた場合はメタデータを再作成する必要があり、複数のクラスターで同じメタデータ情報を共有することが難しい状況でした。Amazon EMR 6.9 より、Amazon EMR の Flink ジョブでは、AWS Glue データカタログで Flink のメタデータを管理できます。永続的でフルマネージド型の Glue データカタログを一元化されたリポジトリとして使用できます。各データカタログは、データベースに整理され、高いスケーラビリティを備えたテーブルの集まりです。 

AWS Glue データカタログでは、種類の異なるシステムから統一されたリポジトリにメタデータを保存し、検索できるため、データサイロに含まれるデータを追跡できます。さまざまなアプリケーションで一貫性のある方法でこのメタデータにクエリを実行し、そのデータを変換できます。AWS Glue データカタログのサポートにより、Amazon EMR で Apache Flink を使用して、Apache Hive テーブルまたは Iceberg、Kinesis、Kafka などの任意の Flink テーブルソースのメタデータに対して統合されたバッチとストリームの処理を実行できます。AWS マネジメントコンソール、AWS CLI、Amazon EMR API のいずれかを使用して、AWS Glue データカタログを Flink のメタストアとして指定できます。

この機能は、Amazon EMR が提供されているすべてのリージョンで使用できます。この機能の詳細については、ドキュメントを参照してください。