게시된 날짜: Nov 22, 2022
Amazon EMR 고객은 이제 Flink의 스트리밍 및 배치 SQL 워크플로에서 AWS Glue 데이터 카탈로그를 사용할 수 있습니다. AWS Glue 데이터 카탈로그는 Apache Hive Metastore와 호환되는 카탈로그입니다. 데이터 카탈로그를 외부 Apache Hive Metastore로 사용하도록 Amazon EMR에서 Flink 작업을 구성할 수 있습니다. 이 릴리스에서는 이제 데이터 카탈로그에 저장된 테이블에 대해 Flink SQL 쿼리를 직접 실행할 수 있습니다.
Flink는 즉시 사용 가능한 영구 카탈로그로 클러스터상 Hive Metastore를 지원합니다. 이는 곧 과거에는 클러스터가 종료되면 메타데이터를 다시 생성해야 했고 여러 클러스터가 동일한 메타데이터 정보를 공유하기 어려웠다는 것을 의미합니다. Amazon EMR 6.9부터는 Amazon EMR의 Flink 작업이 AWS Glue 데이터 카탈로그에서 Flink의 메타데이터를 관리할 수 있습니다. 영구적이고 완전히 관리되는 Glue 데이터 카탈로그를 중앙 집중식 리포지토리로 사용할 수 있습니다. 각 데이터 카탈로그는 데이터베이스로 구성된 확장성이 뛰어난 테이블 모음입니다.
AWS Glue 데이터 카탈로그는 서로 다른 시스템이 데이터 사일로 상태의 데이터를 추적할 수 있도록 메타데이터를 저장하고 찾을 수 있는 균일한 리포지토리를 제공합니다. 그러면 메타데이터를 쿼리하고 다양한 애플리케이션에서 일관된 방식으로 해당 데이터를 변환할 수 있습니다. AWS Glue 데이터 카탈로그 지원으로 Amazon EMR에서 Apache Flink를 사용하여 Apache Hive 테이블의 통합 BATCH 및 STREAM 처리 또는 Iceberg, Kinesis, Kafka와 같은 Flink 테이블 소스의 메타데이터를 사용할 수 있습니다. AWS Management Console, AWS CLI 또는 Amazon EMR API를 사용하여 AWS Glue 데이터 카탈로그를 Flink의 메타스토어로 지정할 수 있습니다.
Amazon EMR을 사용할 수 있는 모든 리전에서 이 기능을 사용할 수 있습니다. 이 기능에 대해 자세히 알아보려면 설명서를 참조하세요.