게시된 날짜: Jan 21, 2022

Amazon EMR 6.5.0은 이제 Apache Iceberg 버전 0.12를 포함합니다. Apache Iceberg는 Amazon S3의 대규모 데이터 집합을 위한 오픈 테이블 형식으로, 대형 테이블, 원자적 커밋, 동시 쓰기 및 SQL 호환 테이블 진화에 대한 고속 쿼리 성능을 제공합니다. 현재 릴리스에서는 EMR 클러스터에서 Iceberg 테이블 형식 기반으로 Apache Spark 3.1.2를 사용할 수 있습니다.

Apache Iceberg는 쿼리 성능을 유지하는 동시에 변화하는 데이터 집합을 지속적으로 관리하는 등 데이터 엔지니어가 복잡한 과제를 관리하는 데 도움이 되도록 데이터 레이크에 저장된 데이터를 위한 오픈 소스 테이블 형식을 제공합니다. Iceberg는 다음과 같은 이점을 제공합니다.

  • 전체 읽기 격리 및 다중 동시 쓰기를 통해 파일이 원자적으로 추가, 제거 또는 수정될 수 있는 여러 애플리케이션 간의 테이블에 대한 트랜잭션 일관성 유지
  • 일정 기간 테이블에 발생한 변경 사항 추적을 위한 전체 스키마 진화 구현
  • 시간 이동 쿼리 제출을 통해 과거 데이터에 대한 쿼리 수행 및 업데이트 간 변경 사항 확인
  • 유연한 파티션 진화가 포함된 파티션 레이아웃으로 테이블을 구성하여 물리적 디렉터리에 의존하지 않고 쿼리 및 데이터 볼륨을 변경할 수 있도록 파티션 스키마에 대한 업데이트 지원
  • 테이블을 이전 버전으로 롤백하여 빠르게 문제를 수정하고 테이블을 알려진 정상 상태로 복원
  • 대규모 데이터 집합 등에 대한 고성능 쿼리를 위한 고급 계획 작성 및 필터링 수행

Apache Iceberg가 포함된 Amazon EMR 릴리스 6.5.0은 이제 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 남아메리카(상파울루), 유럽(아일랜드), 유럽(스톡홀름), AWS GovCloud(미국), Sinnet에서 운영하는 Amazon Web Services 중국(베이징 리전), NWCD에서 운영하는 Amazon Web Services 중국(닝사 리전)에서 사용할 수 있으며 몇 주 안에 더 많은 리전이 추가될 예정입니다.

Amazon EMR에서 Apache Iceberg를 사용하는 방법에 대한 자세한 내용은 Amazon EMR 설명서 페이지를 참조하세요..