게시된 날짜: Jun 8, 2023

이제 Amazon Athena for Apache Spark에서 오픈 소스 데이터 레이크 스토리지 프레임워크인 Apache Hudi 0.13, Apache Iceberg 1.2.1 및 Linux Foundation Delta Lake 2.0.2를 지원합니다. 이러한 프레임워크에서는 ACID(원자성, 일관성, 격리, 내구성) 트랜잭션을 사용하여 대형 데이터 세트의 증분 데이터를 간편하게 처리할 수 있으며 데이터 레이크에서 대형 데이터 세트를 더욱 간편하게 저장 및 처리할 수 있습니다.

Amazon Athena의 기능인 Amazon Athena for Apache Spark를 사용하면 1초 내에 Apache Spark에서 대화형 분석을 실행하여 페타바이트 분량의 데이터를 분석할 수 있습니다. 데이터 레이크가 계속 커지면 데이터 레이크에 증분 데이터를 추가하고 모든 데이터 사용자의 데이터 트랜잭션 일관성을 유지하기가 어려워질 수 있습니다. 이번에 지원 대상으로 발표된 데이터 레이크 프레임워크를 활용하면 ACID 트랜잭션, Upsert 및 삭제 기능을 사용해 S3 데이터 레이크에서 증분 데이터를 간편하게 처리하여 트랜잭션 방식이 일관된 파일을 생성할 수 있습니다. 이번 출시로 인해 이제 데이터 엔지니어는 스키마 개선 등의 기능을 사용하여 데이터 레이크 테이블을 효율적으로 생성하고 관리할 수 있습니다. 스키마 개선 기능을 사용하면 업무 내용의 변화에 따라 데이터를 간편하게 조정할 수 있습니다. 새로운 구조 준수를 위해 기존 데이터를 다시 작성하지 않고도 기존 데이터 테이블의 데이터 구조를 변경할 수 있기 때문입니다.

Apache Iceberg, Apache Hudi 및 Delta Lake 지원은 Amazon Athena for Apache Spark가 제공되는 9개 AWS 리전인 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(아일랜드), 유럽(프랑크푸르트), 아시아 태평양(도쿄), 아시아 태평양(싱가포르), 아시아 태평양(시드니) 및 아시아 태평양(뭄바이)에서 사용 가능합니다. 자세한 내용을 알아보고 이러한 프레임워크의 사용을 시작하려면 Amazon Athena for Apache Spark 웹 페이지로 이동하세요.