게시된 날짜: Jul 16, 2021
Amazon Athena와 Apache Hudi 통합이 새로운 기능과 최신 0.8.0 커뮤니티 릴리스를 지원하도록 업데이트되었습니다. Hudi는 S3 데이터 레이크의 증분 데이터 처리를 간소화하는 데 사용되는 오픈 소스 데이터 관리 프레임워크입니다. 업데이트된 통합에서는 Athena를 사용하여 Amazon EMR, Apache Spark, Apache Hive 또는 기타 호환되는 서비스를 통해 Hudi 0.8.0 테이블을 쿼리할 수 있으며 스냅샷 쿼리 및 부트스트랩 테이블 읽기가 새롭게 지원됩니다.
Apache Hudi는 Change Data Capture(CDC) 파이프라인 개발을 간소화하고, GDPR 기반 업데이트 및 삭제 규정을 준수하며, 데이터 삽입 및 이벤트 업데이트가 필요한 센서 또는 디바이스의 스트리밍 데이터 관리를 개선하는 데 도움이 되는 레코드 수준 데이터 처리를 제공합니다. 0.8.0 릴리스에서는 데이터 복사 없이 Parquet 테이블을 Hudi로 손쉽게 마이그레이션할 수 있으므로 Athena를 통해 테이블을 쿼리하고 분석할 수 있습니다. 또한 스냅샷 쿼리에 대한 Athena의 새로운 지원을 통해 거의 실시간으로 스트리밍 테이블 업데이트를 볼 수 있습니다.
Athena와 Hudi의 통합에 대해 자세히 알아보려면 Using Athena to Query Apache Hudi Dataset 및 Querying an Apache Hudi Dataset with Amazon Athena 블로그 시리즈를 참조하세요.