게시된 날짜: May 9, 2023
이제 Amazon Athena를 사용하여 Apache Hudi 0.12.2로 생성된 테이블을 쿼리할 수 있습니다. 여기에는 Amazon S3 데이터 레이크의 데이터 세트에 액세스하는 쿼리의 향상된 확장성 지원이 포함됩니다. 업데이트된 통합에서는 Athena를 사용하여 Amazon EMR, Apache Spark, Apache Hive 또는 기타 호환되는 서비스를 통해 Hudi 0.12.2 테이블을 쿼리할 수 있습니다.
Apache Hudi는 S3 데이터 레이크의 증분 데이터 처리를 간소화하는 데 사용되는 오픈 소스 데이터 관리 프레임워크입니다. Hudi는 Change Data Capture(CDC) 파이프라인 개발을 간소화하고, GDPR 기반 업데이트 및 삭제 규정을 준수하며, 데이터 삽입 및 이벤트 업데이트가 필요한 센서 또는 디바이스의 스트리밍 데이터 관리를 개선하는 데 도움이 되는 레코드 수준 데이터 처리를 제공합니다. 0.12.2 릴리스에는 메타데이터 테이블에 대한 지원이 포함되어 있습니다. 메타데이터 테이블은 대규모 데이터 세트에 대한 효율적인 확장을 지원하기 위해 “파일 목록” 작업에 대한 요구 사항을 제거하도록 설계되었습니다. 대신 메타데이터 테이블은 파일 목록을 선제적으로 유지 관리하며 반복적인 파일 목록 작업이 필요하지 않으므로 Amazon S3와 같은 스토리지 시스템의 경우 요청 한도에 도달하는 것을 방지할 수 있습니다.
Apache Hudi 0.12.2 지원은 Athena 엔진 버전 3에서 사용할 수 있으며 지원되는 리전에서 사용할 수 있습니다. Athena의 새로운 Apache Hudi 0.12.2 지원에 대해 자세히 알아보려면 Athena 사용자 설명서의 Hudi 데이터 세트 쿼리를 참조하세요.