게시된 날짜: Jul 14, 2020
Amazon Athena가 Amazon S3 기반 데이터 레이크에서 Apache Hudi 데이터 세트의 읽기 최적화된 보기를 쿼리하는 작업을 지원합니다.
Apache Hudi는 증분 데이터 처리 및 데이터 파이프라인 개발을 간소화하는 데 사용되는 오픈 소스 데이터 관리 프레임워크입니다. Hudi를 사용하면 Amazon S3 기반 데이터 레이크에서 데이터 프라이버시 관련 법을 준수하고, 실시간 스트림 및 변경 데이터 캡처 로그를 사용하고, 늦게 도착한 데이터를 복구하고, 변경 기록 및 롤백을 추적할 수 있습니다. Apache Hudi는 오픈 소스이며 오픈 소스 형식(예: Apache Parquet 및 Apache Avro)으로 Amazon S3에 데이터를 저장할 수 있습니다.
데이터 엔지니어는 Amazon EMR에서 Apache Hudi 지원을 사용하여 데이터 파이프라인을 개발할 수 있으며, 증분 데이터 관리는 물론 레코드 수준 삽입, 업데이트 및 삭제 작업이 필요한 데이터 프라이버시 사용 사례도 간소화할 수 있습니다. 이번 릴리스부터 고객은 Athena 쿼리를 실행하여 Hudi 데이터 세트의 읽기 최적화된 보기를 읽을 수 있습니다.
Hudi 테이블을 생성하여 쿼리를 실행하는 법에 대한 자세한 정보와 예제를 보려면 설명서를 참조하세요.