게시된 날짜: Sep 24, 2020
이제 오픈 소스 Apache Hudi 또는 Delta Lake에서 Amazon Redshift를 사용하여 Amazon S3 데이터 레이크의 테이블에 대해 읽기 쿼리를 실행할 수 있습니다. Amazon Redshift의 기능인 Amazon Redshift Spectrum은 먼저 데이터를 로드할 필요 없이 Redshift 클러스터에서 바로 S3 데이터 레이크를 쿼리하도록 지원하므로 인사이트를 더 빠르게 확보할 수 있습니다.
Redshift Spectrum은 ETL을 수행하거나 데이터를 로드할 필요 없이 Redshift, 레이크 하우스, 운영 데이터베이스에서 데이터를 쿼리할 수 있는 레이크 하우스 아키텍처를 지원합니다. Redshift Spectrum은 Parquet, ORC, JSON 및 CSV와 같은 오픈 데이터 형식을 지원합니다. 또한, Redshift Spectrum은 struct, array 또는 map과 같은 복잡한 데이터 유형을 가진 중첩 데이터에 대한 쿼리를 지원합니다.
Redshift Spectrum에서는 Apache Hudi 버전 0.5.2 CoW(Copy-on-Write) 테이블의 최신 스냅샷을 읽을 수 있으며 매니페스트 파일을 통해 Delta Lake 버전 0.5.0 테이블을 읽을 수 있습니다.
자세히 알아보려면 Apache Hudi의 외부 테이블 생성 또는 Amazon Redshift 데이터베이스 개발자 안내서에서 Delta Lake를 참조하십시오.