投稿日: Sep 24, 2020
Amazon Redshift で、オープンソースの Apache Hudi または Delta Lake を使用して Amazon S3 データレイク内のテーブルに対して読み込みクエリを実行できるようになりました。Amazon Redshift の機能である Amazon Redshift Spectrum を使用すると、初期のデータロードをする必要がなく、Redshif クラスターから直接 S3 データレイクに対してクエリを実行できるため、インサイトを得る時間を最小限にできます。
Redshift Spectrum は、ETL やデータのロードを必要とせず、Redshift、レイクハウス、および運用データベース全体でデータをクエリできるレイクハウスアーキテクチャを強化します。Redshift Spectrum は、Parquet、ORC、JSON、CSV などのオープンデータ形式をサポートしています。Redshift Spectrum は、構造、配列、マップなどの複雑なデータ型でネストされたデータのクエリもサポートしています。
Redshift Spectrum を使用して、Apache Hudi バージョン 0.5.2 コピーオンライト(CoW)テーブルの最新のスナップショットを読み込むことができ、マニフェストファイルを介して最新の Delta Lake バージョン 0.5.0 テーブルを読み込むことができます。
詳細については、Amazon Redshift Database Developer Guide の Apache Hudi または Delta Lake のCreating external table (外部テーブルの作成)のセクションを参照してください。