投稿日: Jan 21, 2022

Amazon EMR 6.5.0 に Apache Iceberg バージョン 0.12 が追加されたことをお知らせします。Apache Iceberg は、Amazon S3 内の大規模データセット用のオープンなテーブルフォーマットで、大規模テーブルに対する高速なクエリパフォーマンス、アトミックコミット、同時書き込み、SQL 互換の進化したテーブルを提供します。現在のリリースでは、EMR クラスター上で Apache Spark 3.1.2 を Iceberg テーブル形式で使用することができます。

Apache Iceberg は、データレイクに保存されたデータのためのオープンソースのテーブルフォーマットを提供し、データエンジニアがクエリのパフォーマンスを維持しながら、継続的に進化するデータセットを管理するなどの複雑な課題に対処できるよう支援します。Iceberg では、以下のことが可能になります。

  • ファイルをアトミックに追加、削除、変更できる複数のアプリケーション間で、完全な読み取り分離と複数の同時書き込みをすることによりテーブルのトランザクションの一貫性を維持する
  • テーブルの経時変化を追跡する完全なスキーマエボリューションを実装する
  • タイムトラベルクエリを発行して、履歴データを照会し、更新と更新の間の変化を確認する
  • テーブルを柔軟なパーティションレイアウトに編成し、パーティションを進化させて、物理ディレクトリに依存することなく、クエリやデータボリュームの変化に応じてパーティションスキームを更新できるようにする
  • テーブルを以前のバージョンにロールバックし、問題を迅速に修正し、テーブルを既知の良好な状態に戻す
  • 大規模なデータセット等に対するハイパフォーマンスなクエリにおいて、高度なプランニングやフィルタリングを実行する

Amazon EMR リリース 6.5.0 と Apache Iceberg は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、南米 (サンパウロ)、欧州 (アイルランド)、欧州 (ストックホルム)、AWS GovCloud (米国)、Sinnet が運営するアマゾン ウェブ サービス中国 (北京リージョン) 、NWCD が運営するアマゾン ウェブ サービス中国 (寧夏) リージョンで利用可能になり、今後数週間でさらに多くのリージョンが追加される予定です。

Amazon EMR での Apache Iceberg 使用の詳細については、こちらの Amazon EMR のドキュメントページを参照してください。