Amazon EMR 7.12 が Apache Iceberg v3 テーブル形式のサポートを開始
Apache Iceberg 1.10 を使用した新しい Apache Iceberg v3 テーブルフォーマットをフィーチャーした Amazon EMR 7.12 が利用可能になりました。このリリースにより、データを削除するときのコストを削減し、行レベルの変更をより適切に追跡することでガバナンスとコンプライアンスを強化し、よりきめ細かなデータアクセス制御によるデータセキュリティの強化を実現できます。
Iceberg v3 では、ファイル全体を書き換えることなく削除された行にマークを付けるため、データをコスト効率よく削除できます。これにより、ストレージコストを削減しながらデータパイプラインを高速化できます。各行の作成履歴と変更履歴を自動的に追跡し、規制要件や変更データの収集に必要な監査証跡を作成することで、ガバナンスとコンプライアンス機能を強化できます。テーブルレベルの暗号化によりデータセキュリティを強化できるため、最も機密性の高いデータのプライバシー規制を満たすのに役立ちます。
今回のリリースに含まれている Apache Spark 3.5.6 では、これらの Iceberg 1.10 機能を活用して Amazon S3 上に堅牢なデータレイクハウスアーキテクチャを構築できます。このリリースには、AWS Lake Formation を使用した Iceberg テーブル全体のデータガバナンス運用のサポートも含まれています。さらに、このリリースには Apache Trino 476 も含まれています。
Amazon EMR 7.12 は、Amazon EMR をサポートするすべての AWS リージョンで利用できます。Amazon EMR 7.12 リリースの詳細については、Amazon EMR 7.12 リリースドキュメントを参照してください。