投稿日: Nov 15, 2023
AWS Glue データカタログでは Apache Iceberg テーブルの自動圧縮のサポートを開始しました。これにより、以前よりも簡単にトランザクションデータレイクのパフォーマンスを常に維持できるようになりました。Apache Iceberg テーブルで自動圧縮を有効にすると、Iceberg テーブルに対するメタデータのオーバーヘッドが減り、クエリパフォーマンスが向上します。
Apache Iceberg はオープンテーブルフォーマットで、データレイク内の大きなテーブルに対して高速なクエリパフォーマンスを提供します。Apache Iceberg は Amazon S3 のメタデータでテーブルのデータファイルを追跡します。テーブルの変更が増えると、作成されるデータファイルが増え、クエリの効率が低下する可能性があります。パフォーマンスを向上させ、コストを抑えるために、これまでは小さなファイルを定期的に圧縮するカスタムデータパイプラインを作成する必要がありました。このようなカスタムパイプラインの構築には時間とコストがかかります。今回のリリースでは、AWS Glue データカタログで Apache Iceberg テーブルの自動圧縮を提供します。自動圧縮を有効にすると、AWS Glue データカタログが新しいデータ書き込みを継続的にモニタリングし、基盤となる Amazon S3 ストレージで小さなファイルを追跡し、バックグラウンドで圧縮ジョブを自動的にトリガーします。このとき、ユーザーは何も入力する必要はありません。Iceberg テーブルに合わせて Amazon S3 のレイアウトが常に最適化されるため、データレイクの読み取りパフォーマンスが向上します。
お客様は、AWS コンソールだけでなく、AWS CLI または AWS SDK でも Apache Iceberg テーブルの圧縮を自動的に有効にできます。詳細については、こちらをご覧ください。