AWS Glue データカタログで Apache Iceberg テーブルの高度な自動最適化を提供

投稿日: 2024年12月19日

AWS Glue データカタログで、Apache Iceberg テーブルの高度な自動最適化が提供されるようになりました。今回の更新には、削除ファイルの圧縮、入れ子になったデータ型、部分的な進行のコミット、およびパーティション進化のサポートが含まれており、一貫して高性能なトランザクションデータレイクの維持が容易になります。これらの機能は、Apache Iceberg テーブルに継続的に取り込まれるストリーミングデータにより、データファイルの変更を追跡する削除ファイルが膨大になるというお客様が直面する課題に対処します。

この新機能により、Glue データカタログではテーブルパーティションの位置削除ファイルと等価削除ファイルを常にモニタリングし、圧縮プロセスを開始し、競合を減らすために部分的な進行を定期的にコミットします。Glue カタログオプティマイザでは、パーティション仕様の進化だけでなく、列の順序変更や名前変更時のスキーマ進化もサポートされるようになりました。さらに、Glue カタログでは、入れ子が多い複雑なデータのサポートと、Parquet 圧縮コーデック (zstd、brotli、lz4、gzip、snappy) のサポートが拡張されました。自動圧縮を有効にすると、Iceberg テーブルで削除ファイルとメタデータのオーバーヘッドが減り、クエリのパフォーマンスが向上します。これらの新機能は、既存および新規の Glue カタログのオプティマイザに自動的に適用されます。

お客様は、AWS コンソールのほか、AWS CLI または AWS SDK を使用して Apache Iceberg テーブルの最適化を自動化できます。この機能は、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド、ロンドン、フランクフルト、ストックホルム)、カナダ (中部)、アジアパシフィック (東京、ソウル、ムンバイ、シンガポール、シドニー)、南米 (サンパウロ) の 14 の AWS リージョンでご利用いただけます。詳細については、ブログをご一読のうえ、AWS Glue データカタログのドキュメントを参照してください。