Amazon S3 が Apache Iceberg テーブルにおいて Apache Avro 形式と ORC 形式での圧縮のサポートを開始
Amazon S3 では圧縮のサポートが拡張され、Apache Iceberg テーブル向けに Apache Avro 形式と ORC 形式が追加されました。これにより、既存の Parquet 形式の機能が補完されました。この機能強化は、S3 Tables と AWS Glue データカタログ最適化を使用する汎用 S3 バケットの両方で機能します。
Parquet は Iceberg テーブルのデフォルト形式ですが、特定のワークロード用に Avro または ORC 形式でデータを書き込むこともできます。例えば、Avro を使用すると、毎日の購入取引、センサーデータのストリーミング、広告インプレッションの収集など、データ取り込みやストリーミングのユースケースにおいて書き込みパフォーマンスを向上させることができます。S3 Tables は、自動的に複数の小さなファイルを圧縮して大きなファイルを作成し、スキャンデータを最小限に抑え、クエリのパフォーマンスを向上させ、コストを削減します。デフォルトでは、圧縮処理によって Avro ファイルと ORC ファイルが Parquet に変換されて最適な読み取りパフォーマンスが実現しますが、テーブルプロパティで任意のターゲット形式を指定することもできます。
Apache Avro および ORC 形式の圧縮のサポートは、S3 Tables や AWS Glue データカタログを使用した最適化が利用できるすべての AWS リージョンで提供されるようになりました。S3 Tables の圧縮の詳細については、S3 Tables のメンテナンスに関するドキュメントを参照してください。汎用バケットの最適化については、AWS Glue データカタログを使用した最適化に関するドキュメントを参照してください。