投稿日: Dec 4, 2018
Apache Parquet のファイル形式で Amazon S3 インベントリレポートを取得することができるようになりました。Amazon S3 インベントリは、バケットまたは共有プレフィックスのオブジェクトおよび選択されたメタデータのフラットファイルのリストを提供します。S3 インベントリを使用すると、オブジェクトのステータスのリスト、監査、レポートを実行したり、ビジネスワークフローやビッグデータのジョブを簡素化してスピードアップすることができます。
Parquet は ORC (Optimized Row-Columnar) に類似する列指向のストレージファイル形式で、データ処理フレームワーク、データモデル、プログラミング言語の選択に関係なく、Hadoop エコシステムのすべてのプロジェクトに利用できます。列指向形式では、現在のクエリに必要な列だけを読み取り、解凍、処理することができます。Amazon Athena や Amazon Redshift Spectrum などの AWS のサービス、または Apache Hive、Spark、HBase、Presto などのツールを使用して S3 インベントリをクエリする場合は、クエリパフォーマンスの迅速化とクエリコストの削減のために、Parquet または ORC に S3 インベントリレポートを設定することをお勧めします。
S3 インベントリの Parquet 形式は、すべての商用 AWS リージョンおよび AWS GovCloud リージョンで利用できます。AWS マネジメントコンソールにアクセスするか、S3 API、CLI、SDK を使用して S3 インベントリを設定すると操作を開始できます。