投稿日: Sep 5, 2018

Amazon S3 が S3 Select に機能の強化を発表しました。S3 Select は、オブジェクトから必要なデータのみを抽出するよう設計された Amazon S3 機能で、パフォーマンスを大幅に改善し、S3 のデータへのアクセスに必要なアプリケーションのコストを削減することができます。

本日から、Amazon S3 Select は CSV と JSON フォーマットで保存されたオブジェクトに使えます。お客様の声に基づいて、S3 Select は Apache Parquet フォーマット、JSON Array、CSV と JSON オブジェクトに対する BZIP2 圧縮をサポートするようにしました。また、S3 Select に対する CloudWatch Metrics へのサポートも加え、アプリケーションでの S3 Select の使用をモニターします。 

Parquet は、Hive、Presto、Impala などの幅広いクエリエンジンや、Spark や MapReduce などの複数のフレームワークをサポートするために広く使われています。S3 Select Parquet では S3 Select を用いて S3 に保存されたデータから特定のコラムを取得でき、GZIP または Snappy を用いた列指向圧縮をサポートします。結果には CSV または JSON フォーマットを指定でき、また結果中のレコードをどのように区切るかをユーザーが決定できます。 

JSON Array をサポートしていますので、JSON オブジェクト中のノードを反復できます。これらのネストされた JSON オブジェクトは S3 Select クエリの FROM クローズ内でパスナビゲーションを指定することでクエリできます。

BZIP2 はテキストデータの圧縮に広く使われている圧縮フォーマットで、他の多くの圧縮アルゴリズムよりも通常より効率的です。

S3 に対する CloudWatch メトリクスでは、アプリケーションの健全性を追跡できます。これらのメトリクスは 1 分間間隔で使用でき、オペレーション上の問題をすばやく特定し、これに対処できます。新しい S3 Select に固有のメトリクスには S3 Select リクエスト数、スキャンしたデータ量、返されたデータ量などがあります。

これらの Amazon S3 Select 向けの機能は、本日より、すべての商用 AWS リージョンで利用できます。

Amazon S3 Select に着いての詳細は、Amazon S3 開発者ガイドのオブジェクトからのコンテンツの選択ページをご覧ください。S3 に対する Amazon CloudWatch Metrics の詳細については、Amazon S3 開発者ガイドのAmazon CloudWatch でのメトリクスのモニタリング ページをご覧ください。使用を開始するには、AWS マネジメントコンソールを参照してください。