Category: Storage*


S3 Select と Glacier Select – オブジェクトのサブセットを取得

Amazon Simple Storage Service (S3) は、各業界のマーケットリーダーが使用する数百万のアプリケーションのデータを保存しています。セキュアで耐久性のある非常に低コストのアーカイブストレージとして、これらの多くのお客様は Amazon Glacier も使用しています。S3 では、望むだけの数のオブジェクトを格納することができますし、個々のオブジェクトは最大5テラバイトとすることができます。オブジェクトストレージのデータは、通常1エンティティ全体としてアクセスされます。そのことは、例えば 5GB のオブジェクトに対してなんらかの要求をすれば、5GB 全てのデータ取得を行うことを意味します。これはオブジェクトストレージとしては自然なことです。

2017年11月29日、このパラダイムに挑戦すべく、S3とGlacierに2つの新機能を発表します。シンプルなSQL文を利用して、それらのオブジェクトから必要なバイトだけを引き出すことを可能としました。この機能により、S3やGlacierのオブジェクトにアクセスするすべてのアプリケーションが強化されます。

S3 Select

プレビューとして発表された S3 Select により、アプリケーションはシンプルなSQL文を用いて、オブジェクトからデータの一部分のみを取り出すことができます。アプリケーションが必要とするデータのみを取得するので、大幅なパフォーマンス向上が達成でき、400%ほどの改善が見込めることもあります。
(more…)

AWS Storage Gateway でファイルインターフェイス

AWS re:Invent のレビュー」といったブログカテゴリを追加した方がいいかもしれませんね。去年の 11 月、AWS Storage Gateway に重要な機能を追加しましたが、忙しすぎてその調査やブログを書く時間を取れずにいました。Storage Gateway は既存のアプリケーションと AWS Cloud の間に位置するマルチプロトコルストレージアプライアンスです。お使いのアプリケーションやクライアントオペレーティングシステムは (設定によりますが) ゲートウェイをファイルサーバー、ローカルディスクボリュームまたは仮想テープライブラリ (VTL) と見なします。その背景でゲートウェイはコスト効率が良く耐久性のある安全なストレージに Amazon Simple Storage Service (S3) を使用しています。Storage Gateway はデータをローカルでキャッシュし、帯域幅の管理機能を使用してデータ転送を最適化します。Storage Gateway はインストールや設定そして実行が簡単な自己完結型の仮想アプライアンスとして提供されています (詳細は「Storage Gateway のユーザーガイド (Storage Gateway User Guide) 」をご覧ください)。既存の環境でクラウドストレージのスケールや耐久性そしてコスト面におけるメリットを活用できます。既存のファイルやディレクトリを S3 に移動するプロセスを減らし、ドラッグアンドドロップ (または CLI ベースのコピー) でシンプルに移動できます。その他多くの AWS サービスと同様に、2012 年にリリースされてから Storage Gateway にいくつもの機能が追加されてきました (「AWS Storage Gateway – AWS クラウドストレージと既存のオンプレミスアプリケーションを統合 (The AWS Storage Gateway – Integrate Your Existing On-Premises Applications with AWS Cloud Storage)」)。Storage Gateway をリリースした時点で、ストレージボリュームの作成や iSCSI デバイスにアタッチできたほか、ボリュームすべてを保存したり、ゲートウェイでもっとも頻繁にアクセスされているデータのキャッシュを保存するオプションを提供します。そして、これらはすべて S3 でサポートされています。そしてその後、仮想テープライブラリのサポートを追加しました (「AWS Storage Gateway で仮想テープライブラリを作成 (Create a Virtual Tape Library Using the AWS Storage Gateway)」)。今年に入ってからは読み取り専用のファイル共有、ユーザーアクセス権限のスカッシュ、および追加/削除されたオブジェクトのスキャンを追加しました。新しいファイルインターフェイス AWS re:Invent で 3 つめのオプションをリリースしました。今回はそれについてご紹介します。オンプレミスサーバーやデスクトップにマウントできる仮想ファイルサーバーとして Storage Gateway を使用できるようになりました。データセンターまたはクラウドでセットアップが完了すると、設定済みのバケットを NFS マウントポイントとして利用できるようになります。アプリケーションは NFS 上でファイルの読み取りや書き込みを行うだけです。背景ではゲートウェイがネイティブにアクセスできる S3 バケットでこうしたオペレーションをオブジェクトレベルにします。ファイルゲートウェイを作成するには Storage Gateway コンソールにアクセスし [Get started] をクリックしてから [File gateway] を選択します。

VMware ESXi または Amazon EC2 のホストプラットフォームを選択します。

プレミスで Storage Gateway をホストし、永続的または一時的なクラウドへのブリッジとして使用するお客様が多くなるのではないかと思います。このオプションのユースケースには、バックアップ、移行、アーカイブ、分析、ストレージ階層化、大量のコンピューティングを伴うプロセスの簡略化が含まれています。クラウドにデータが入り次第、複数のストレージ階層化 (不定期なアクセスや Glacier はアーカイブに最適です)、ストレージ分析、タグ付けなど様々な S3 の機能を活用できるようになります。私のオンプレミスにはあまりデータがないので、このブログ用として EC2 インスタンスで Storage Gateway を実行します。インスタンスを起動し画面に表示される手順ごとに設定します。適切なインバウンドセキュリティグループルールを作成します (HTTP アクセスのポート 80 と NFS のポート 2049)。キャッシュとして使用するために汎用目的の SSD ストレージ 150 GiB を追加しました。

インスタンスが起動したら、そのパブリック IP アドレスを取得し、新に開始したゲートウェイと繋げるために使用します。

タイムゾーンを設定しゲートウェイの名前を指定したら [Activate gateway] をクリックします。

次にローカルストレージをキャッシュとして設定し [Save and continue] をクリックします。

ゲートウェイが実行され、コンソールでも表示されています。

次に [Create file share] をクリックし、NFS シェアを作成して S3 バケットと関連付けます。

ご覧のように、ここでストレージクラスを選択することができます (自分のニーズまたはユースケースに合わせて Standard または Standard – Infrequent Access を選択)。この時点でゲートウェイはバケットにファイルをアップロードする必要があります。[Create a new IAM role] をクリックすると、ロールとポリシーを作成できます (詳細は「Amazon S3 Destination にアクセス権限を付与する (Granting Access to an Amazon S3 Destination)」をご覧ください)。設定を確認し [Create file share] をクリックします。

ところで Root スカッシュは AWS Storage Gateway の機能で野菜の名前ではありません (念のため)。これが有効になっていると (デフォルトでは有効) root (user id 0) が所有するものとして到着したファイルは user id 65534 にマップされます (従来は nobody)。新しいファイルと新しいディレクトリにデフォルト権限をセットアップすることもできます。新しいシェアがコンソールで表示され、数秒で利用が可能になります。

コンソールに Linux、Microsoft Windows、macOS の適切なマウントコマンドが表示されます。このコマンドはインスタンスのプライベート IP アドレスを使用します。大方の場合、その代わりにパブリックアドレスの使用をおすすめします (説明の必要もないと思いますが、パブリック NFS シェアを作成する場合は慎重に行ってください。そして接続を許可している IP アドレスを詳細に管理することもお忘れなく)。S3 コンソールでバケットを調べます (jbarr-gw-1)。予想どおり空でした。

次に EC2 インスタンスでシェアをマウントし、いくつかのファイルをコピーします。

コンソールに戻ると、予想どおりバケット内に新しいフォルダ (jeff_code) を見つけることができます。その中にはシェアにコピーしたファイルがあります。

お分かりのように、ファイルは S3 に直接コピーされ、通常の S3 オブジェクトになっています。つまり、既存の S3 ツール、コード、分析を使用してプロセスできることを意味しています。以下の例をご覧ください。

  • 分析 – 新しい S3 メトリクスと分析を使用して、バケット全体またはその中のディレクトリツリーを分析することができます。
  • コードAWS LambdaAmazon Rekognition はイメージのアップロードをプロセスする場合に使用できます。アイデアやコードについては「サーバーレスの画像認識について (Serverless Photo Recognition)」をご覧ください。Amazon Elasticsearch Service を使用していくつかまたはすべてのファイルをインデックスしたり Amazon EMR で大量のデータをプロセスすることができます。
  • ツール – バケット内にある既存のオブジェクトをプロセスしたり、S3 API を使用して新しいオブジェクトを作成することができます。作成または削除を行うコードまたはスクリプトが RefreshCache 関数を呼び出し、バケットに関連しているゲートウェイのコンテンツを同期するようにします (同じバケットで複数の読み取り専用ゲートウェイにポイントすることで、マルチサイトデータディストリビューションワークフローを作成できます)。また、バックアップの送信先としてシェアを使用することで、ファイル中心のバックアップツールを活用することもできます。

ゲートウェイはファイルのメタデータすべてを S3 メタデータとして保存します (所有者、グループ、権限など)。

Storage Gateway リソース Storage Gateway の詳細については次をご参照ください。プレゼンテーション – 「AWS Storage Gateway の詳細について (Deep Dive on the AWS Storage Gateway)」: ホワイトペーパー – 「ハイブリッドアーキテクチャのファイルゲートウェイ – 概要とベストプラクティス (File Gateway for Hybrid Architectures – Overview and Best Practices)」: 最近のビデオ:

今すぐ利用可能
この優れた AWS 機能は去年の 11 月よりご利用可能になっています。

Jeff;

AWS ストレージの更新 – S3 と Glacier の値下げ + Glacier に追加された取得オプション

2006 年に、S3 のサービスを画期的な従量課金制 (月額 15 セント/GB の初期料金) で開始しました。以降、これまでの間に GB あたりの料金を 80% 値下げし、すべての AWS リージョンで S3 を開始しました。元の汎用モデルにはユーザー主導型の機能として、ウェブサイトのホスティングVPC の統合IPv6 のサポートなどが追加され、さらに S3 の低頻度アクセスなどの新しいストレージオプションも追加されました。AWS の多くのお客様は、法的、コンプライアンス、その他の目的で重要なデータをアーカイブしますが、このようなデータは滅多に参照することがないため、2012 年に Glacier を発表しました。そして、ライフサイクルのルールを使用して S3、S3 の低頻度アクセス、Glacier の間でデータを転送する機能を提供しました。ここでは、2 つのビッグニュースを紹介します。まず、S3 の標準ストレージと Glacier ストレージの料金が値下げになります。さらに、Glacier に新しい取得オプションが追加されます。

S3 と Glacier の値下げ
AWS を長くご利用いただいているお客様はご存じだと思いますが、AWS では絶えずコスト削減に取り組んでおり、その結果を AWS の値下げという形でお客様に還元しています。S3 の標準ストレージの GB あたりの料金は、ほとんどの AWS リージョンで 2016 年 12 月 1 日より値下げになります。12 月の使用量に対する請求には、自動的に値下げ後の新料金が反映されます。標準ストレージの新料金は以下のとおりです。

リージョン 0〜50 TB (USD / GB / 月) 51〜500 TB (USD / GB / 月) 500+ TB (USD / GB / 月)
  • 米国東部(バージニア北部)
  • 米国東部 (オハイオ)
  • 米国西部 (オレゴン)
  • 欧州 (アイルランド)

(値下げ幅は 23.33%〜23.64%)

0.0230 USD 0.0220 USD 0.0210 USD
  • 米国西部(北カリフォルニア)

(値下げ幅は 20.53%〜21.21%)

0.0260 USD 0.0250 USD 0.0240 USD
  • 欧州 (フランクフルト)

(値下げ幅は 24.24%〜24.38%)

0.0245 USD 0.0235 USD 0.0225 USD
  • アジアパシフィック (シンガポール)
  • アジアパシフィック (東京)
  • アジアパシフィック (シドニー)
  • アジアパシフィック (ソウル)
  • アジアパシフィック (ムンバイ)

(値下げ幅は 16.36%〜28.13%)

0.0250 USD 0.0240 USD 0.0230 USD

上の表を見ておわかりのように、料金体系も 6 段階から新しい 3 段階に簡略化されます。Glacier のストレージの料金もほとんどの AWS リージョンで値下げになります。たとえば、US East (Northern Virginia)US West (Oregon)、または Europe (Ireland) リージョンで 1 GB を 1 か月保存した場合の料金はわずか 0.004 USD (1 セントの半分未満) であり、43% の値下げになります。参考までに、同じ量のストレージは 2012 年の Glacier の開始時では 0.010 USD であり、前回の Glacier の値下げ (30%) 時では 0.007 USD でした。料金の値下げは、お客様が AWS を信頼して何兆というオブジェクトを利用された直接の結果です。ただし、利点はそれだけではありません。新しい機能に関して寄せられたフィードバックによると、クラウドストレージプラットフォームの真価は迅速で安定した進化にあります。お客様からは、お客様のニーズを事前に把握し、そのニーズに応じた新しい機能を提供している点を評価できるとよく言われます。

Glacier の新しい取得オプション
AWS の多くのお客様は、Amazon Glacier を階層化ストレージアーキテクチャのアーカイブ用コンポーネントとして利用しています。Glacier を使用すると、コンプライアンス要件 (組織または規制の要件) を満たしながら、必要なだけクラウドベースの処理能力を引き出してデータを処理し価値を取り出すことができます。Glacier には、データを取り出すための新しいオプションが 2 つ追加されました。データの取得を急ぐ場合は、少しのコスト負担で緊急オプションを利用できます。急がない場合は、より低価格の取得オプションを利用できます。Glacier に保存したデータの量とそれを取り出す頻度に基づいて、新しい料金体系を導入しました。この変更は AWS でのサービスの提供コストを正確に反映した結果ですが、説明しようとすると少し複雑です。これからは従量ベースの取得料金が、よりシンプルな GB あたりの料金に変ります。メディアおよびエンターテインメント業界のお客様は、テレビ映像を Glacier にアーカイブします。緊急事態が発生して特定の画像を取り出すために分を争うような場合、画像にすばやくコスト効率よくアクセスする必要があります。医療関係のお客様は、「患者を待たせている間に」アーカイブされた医療画像やゲノム情報にすばやくアクセスする必要があり、衛星データを販売するフォトアーカイブ企業も似たような必要性に迫られます。一方、データの取り出しを事前にスケジュールできて、5〜12 時間以内にデータを取得できれば問題ないというお客様もいます。以上のような状況を応じて、Glacier からデータを取り出す際に、以下のオプションを使い分けることができます (これまでの従量制の取得モデルは今後適用されません)。

標準取得は、Glacier が従来提供していたオプションの新しい名前であり、API 駆動のすべての取得リクエストに対するデフォルトです。データは数時間 (通常 3〜5 時間) で取得されます。料金は 0.01 USD/GB、0.05 USD/1,000 リクエストです。

緊急取得は、迅速対応アクセスのニーズに対処します。データはすばやく取得されます。通常、所要時間は 1〜5 分です。Glacier に 100 TB を超えるデータを保存 (または保存を計画) し、頻度は低いが急いでデータのサブセットをリクエストするような状況には、このオプションが最適です (データ量が少ない場合は、S3 の頻繁にアクセスしないストレージクラスがより適切なオプションです)。取得コストは 0.03 USD/GB、0.01 USD/リクエストです。

通常、取得の所要時間は 1〜5 分です (全体の需要により異なります)。まれに需要が非常に多い場合でも、この所要時間内にデータを取り出す必要がある場合は、取得容量をプロビジョニングすることができます。プロビジョニングを行うと、すべての緊急取得のデータは自動的にプロビジョンド容量を経由して取得されます。プロビジョンド容量の各ユニットは月額 100 USD です。これにより、5 分ごとに最低 3 回の緊急取得を行うことができます。取得スループットは最大 150 MB/秒です。

一括取得は、事前にスケジュールできる場合や緊急でない場合に最適です。通常、取得の所要時間は 5〜12 時間。料金は 0.0025 USD/GB (標準取得の 75% 未満)、0.025 USD/1,000 リクエストです。一括取得は、大量のデータを 1 日以内に取得する場合に最適です。さらに数時間を余分に待機できる場合は、大きな割引も得られます。

アーカイブを取り出す際に、どの取得オプションも指定しないで InitiateJob を呼び出すと、標準取得が開始されます。既存のジョブは引き続き正常に動作し、新料金が課金されます。詳細については、データ取り出し (よくある質問 – Glacier) を参照してください。これまで同様、嬉しいニュースでした。同じように喜んでいただければ幸いです。

Jeff;

新たに HIPAA に対応の AWS Snowball

最近では、かかりつけの医師、歯科医、病院、その他のヘルスケアプロバイダーなどが多くのツールやテクノロジーを使用して機密性の高いデジタルデータを大量に生成しています。その他にも大量に生成されているデータには、ゲノム配列や数々のアクティビティ、フィットネストラッカーなどがあります。このように大量に押し寄せるデータから有益な情報を得たいと多くの人々が考えていますが、それと同時にこの種の情報が安全に保護された状態で保存され、責任ある方法で処理されることを望んでいます。米国では HIPAA (医療保険の携行性と責任に関する法律) がヘルスケアデータの保護を統制しています。多くの AWS ユーザーは、機密性の高いヘルスケアデータをクラウドに保存し処理できることを望んでいます。そこで AWS では HIPAA を対象とする複数の AWS サービスを提供することにしました。つまり、こうしたサービスを利用して保護医療情報 (PHI) を処理したり、HIPAA 対応のアプリケーションを構築することができます (Cleveland Clinic、Orion Health、Eliza、Philips、その他 AWS ユーザーの使用事例については HIPAA in the Cloud をご覧ください)。去年ご紹介した AWS Snowball について簡単にご説明します。これは AWS が所有するストレージアプライアンスで、大量のデータ (通常 10 テラバイト以上) を 1 回限りまたは定期的に AWS に移動するために使用する機能です。AWS Management Console から Snowball をリクエストし、届き次第ネットワークに接続してデータを Snowball にコピーします。その後、AWS に送り戻せばこちらでそのデータをお客様が選択された AWS ストレージサービスにコピーします。Snowball はユーザーが指定し管理するキーを使用してデータを暗号化します。そして本日、AWS は Amazon DynamoDBAmazon Elastic Compute Cloud (EC2)Amazon Elastic Block Store (EBS)Elastic Load BalancingAmazon EMRAmazon GlacierAmazon Relational Database Service (RDS) (MySQL と Oracle)、Amazon RedshiftAmazon Simple Storage Service (S3) に続き Snowball を HIPAA 対象サービスのリストに追加しました。これにより対象サービス数は 10 件となりました。PHI やその他さまざまな機密性の高いデータを保存する場所として、安全で信頼性が高い AWS クラウドの提供に力を入れていることをお分かりいただけると思います。すでに AWS と事業提携契約 (BAA) を結んでいる場合は、今すぐ Snowball を使用して HIPAA アカウントにデータを移動することができます。HIPAA の対象サービスに Snowball が加わったことで、ヘルスケアやライフサイエンスにかかわる AWS のお客様はオンプレミスデータをすばやく Snowball に移動させ、上述したサービスのいずれかを使用してデータを処理することができます。たとえば、新しい HDFS のインポート機能を使用して、既存のオンプレミス Hadoop クラスターをクラウドに移動しスケーラブルな EMR クラスターを使用して分析することができます。また、既存のペタバイトスケールデータ (医療画像データ、患者記録など) を AWS に移動して HIPAA 対象の S3 または Glacier に保存することもできます。こうした実績があり使いやすいサービスは優れたデータ耐久性を備え、安価でご提供しています。

Jeff;