AWS でのデータレイクストレージ

最も安全で耐久性に優れたスケーラブルなストレージでデータレイクを構築

Amazon Simple Storage Service (S3) は、構造化データと非構造化データ向けの最大級かつ最もパフォーマンスに優れたオブジェクトストレージサービスであり、データレイクの構築に最適のストレージサービスです。Amazon S3 を使用すると、99.999999999% (イレブンナイン) の耐久性でデータを保護する安全な環境で、あらゆるサイズのデータレイクをコスト効率よく構築し、スケールすることができます。

Amazon S3 に構築されたデータレイクでは、ネイティブの AWS のサービスを利用して、ビッグデータ分析、人工知能 (AI、Artificial Intelligence)、機械学習 (ML、Machine Learning)、ハイパフォーマンスコンピューティング (HPC)、ならびにメディアデータ処理を行うアプリケーションを実行し、非構造化データセットから洞察を得ることができます。Amazon FSx for Lustre を使用すると、HPC および ML アプリケーションを実現するファイルシステムを起動し、大きなメディアワークロードをデータレイクから直接処理することができます。Amazon パートナーネットワーク (APN、Amazon Partner Network) からの任意の分析、AI、ML、HPC アプリケーションを使えるという柔軟性もあります。Amazon S3 は幅広い機能をサポートしているので、IT マネージャー、ストレージ管理者、およびデータサイエンティストは、S3 データレイク全体で、アクセスポリシーを適用したり、大規模にオブジェクトを管理したり、アクティビティを監査したりすることができます。

Amazon S3 は、Netflix、Airbnb、Sysco、Expedia、GE、FINRA などよく知られたブランドの 10,000 を超えるデータレイクをホストしています。これらのブランドではデータレイクを使い、必要に応じて安全なスケーリングを行ったり、分単位でビジネスインサイトを発見したりしています。

S3 データレイクを使った非構造化データの保存と分析

データレイクを Amazon S3 に構築する理由

Amazon S3 は 99.999999999% (イレブンナイン) のデータ耐久性を実現するよう設計されています。このレベルの耐久性では、Amazon S3 に 10,000,000 件のオブジェクトを保存する場合、10,000 年に 1 件のオブジェクトしか失われないと考えることができます。 このサービスでは自動的に、複数のシステムをまたいで、アップロードされたすべての S3 オブジェクトのコピーが作成され保存されます。つまり、データは必要に応じて利用することができるうえ、障害やエラー、脅威から保護されているということです。

Data-Lake-Storage-Infrastructure
設計によるセキュリティ
最もデータの機密性を重要視する組織向けに設計されたインフラストラクチャによるデータ保護

オンデマンドのスケーラビリティ
ストレージ容量を瞬時にスケールアップ、時間のかかるリソース調達サイクルは不要

AWS アベイラビリティーゾーン全体の障害に対する耐久性
データのコピーは自動的に 3 つ以上のアベイラビリティーゾーン (AZ、Availability Zone) をまたいで保存されます。 耐障害性を提供するため、アベイラビリティーゾーン同士は数マイル離れています (ただし、低レイテンシーを保証するため 100 マイル以内です)。

分析、HPC、AI、ML、メディアデータ処理を実現する AWS のサービス
AWS ネイティブサービスを利用してデータレイクでアプリケーションを実行

サードパーティーサービスプロバイダーとの統合
S3 データレイクに APN から任意の分析プラットフォームを持ち込むこともできます。

幅広いデータ管理機能
包括的な柔軟性により、S3 データレイク全体で、大規模に管理しつつオブジェクトレベルで運用し、アクセスを設定し、コスト効率を実現し、データを監査します。

データレイク全体で AWS のサービスを使用

S3 データレイクでは、多数の AWS 分析アプリケーション、AI/ML サービス、およびハイパフォーマンスファイルシステムにアクセス可能です。つまり、追加のデータ処理や他のストアへの転送なしに、データレイク全体で多数のワークロードを実行できるということです。S3 データレイクには、任意のサードパーティー製の分析ツールや機械学習ツールを持ち込むこともできます。 

AWS Lake Formation (プレビュー版) を使用して、数か月ではなく数日でデータレイクを構築

AWS Lake Formation により、安全なデータレイクを数か月ではなく数日で作成することができます。AWS Lake Formation では、データの場所と、適用するデータアクセスおよびセキュリティポリシーを定義するだけです。Lake Formation はさまざまなソースからデータを収集し、それを Amazon S3 の新しいデータレイクに移動します。サービスが機械学習アルゴリズムを使用してデータをクリーニングし、カタログ化し、分類して、アクセスコントロールポリシーを定義できるようにします。その後、ユーザーは、利用可能なデータセットと利用条件をリスト化した、一元化されたデータカタログにアクセス可能になります。

AWS Lake Formation の詳細とプレビューへのサインアップはこちら »

AWS Lake Formation の発表

データを移動することなく AWS 分析アプリケーションを実行

S3 データレイクにデータがあれば、ペタバイト規模のデータセットの分析から単一オブジェクトのメタデータのクエリまで、さまざまなユースケースに以下の専用分析サービスをどれでも使用することができます。S3 データレイクを利用すると、大量のリソースや時間を要する抽出、変換、ロード (ETL、Extract, Transform, and Load) ジョブなしに、分析を行うことができます。S3 データレイクに任意の分析プラットフォームを採用することもできます。

 

Tech Trends — データレイクと分析
product-icon_Amazon_Athena_icon_squid_ink
Amazon Athena

S3 データレイクのデータセットに対し、単純な SQL 式を使用して迅速にクエリを実行し、数秒で結果を取得できます。Athena はアドホッククエリに最適であり、クラスター管理を必要としませんが、大きな結合、ウィンドウ関数、配列などの複雑な分析も処理できます。

product-icon_Amazon_EMR_icon_squid_ink
Amazon EMR

Spark や Hadoop など、任意のオープンソースの分散フレームワークで、S3 データを分析できます。EMR クラスターを数分で起動してスケールできます。ノードのプロビジョニング、クラスターの設定とチューニング、Hadoop の設定は不要です。また、同じデータセットで並行して複数のクラスターを実行できます。

product-icon_AWS_Glue_icon_squid_ink
AWS Glue

S3 データレイク全体の ETL ジョブを単純化し、データを検索とクエリで使用できるようにできます。AWS コンソールからクリック数回でデータソースを登録すると、AWS Glue がデータをクロールし、メタデータを使ってデータカタログを構築します (テーブル定義とスキーマ用)。

REDSHIFT SPECTRUM
Amazon Redshift Spectrum

Redshift に移行することなく、SQL 式を使用して、S3 のエクサバイト単位のデータに複雑なクエリを迅速に実行します。同じデータセットで平行して複数のクラスターを実行できます。Redshift を現在お使いのお客様は、この機能を使用して Amazon S3 の非構造化データに分析を拡張できます。


S3 に保存したデータで AI および Machine Learning ジョブを起動する

Amazon Comprehend、Amazon Forecast、Amazon Personalize、Amazon Rekognition といった AWS AI サービスを迅速に起動し、非構造化データセットからのインサイトの発見、正確な予測の取得、レコメンデーションマシンの作成、S3 に保存した画像および動画の分析を行うことができます。また、Amazon Sagemaker をデプロイし、S3 に保存したデータセットで迅速に ML モデルを構築、トレーニング、デプロイすることも可能です。


S3 Select でデータをすぐにクエリする

S3 Select を使用すると、アプリケーションでは、オブジェクト内にあるデータのフィルタリングやデータへのアクセスといった手間のかかる作業を S3 にオフロードすることが可能になります。S3 Select では、オブジェクトを別のデータストアへ移動することなくオブジェクトのメタデータのクエリが可能です。アプリケーションでロードおよび処理しなければならないデータ量を減らすことで、S3 Select は S3 のデータに頻繁にアクセスするほとんどのアプリケーションのパフォーマンスを最大で 400% 改善し、80% ものクエリコストを削減することができます。

S3 Select は APN パートナーと同様、Amazon EMR での Spark、Hive および Presto、Amazon Athena、Amazon Redshift で使用可能です。

S3 Select の詳細 »

S3 Select でデータをすぐにクエリ

データをファイルシステムに接続し、高パフォーマンスのワークロードを実現する

Amazon FSx for Lustre では、機械学習、ハイパフォーマンスコンピューティング (HPC)、ビデオ処理、財務モデリング、電子設計オートメーション (EDA、Electronic Design Automation) などのワークロードの高速処理用に最適化された、S3 データレイクとネイティブに連携するハイパフォーマンスファイルシステムが提供されます。 S3 データへのアクセスレイテンシーがミリ秒未満になり、最大数百ギガバイト/秒 (GBps、Gigabyte Per Second) のスループットと数百万 IO/秒 (IOPS、IO Per Second) の速度でデータを読み書きできるファイルシステムを、数分で起動できます。 S3 バケットとリンクさせると、FSx for Lustre ファイルシステムは S3 オブジェクトをファイルとして透過的に表示します。これにより結果を S3 に書き込むことができます。

Amazon FSx for Lustre の詳細 »

Amazon FSx for Lustre の概要

S3 の機能を使用してデータレイクをコスト効率良く管理する

幅広い機能を備えた Amazon S3 は、サイズや目的を問わず、データレイクの構築 (またはプラットフォーム再編) および管理を行うための理想的なサービスです。オブジェクト、バケット、アカウントレベルでのデータ管理、わずか数クリックによる何百億ものオブジェクトにおよぶ変更、きめ細かいデータアクセスポリシーの設定、多数のストレージクラスにわたるオブジェクトの保存によるコスト削減、そして S3 リソース全体の全アクティビティの監査が可能な、唯一のクラウドストレージサービスです。

データレイク全体の全レベルでデータ管理

Amazon S3 では、バケットおよびアカウントレベルではもちろん、オブジェクトレベルの詳細度でデータを管理できます。オブジェクトにメタデータタグを追加したり、ビジネスに合った方法でタグを利用してデータを整理したりすることが可能です。また、オブジェクトをプレフィックスやバケットごとに整理することもできます。こうした機能により、1 つまたは複数のオブジェクトに迅速に指定してリージョン間でレプリケートしたり、アクセスを制限したり、安価なストレージクラスに転送したりというタスクを行うことができます。

わずか数クリックで数十億ものオブジェクトにアクションを実行する

S3 バッチオペレーションにより、1 回の API リクエスト、または S3 マネジメントコンソールで数回クリックするだけで、数十億ものオブジェクトにアクションを実行したり、リクエストの進捗情報を監査したりすることができます。オブジェクトプロパティとメタデータの変更、バケット間のオブジェクトのコピー、タグセットの置き換え、アクセスコントロールの設定、S3 Glacier からのアーカイブ復元、AWS Lambda 関数の呼び出しを、数か月もかけずに数分で行えます。

機密データに対するポリシーをきめ細かく設定する

バケットポリシー、オブジェクトタグ、アクセスコントロールリスト (ACL) を使用して特定のバケットやオブジェクトへのアクセスを制限できます。また、AWS Identity and Access Management を使用して AWS アカウント内のユーザーアクセスを定義することも可能です。データへのすべてのアクセスリクエストをブロックする必要がある場合、S3 ブロックパブリックアクセスを設定し、オブジェクトの特定のバケットまたは AWS アカウント全体の「パブリックアクセスなし」ポリシーを適用することができます。

S3 ストレージクラスをまたいでオブジェクトをコスト効率良く保存する

S3 のすべてのユーザーは、コストに応じてさまざまなアクセス要求に対応するよう設計された、6 つのストレージクラスにわたってデータを保存できます。S3 ストレージクラス分析を使用してデータへのアクセスパターンを理解するこれにより、アクセス頻度の低いオブジェクトを安価なクラスに転送するか、S3 Glacier または S3 Glacier Deep Archive にアーカイブするようライフサイクルポリシーを設定し、削減効果を最大限に高めることができます。

S3 リソースとその他アクティビティへのすべてのアクセスリクエストを監査する

S3 レポートツールでは、誰がどのデータにどこからアクセスをリクエストしているのかの迅速な把握、オブジェクトメタデータ (ストレージクラス、保持日、ビジネスユニット、暗号化ステータスなど) の監査、使用状況とコストのモニタリング、アクセスパターンの理解など、S3 リソースに関連するアクティビティを実行できます。これらのインサイトは、データレイクやデータレイクに依存するアプリケーションの最適化、コスト削減に役立てることができます。

どこよりも多くのデータレイクが AWS で構築

始める準備はできましたか?

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS アカウントにサインアップする
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Amazon S3 の使用開始
Product-Page_Standard-Icons_03_Start-Building_SqInk
AWS でデータレイクをデプロイする

Amazon S3 でデータレイクの構築を開始する

データレイクを構築する
ご不明な点がありますか?
お問い合わせ