Amazon Simple Storage Service (S3) は、構造化データと非構造化データ向けの最大級かつ最もパフォーマンスに優れたオブジェクトストレージサービスであり、データレイクの構築に最適のストレージサービスです。Amazon S3 を使用すると、99.999999999% (イレブンナイン) の耐久性でデータを保護する安全な環境で、あらゆるサイズのデータレイクをコスト効率よく構築し、スケールすることができます。
Amazon S3 に構築されたデータレイクでは、ネイティブの AWS のサービスを利用して、ビッグデータ分析、人工知能 (AI、Artificial Intelligence)、機械学習 (ML、Machine Learning)、ハイパフォーマンスコンピューティング (HPC)、ならびにメディアデータ処理を行うアプリケーションを実行し、非構造化データセットから洞察を得ることができます。Amazon FSx for Lustre を使用すると、HPC および ML アプリケーションを実現するファイルシステムを起動し、大きなメディアワークロードをデータレイクから直接処理することができます。Amazon パートナーネットワーク (APN、Amazon Partner Network) からの任意の分析、AI、ML、HPC アプリケーションを使えるという柔軟性もあります。Amazon S3 は幅広い機能をサポートしているので、IT マネージャー、ストレージ管理者、およびデータサイエンティストは、S3 データレイク全体で、アクセスポリシーを適用したり、大規模にオブジェクトを管理したり、アクティビティを監査したりすることができます。
Amazon S3 は、Netflix、Airbnb、Sysco、Expedia、GE、FINRA などよく知られた家庭用ブランドの 10,000 を超えるデータレイクをホストしています。これらのブランドではデータレイクを使い、必要に応じて安全なスケーリングを行ったり、分単位でビジネスインサイトを発見したりしています。
データレイクを Amazon S3 に構築する理由
Amazon S3 は 99.999999999% (イレブンナイン) のデータ耐久性を実現するよう設計されています。このレベルの耐久性では、Amazon S3 に 10,000,000 件のオブジェクトを保存する場合、10,000 年に 1 件のオブジェクトしか失われないと考えることができます。 このサービスでは自動的に、複数のシステムをまたいで、アップロードされたすべての S3 オブジェクトのコピーが作成され保存されます。つまり、必要に応じてデータを利用することができるため、障害やエラー、脅威から保護することができます。

オンデマンドのスケーラビリティ
ストレージ容量を瞬時にスケールアップ、時間のかかるリソース調達サイクルは不要
AWS アベイラビリティーゾーン全体の障害に対する耐久性
データのコピーは自動的に 3 つ以上のアベイラビリティーゾーン (AZ、Availability Zone) をまたいで保存されます。 耐障害性を提供するため、アベイラビリティーゾーン同士は数マイル離れています (ただし、低レイテンシーを保証するため 100 マイル以内です)。
分析、HPC、AI、ML、メディアデータ処理を実現する AWS のサービス
AWS ネイティブサービスを利用してデータレイクでアプリケーションを実行
サードパーティーサービスプロバイダーとの統合
S3 データレイクに APN から任意の分析プラットフォームを持ち込むこともできます。
幅広いデータ管理機能
包括的な柔軟性により、S3 データレイク全体で、大規模に管理しつつオブジェクトレベルで運用し、アクセスを設定し、コスト効率を実現し、データを監査します。
データレイクでビッグデータの課題を解決する
すべての業界でのあらゆる規模の組織が、データレイクを使用して、データを管理が必要なコストから貴重なビジネス資産に変換しています。データレイクは、組織レベルでデータを理解するための基盤です。データレイクはデータサイロを取り除き、多様なデータセットの分析を容易にし、データを安全に保ち、機械学習を組み込みます。
AWS CTO の Werner Vogels 博士は、「Amazon がデータレイクを使用してビッグデータの課題を解決する方法」という記事で、「企業がデータレイクを作成するのは、主にデータサイロを破壊するためです。複数のグループによって制御されるさまざまな場所にデータのポケットがあるので、本質的にデータを隠します」
Amazon S3 を使用すると、すべての構造化データと非構造化データを無制限の規模で移行、保存、管理、および保護し、データサイロを分解できます。

クラウドへのデータの移動
AWS では、あらゆるデータ移行プロジェクトに最適なソリューションを提供するため、データ転送サービスのポートフォリオをご用意しています。データの移行にとって、接続性レベルは重要な要因となります。AWS は、お客様が抱える、ハイブリッドクラウドストレージや、オンラインおよびオフラインでのデータ転送のニーズに対応するための機能をご提供します。
ハイブリッドクラウドストレージ
AWS Storage Gateway は、お客様によるオンプレミスアプリケーションの AWS ストレージへのシームレスな接続と拡張を可能にする、ハイブリッドクラウドストレージサービスです。お客様は、Storage Gateway を使うことで、テープライブラリのクラウドストレージへの置き換え、クラウドストレージによるファイル共有の実施、および、オンプレミスアプリケーションが AWS 内のデータにアクセスするための低レイテンシーキャッシュの作成などが、シームレスに行えます。AWS Direct Connect を使用すれば、AWS とデータセンター、オフィス、またはコロケーション環境などの間でプライベート接続を確立することができます。これは、ネットワークコストを削減し、スループットを向上させます。また、パブリックなインターネット接続に比べると、より均質なネットワーク接続が利用できるようになります。
オンラインデータ転送
AWS DataSync により、数百テラバイトにおよぶ数百万のファイルを、Amazon S3、Amazon EFS、あるいは Amazon FSx for Windows File Server に対し、簡単かつ効率的に転送できます。オープンソースツールと比較して最大 10 倍高速です。DataSync は、スクリプトコピージョブ、転送スケジュールの作成と監視、データ検証、ネットワーク利用量の最適化などを含む手動作業の多くを、省略あるいは自動で処理します。Amazon S3 Transfer Acceleration によって、クライアントと Amazon S3 バケットの間での、長距離ファイル転送を高速化できます。Amazon Kinesis および AWS IoT Core では、IoT デバイスからのストリーミングデータを、シンプルかつ安全にキャプチャし、Amazon S3 にロードできます。
オフラインデータ転送
AWS Snow Family は、ネットワーク容量に制限があったり、本来接続できないようなエッジロケーション専用に作られています。これにより、過酷な環境下でもストレージとコンピューティング機能を利用できるようになります。AWS Snowball サービスは、データ収集、処理、移行のために、堅牢で可搬性のあるストレージデバイスとエッジコンピューティングデバイスを使用します。お客様は、AWS に対するオフラインのデータ転送のための、Snowball の物理デバイスを出荷できます。AWS Snowmobile はエクサバイト規模のデータ転送サービスです。ビデオライブラリや画像リポジトリ、またはデータセンター全体まで、膨大な量のデータをクラウドに移動できます。
データレイク全体で AWS のサービスを使用
S3 データレイクでは、多数の AWS 分析アプリケーション、AI/ML サービス、およびハイパフォーマンスファイルシステムにアクセス可能です。つまり、追加のデータ処理や他のストアへの転送なしに、データレイク全体で多数のワークロードを実行できるということです。S3 データレイクには、任意のサードパーティー製の分析ツールや機械学習ツールを使用することもできます。
AWS Lake Formation を使用して、数か月ではなく数日でデータレイクを構築
AWS Lake Formation では、セキュアなデータレイクを数か月ではなく数日で作成することが可能で、データレイクはデータの格納場所、および適用するデータアクセスポリシーとセキュリティポリシーを定義するだけで作成できます。Lake Formation はさまざまなソースからデータを収集し、それを Amazon S3 の新しいデータレイクに移動します。サービスが機械学習アルゴリズムを使用してデータをクリーニングし、カタログ化し、分類して、アクセスコントロールポリシーを定義できるようにします。ユーザーはその後、利用可能なデータセットとそれらの利用条件がリストされている、データの一元化されたカタログにアクセスすることができます。
データを移動することなく AWS 分析アプリケーションを実行
S3 データレイクにデータがあれば、ペタバイト規模のデータセットの分析から単一オブジェクトのメタデータのクエリまで、さまざまなユースケースに以下の専用分析サービスをどれでも使用することができます。S3 データレイクを利用すると、大量のリソースや時間を要する抽出、変換、ロード (ETL、Extract, Transform, and Load) ジョブなしに、分析を行うことができます。S3 データレイクに任意の分析プラットフォームを採用することもできます。
S3 に保存したデータで AI および Machine Learning ジョブを起動する
Amazon Comprehend、Amazon Forecast、Amazon Personalize、Amazon Rekognition といった AWS AI サービスを迅速に起動し、非構造化データセットからのインサイトの発見、正確な予測の取得、レコメンデーションマシンの作成、S3 に保存した画像および動画の分析を行うことができます。また、Amazon Sagemaker をデプロイし、S3 に保存したデータセットで迅速に ML モデルを構築、トレーニング、デプロイすることも可能です。
S3 Select でデータをすぐにクエリする
S3 Select を使用すると、アプリケーションでは、オブジェクト内にあるデータのフィルタリングやデータへのアクセスといった手間のかかる作業を S3 にオフロードすることが可能になります。S3 Select では、オブジェクトを別のデータストアへ移動することなくオブジェクトのメタデータのクエリが可能です。アプリケーションでロードおよび処理しなければならないデータ量を減らすことで、S3 Select は S3 のデータに頻繁にアクセスするほとんどのアプリケーションのパフォーマンスを最大で 400% 改善し、80% ものクエリコストを削減することができます。
S3 Select は APN パートナーと同様、Amazon EMR での Spark、Hive および Presto、Amazon Athena、Amazon Redshift で使用可能です。
データをファイルシステムに接続し、高パフォーマンスのワークロードを実現する
Amazon FSx for Lustre では、機械学習、ハイパフォーマンスコンピューティング (HPC)、ビデオ処理、財務モデリング、電子設計オートメーション (EDA、Electronic Design Automation) などのワークロードの高速処理用に最適化された、S3 データレイクとネイティブに連携するハイパフォーマンスファイルシステムが提供されます。 S3 データへのアクセスレイテンシーがミリ秒未満になり、最大数百ギガバイト/秒 (GBps、Gigabyte Per Second) のスループットと数百万 IO/秒 (IOPS、IO Per Second) の速度でデータを読み書きできるファイルシステムを、数分で起動できます。 S3 バケットとリンクさせると、FSx for Lustre ファイルシステムは S3 オブジェクトをファイルとして透過的に表示します。これにより結果を S3 に書き込むことができます。
S3 の機能を使用してデータレイクをコスト効率良く管理する
幅広い機能を備えた Amazon S3 は、サイズや目的を問わず、データレイクの構築 (またはプラットフォーム再編) および管理を行うための理想的なサービスです。オブジェクト、バケット、アカウントレベルでのデータ管理、わずか数クリックによる何百億ものオブジェクトにおよぶ変更、きめ細かいデータアクセスポリシーの設定、多数のストレージクラスにわたるオブジェクトの保存によるコスト削減、そして S3 リソース全体の全アクティビティの監査が可能な、唯一のクラウドストレージサービスです。
データレイク全体の全レベルでデータ管理
Amazon S3 では、バケットおよびアカウントレベルではもちろん、オブジェクトレベルの詳細度でデータを管理できます。オブジェクトにメタデータタグを追加したり、ビジネスに合った方法でタグを利用してデータを整理したりすることが可能です。また、オブジェクトをプレフィックスやバケットごとに整理することもできます。こうした機能により、1 つまたは複数のオブジェクトに迅速に指定してリージョン間でレプリケートしたり、アクセスを制限したり、安価なストレージクラスに転送したりというタスクを行うことができます。
わずか数クリックで数十億ものオブジェクトにアクションを実行する
S3 バッチオペレーションにより、1 回の API リクエスト、または S3 マネジメントコンソールで数回クリックするだけで、数十億ものオブジェクトにアクションを実行したり、リクエストの進捗情報を監査したりすることができます。オブジェクトプロパティとメタデータの変更、バケット間のオブジェクトのコピー、タグセットの置き換え、アクセスコントロールの設定、S3 Glacier からのアーカイブ復元、AWS Lambda 関数の呼び出しを、数か月もかけずに数分で行えます。
機密データに対するポリシーをきめ細かく設定する
バケットポリシー、オブジェクトタグ、アクセスコントロールリスト (ACL) を使用して特定のバケットやオブジェクトへのアクセスを制限できます。また、AWS Identity and Access Management を使用して AWS アカウント内のユーザーアクセスを定義することも可能です。データへのすべてのアクセスリクエストをブロックする必要がある場合、S3 ブロックパブリックアクセスを設定し、オブジェクトの特定のバケットまたは AWS アカウント全体の「パブリックアクセスなし」ポリシーを適用することができます。
S3 ストレージクラスをまたいでオブジェクトをコスト効率良く保存する
S3 のすべてのユーザーは、コストに応じてさまざまなアクセス要求に対応するよう設計された、6 つのストレージクラスにわたってデータを保存できます。S3 ストレージクラス分析を使用してデータへのアクセスパターンを理解するこれにより、アクセス頻度の低いオブジェクトを安価なクラスに転送するか、S3 Glacier または S3 Glacier Deep Archive にアーカイブするようライフサイクルポリシーを設定し、削減効果を最大限に高めることができます。
S3 リソースとその他アクティビティへのすべてのアクセスリクエストを監査する
S3 レポートツールでは、誰がどのデータにどこからアクセスをリクエストしているのかの迅速な把握、オブジェクトメタデータ (ストレージクラス、保持日、ビジネスユニット、暗号化ステータスなど) の監査、使用状況とコストのモニタリング、アクセスパターンの理解など、S3 リソースに関連するアクティビティを実行できます。これらのインサイトは、データレイクやデータレイクに依存するアプリケーションの最適化、コスト削減に役立てることができます。
始める準備はできましたか?
Amazon S3 でデータレイクの構築を開始する