アマゾン ウェブ サービス (AWS) のお客様の多くが、俊敏性と柔軟性の面で従来のデータ管理システムを超える、データストレージおよび分析ソリューションを必要としています。幅広いソースに由来する複数のデータタイプを管理し、構造化データまたは非構造化データとして集中リポジトリに保存できるデータレイクは、データの保存と分析の新たな方法としてますます企業の人気を博しています。

AWS クラウドには、お客様が安全かつ柔軟で費用対効果に優れたデータレイクを実装するために必要な構成要素の多くが用意されています。この中には、構造化と非構造化データの両方の取り込み、保存、検索、処理、分析に役立つ AWS マネージドサービスが含まれます。このウェブページでは、AWS でのデータレイクの構築に関するハイレベルのベストプラクティスとガイダンスが提供され、可用性が高くコスト効率に優れたデータレイクのリファレンス実装を AWS クラウドに自動的にデプロイする AWS ソリューションが紹介されています。


多くの会社は、データレイクを既存のデータウェアハウスの代替品ではなく、補完するものとして活用しています。データレイクは構造化データと非構造化データの両方のソースとして使用でき、データウェアハウスへの取り込みのために明確に定義されたスキーマへの変換や、未知のデータセットをすばやく探索して深い理解を発見するためのアドホック分析にも簡単に利用できます。この点を念頭において、データレイクソリューションの構築時には以下のベストプラクティスについて検討します。

  • 会社の成長に合わせてあらゆるタイプのデータを収集し保存できるよう、データレイクは柔軟でスケーラブルな設定にする。データの暗号化、検索、分析、クエリをサポートする設計コンポーネントを含める。
  • きめ細かなアクセスコントロールポリシーとデータセキュリティメカニズムを実装して、データレイクに保存されるすべてのデータを保護する。
  • ユーザーが関連データの検索と取得をすばやく簡単に実行でき、かつ新しいタイプのデータ分析も行えるメカニズムを用意する。
  • 複数の手法によるデータの取り込みと分析にマネージドサービスを活用する。例えば、大量のデータの転送には Amazon KinesisAWS SnowballAWS Direct Connect を使用します。その後、Amazon EMRAWS Data PipelineAmazon Elasticsearch Service といった強力なサービスを利用して、有意義な分析ができるようデータを処理します。

AWS では、企業やその他外部のユーザー間で特定のデータのサブセットを簡単にタグ付け、検索、共有、制御するために必要な AWS の中核となるサービスが自動的に構成されるデータレイクソリューションを用意しています。ソリューションでは、ユーザーがビジネスのニーズに合わせて利用可能なデータセットの検索や閲覧ができるコンソールがデプロイされます。下の図はデータレイクのアーキテクチャを示しています。ソリューションの実装ガイドと付属の AWS CloudFormation テンプレートを利用すれば、数分でデプロイできます。

data-lake-solution-architecture
  1. ソリューションの中核となる AWS のサービスは AWS CloudFormation テンプレートによって設定されます。これには、AWS Lambda マイクロサービス (関数) のセット、Amazon Elasticsearch による堅牢な検索機能、Amazon Cognito によるユーザー認証などが含まれています。
  2. このソリューションでは、組織のデータセットの永続的なカタログの管理に Amazon S3 の持つ安全性、耐久性、スケーラビリティが活用され、対応するメタデータの管理には Amazon DynamoDB が使用されます。
  3. データセットのカタログ化が完了すると、属性と記述タグを検索に利用できるようになります。ユーザーはソリューションコンソールから利用できるデータセットの検索とブラウズを実行でき、アクセスが必要なデータのリストを作成できます。
  4. このソリューションではユーザーがカート (オンラインショッピングのカートに類似) に選んで入れたデータセットを記録し、その後チェックアウト時に、必要なコンテンツへの安全なアクセスリンクを含んだマニフェストファイルを生成します。
ソリューションをデプロイする
実装ガイド

以下の内容を実行します。

データレイクを設定して、柔軟かつスケーラブル、コスト効率に優れた集中データリポジトリを作成し、既存のデータウェアハウスの補完および拡張とする。

ビジネスのために会社の内外でデータを簡単に共有できる、使いやすいコンソールをデプロイする

Amazon S3 の暗号化、アクセスキー、Amazon Cognito を使用してデータへのアクセスを保護する

データレイクソリューションのコマンドラインインターフェイス (CLI) や RESTful API を利用したスクリプトによってデータを自動的にカタログ化する

自己生成されたマニフェストファイルを使用するビッグデータ分析スイートを活用し、ビジネスに価値を生み出すための新たな理解を深める。

開始する前に以下の準備が必要です。

AWS アカウント: リソースのプロビジョンを開始するには AWS アカウントが必要です。AWS にサインアップする

スキルレベル: このソリューションは、AWS クラウドでのアーキテクチャ設計に関する実経験がある IT インフラストラクチャアーキテクト、管理者、DevOps プロフェッショナルを対象としています。

Q: このデータレイクソリューションで、自分で管理する必要がなくなるのはどのようなものですか?

このソリューションでは、Amazon S3 にある組織のデータセットの永続的なカタログと、各データセットに関連付けられたビジネス関連のタグが管理されます。これにより、会社としては、データセットがデータレイクソリューションに保存されたときにタグの指定を要求するというシンプルな管理ポリシーを作成できます。

Q: データレイクソリューションではどのようなタイプのデータセットがサポートされますか?

このソリューションでは Amazon S3 の柔軟性が活用されているため、既存か新規かを問わず、どのようなファイルタイプやサイズのデータセットでも登録できます。

Q: データレイクにデータをアップロードするにはどうすればよいですか?

データはデータレイクソリューションコンソールから直接アップロードできます。または Amazon S3 バケットに直接アップロードしてからデータレイクに登録することもできます。

Q: 既に Amazon S3 に存在しているデータがある場合もデータレイクを使用できますか?

はい。データセットは、Amazon S3 内の既存オブジェクトを指定する、自分で選択した記述タグとともに登録できます。

Q: データレイクをモニタリングするにはどうすればよいですか?

データレイクは API コール、レイテンシー、エラー率を AWS アカウント内の Amazon CloudWatch に記録します。また、コンプライアンス追跡のために、データレイクのデプロイに対する監査ロギングを有効化して、ユーザーアクティビティすべてをモニタリングすることもできます。

Q: ソリューションログはいつ参照可能になりますか?

ログ、アラーム、エラー率およびその他のメトリクスは Amazon CloudWatch に保存され、リアルタイムに近い状態で利用できます。

Q: データレイクソリューションのユーザーの追加と管理はどのように実行しますか?

データレイクソリューションがデプロイされた後に、データレイクを使用開始するための自己登録にユーザーを招待できます。ユーザー、グループ、データレイクへのアクセス権限は、ソリューションコンソールの [Administration] セクションで継続的に管理できます。

Q: データレイクを企業の Active Directory と統合できますか?

現時点では、このデータレイクを Active Directory と統合することはできません。

Q: データはどのようにデータレイクに送られますか?

データをデータレイクソリューションに追加するには、データレイクコンソールやデータレイク CLI を使用したファイルのアップロード、Amazon S3 の既存コンテンツへの関連付けといったいくつかの方法があります。

Q: データレイクソリューションはどの AWS リージョンにもデプロイできますか?

このソリューションの AWS CloudFormation テンプレートは、AWS Lambda と Amazon Cognito が利用できる AWS リージョンのみにデプロイできます。ただし、デプロイ後は世界中のユーザーをソリューションへのアクセスに招待できます。

サービス可用性の要件に加えて、パフォーマンスとユーザーの操作性を向上させるために、データが保存されている AWS リージョンにデータレイクをデプロイすることを推奨します。

AWS の利用を開始するためにさらにリソースが必要ですか。AWS クラウドの開始方法にアクセスして、AWS を開始するためのチュートリアル、プロジェクト、ビデオをご確認ください。

ご意見をお寄せください