データレイクを実現するベストプラクティスとは ?

2020-02-03
ビジネス x クラウド

Author : 稲葉 智子

IT 技術が広くいろいろな場所で使われるようになってきたため、企業規模に関係なく、今ではいろんな種類のデータが各企業の部署ごとに蓄積し保管することが日常となっています。そのデータの運用方法や活用方法を検討する機会が日々増えていませんか。

例えば、

・A 部署と B 部署のデータを組み合わせた ○○○ なデータが欲しい。。。
・各部署のデータをまとめて、1 箇所ですべての情報を閲覧したい。。。
・社内にある大量の既存データを分析して新たなビジネス価値を生み出したい !

などといった要望があがることも度々あるのではないでしょうか。

そういった要望に応えるためには、これまでにどんなデータが蓄積されどのように使用しているのかといった現状調査を行い、適切なソリューションを考案し始めると思います。

データを一箇所に集めて蓄積し活用するための方法としてまず思いつくのはデータウエアハウスかもしれませんが、今ではデータレイクという手法も一般的になりつつありますね。

「データを蓄積して分析するための環境」という意味ではデータウエアハウスもデータレイクも同じです。データウェアハウスの場合は「目的指向」のため、どういう分析をするのかという目的を決めてから、そのための環境として構築されます。一方、データレイクの場合は、目的を持たずにデータを一元的に管理するものです。蓄積したデータの分析内容や目的を後から決めて、必要に応じた分析ソリューションと連携できるので、将来のビジネスニーズの変化にも対応できます。さらに、データレイクはインフラストラクチャーを柔軟に構成できるクラウドとの相性も良いため、データレイクを構築することが昨今主流になりつつあります。

前述の点を踏まえると、いろんな種類のデータを一元管理することで分析や可視化を促進し、将来のビジネス予測も可能にしたいと考える IT エンジニアの方は、データレイクの構築を考えるのではないかと思います。

では、AWS ではどんなサービスを組み合わせてデータレイクを実現できるのか見てみましょう。


安全で柔軟なデータレイクを構築するには ?

AWS には既にデータレイクの構築に関するサービスがいくつかあります。ですが、たくさんありすぎて正直どのサービスを組み合わせたら安全で柔軟なコスト効率の良いデータレイクを構築できるのかいまいちよく分からない、という IT エンジニアの方もいらっしゃると思います。

データの規模や分析方法にもよりますが、次の AWS サービスを組み合わせてデータレイクを実現できます。(下表はあくまで一例です。AWS サービスの組み合わせの参考例としてご覧ください)

データの処理工程 使用する AWS サービスの例

データの蓄積・保存

Amazon S3

データの加工とカタログ化

AWS Glue

データの分析

Amazon AthenaAmazon EMR、または Amazon Redshift

データの可視化

Amazon QuickSight

AWS クラウドを利用し始めたばかりで、まだデータレイク構築はしたことがないという IT エンジニアの方には、「AWS Lake Formation」というサービスをご紹介します。

このサービスでは、上記の AWS サービスの組み合わせに加えて、データレイクへのアクセス制御を一元で定義して管理し、データの機密性を強化するビジネスメタデータをデータに付けることで安全なデータレイクを素早く構築できます。

AWS Lake Formation のマネージメントコンソール (下図参照) の「Dashboard」から、下記 3 つのステップで簡単にセットアップできます。

ステップ 1 : データを蓄積・保存する Amazon S3 のバケットを登録する

ステップ 2 : データの加工やカタログに使用するデータベースを作成する

ステップ 3 : IAM で、ユーザに必要なリソースへのアクセス権限を付与する

AWS Lake Formation のマネージメントコンソール画面 (英語のみ)
画像をクリックすると拡大します 

この3つのステップを実行するだけで、Amazon S3 にデータを保存し、ビジネスメタデータやアクセス権限を管理するデータレイクとしての最低限の環境が実現できます。データ量や AWS Glue のクローラーおよびジョブの設定、データ分析や可視化に使用する AWS サービスの設定などを含むと、数日間ですべてのセットアップが完了できるようになっています。

AWS が提供するデータレイクのソリューション

前述のサービス以外にも AWS ではデータレイクに関するソリューションを提供しています。AWS クラウドをよくご存知の IT エンジニアの方で、データレイクで使用する AWS サービスを短時間で効率よく構築したいまたは新しい構築方法にチャレンジしてみたい、という方には次の 2 つのデータレイクの構築方法をご紹介します。

AWS CloudFormation を使ったデータレイクの構築

ご利用中の AWS クラウド上に、安全で柔軟があり、かつコスト効率の高いデータレイクを短時間でデプロイできるソリューションを AWS CloudFormation のテンプレートにして無償で提供しています。このテンプレートでは、設定項目をデフォルト値で提供しているので、このテンプレートの利用時に特定ニーズに合わせて設定項目をカスタマイズできます。

データレイクのテンプレートを AWS CloudFormation のデザイナーで表示
画像をクリックすると拡大します 

このテンプレートを実行すると、上記のように Amazon S3、AWS Glue、Amazon Elasticsearch ServiceAmazon DynamoDBAWS LambdaAmazon API Gateway などで構成されたデータレイクが、デフォルト設定の場合であれば、約 30 分程度 (目安) で自動デプロイできます。

このソリューションではさらに、既存の SAML ID プロバイダ (Microsoft Active Directory や Okta など)と統合するフェデレーション設定と同じワークフローを含むテンプレートも提供しているので、ダウンロードしていつでもご利用いただけます。

詳しくは、「AWS でのデータレイク」で提供している「データレイクソリューション」デプロイガイド (日本語) をご覧ください。このガイドでは、実装方法をステップバイステップで紹介しているほか、テンプレート内のパラメータについても説明しています。

より運用管理負荷が低いデータレイクを実現するには?

最近では、サーバーの運用管理が不要なサーバーレスでのシステム構築が人気ですね。データレイクもサーバーレスで構築できることはご存知でしょうか ?

AWS では Amazon Kinesis Data StreamsAmazon Kinesis Data Firehose、Amazon S3 などのサービスを使用したサーバレスデータレイクの設計、構築、および運用方法を 1 日間のトレーニング(有償)で提供していますが、このトレーニングは AWS を使い慣れている上級向けのものとして提供しています。(「AWS でのサーバーレスデータレイクの構築」を参照)

残念ながら現時点では、日本語トレーニングは提供していないため、日本語で受講していただくことはできませんが、サーバーレスデータレイクの構築に興味があり検討しているという方は、担当の Solution Architect (SA) にご相談いただくか、AWS クラウド 日本担当チームへのお問い合わせページよりご連絡ください。

サーバーレスデータレイクの導入事例をブログで紹介しています。ご興味のある方は、こちらもあわせてご覧ください。

最後に

現在 AWS で提供しているデータレイク関連のサービスやソリューションのうち、AWS Lake Formation、AWS CloudFormation のテンプレートを使用した実装方法とサーバーレスでも実現可能であることについてご紹介しましたが、いかがでしたか?この記事でご紹介した実現方法だけが全てではありません。現在運用しているシステムの構成やデータの保存状況、システム運用の今後の展望などによっても AWS サービスの選択肢も異なります。
残念ながら、上記に参考になるソリューションがなかった場合は、AWS Loft Tokyo などを利用して、 AWS のエンジニア にご相談ください。

まだ一度も AWS サービスを利用したことがない、もしくはデータレイクがいまいちよく理解できていないという方は、データレイクに関する説明を記載した下記ページをご覧ください。

データレイクとは
AWS マンガ第 9 話:全てのデータを分析しろ !

前述のソリューションを実行される場合は、デプロイガイドに記載の注意事項を必ずご一読していただき、ご納得のうえ、ご利用ください。またソリューションの実行中に使用された AWS サービスのコストは、お客様負担になりますので、その点ご了承のうえ、ご利用ください。


builders.flash メールメンバーへ登録することで
AWS のベストプラクティスを毎月無料でお試しいただけます

筆者紹介

稲葉 智子

アマゾン ウェブ サービス ジャパン合同会社
技術統括部 テクニカルライター

AWS クラウドのサービスに関しては入社と同時に勉強開始。好きな AWS サービスは、ローカリゼーションも担当しているので、Amazon Translate。AWS DeepRacer や AWS DeepComposer にも興味があります。趣味は習い事のハープとカフェ巡り。AWS では猫好きが多いのですが、私は犬好きで、ウェルシュ・コーギー・ペンブローク Lover です。

AWS を無料でお試しいただけます

AWS 無料利用枠の詳細はこちら ≫
5 ステップでアカウント作成できます
無料サインアップ ≫
ご不明な点がおありですか?
日本担当チームへ相談する