データレイクを実現するベストプラクティスとは ?

2020-02-03
AWS 最新ドキュメント紹介

Author : 稲葉 智子

IT 技術が広くいろいろな場所で使われるようになってきたため、企業規模に関係なく、今ではいろんな種類のデータが各企業の部署ごとに蓄積し保管することが日常となっています。そのデータの運用方法や活用方法を検討する機会が日々増えていませんか。

例えば、

・A 部署と B 部署のデータを組み合わせた ○○○ なデータが欲しい。。。
・各部署のデータをまとめて、1 箇所ですべての情報を閲覧したい。。。
・社内にある大量の既存データを分析して新たなビジネス価値を生み出したい !

などといった要望があがることも度々あるのではないでしょうか。

そういった要望に応えるためには、これまでにどんなデータが蓄積されどのように使用しているのかといった現状調査を行い、適切なソリューションを考案し始めると思います。

データを一箇所に集めて蓄積し活用するための方法としてまず思いつくのはデータウエアハウスかもしれませんが、今ではデータレイクという手法も一般的になりつつありますね。

「データを蓄積して分析するための環境」という意味ではデータウエアハウスもデータレイクも同じです。データウェアハウスの場合は「目的指向」のため、どういう分析をするのかという目的を決めてから、そのための環境として構築されます。一方、データレイクの場合は、目的を持たずにデータを一元的に管理するものです。蓄積したデータの分析内容や目的を後から決めて、必要に応じた分析ソリューションと連携できるので、将来のビジネスニーズの変化にも対応できます。さらに、データレイクはインフラストラクチャーを柔軟に構成できるクラウドとの相性も良いため、データレイクを構築することが昨今主流になりつつあります。

前述の点を踏まえると、いろんな種類のデータを一元管理することで分析や可視化を促進し、将来のビジネス予測も可能にしたいと考える IT エンジニアの方は、データレイクの構築を考えるのではないかと思います。

では、AWS ではどんなサービスを組み合わせてデータレイクを実現できるのか見てみましょう。

img_datalake-on-aws-01

安全で柔軟なデータレイクを構築するには ?

AWS には既にデータレイクの構築に関するサービスがいくつかあります。ですが、たくさんありすぎて正直どのサービスを組み合わせたら安全で柔軟なコスト効率の良いデータレイクを構築できるのかいまいちよく分からない、という IT エンジニアの方もいらっしゃると思います。

データの規模や分析方法にもよりますが、次の AWS サービスを組み合わせてデータレイクを実現できます。(下表はあくまで一例です。AWS サービスの組み合わせの参考例としてご覧ください)

データの処理工程 使用する AWS サービスの例

データの蓄積・保存

Amazon S3

データの加工とカタログ化

AWS Glue

データの分析

Amazon AthenaAmazon EMR、または Amazon Redshift

データの可視化

Amazon QuickSight

img_datalake-on-aws-02

AWS Lake Formation のマネージメントコンソール画面 (英語のみ)
画像をクリックすると拡大します 

この3つのステップを実行するだけで、Amazon S3 にデータを保存し、ビジネスメタデータやアクセス権限を管理するデータレイクとしての最低限の環境が実現できます。データ量や AWS Glue のクローラーおよびジョブの設定、データ分析や可視化に使用する AWS サービスの設定などを含むと、数日間ですべてのセットアップが完了できるようになっています。

AWS が提供するデータレイクのソリューション

前述のサービス以外にも AWS ではデータレイクに関するソリューションを提供しています。AWS クラウドをよくご存知の IT エンジニアの方で、データレイクで使用する AWS サービスを短時間で効率よく構築したいまたは新しい構築方法にチャレンジしてみたい、という方には次の 2 つのデータレイクの構築方法をご紹介します。

AWS CloudFormation を使ったデータレイクの構築

ご利用中の AWS クラウド上に、安全で柔軟があり、かつコスト効率の高いデータレイクを短時間でデプロイできるソリューションを AWS CloudFormation のテンプレートにして無償で提供しています。このテンプレートでは、設定項目をデフォルト値で提供しているので、このテンプレートの利用時に特定ニーズに合わせて設定項目をカスタマイズできます。

img_datalake-on-aws-03

データレイクのテンプレートを AWS CloudFormation のデザイナーで表示
画像をクリックすると拡大します 

より運用管理負荷が低いデータレイクを実現するには?

最後に

img_datalake-on-aws-04
photo_inaba

筆者紹介

稲葉 智子

AWS ジャパンの技術統括部でテクニカルライターを担当。AWS クラウドのサービスに関しては入社と同時に勉強開始。好きな AWS サービスは、ローカリゼーションも担当しているので、Amazon Translate。AWS DeepRacer や AWS DeepComposer にも興味があります。趣味は習い事のハープとカフェ巡り。AWS では猫好きが多いのですが、私は犬好きで、ウェルシュ・コーギー・ペンブローク Lover です。

AWS のベストプラクティスを毎月無料でお試しいただけます

さらに最新記事・デベロッパー向けイベントを検索

下記の項目で絞り込む
絞り込みを解除 ≫
フィルタ
フィルタ
1

AWS を無料でお試しいただけます

AWS 無料利用枠の詳細はこちら ≫
5 ステップでアカウント作成できます
無料サインアップ ≫
ご不明な点がおありですか?
日本担当チームへ相談する