AWS ワークショップシリーズ
データレイク構築の第一歩 ! はじめてのデータレイクハンズオン
Author : 久保 和隆
AWS に限らず技術を学ぶ一番の方法は「触ってみる」ことですよね ?
とはいえ、初心者の方が新しい技術を何もガイダンスなしで触ってみるのは少し難しいかもしれません。ワークショップやハンズオンはそのような時にガイドに沿って「まずは触ってみる」ことができる便利な方法です。そのため、AWS も多くのワークショップを公開していますが、「自分が学びたいことのために何を選んだら良いかわからない」というお声も多く聞くようになりました。
このシリーズではそのような方のために、AWS の技術者がそれぞれおすすめのワークショップを紹介していきます。今回は、西日本のお客様を中心に技術支援を行うソリューションアーキテクト久保による 「データレイクハンズオン」のご紹介です。
ワークショップ紹介のその他の記事はこちら
- 選択
- 3 時間でマスター !? 位置情報サービス Amazon Location Service 入門 ワークショップ
- 産業 IoT による工場のデータ収集から可視化まで、AWS Industrial IoT Workshop で一気に体験 !
- 開発者のためのデータベースサービスの学び方
- AWS Security Hub を利用したセキュリティ体制の可視化
- AWS Amplify Gen2 を使ったウェブアプリケーション構築の学び方
- AI コード生成で開発効率アップ ! Amazon CodeWhisperer ワークショップ
- データレイク構築の第一歩 ! はじめてのデータレイクハンズオン
- App2Container を利用した .NET アプリケーションのコンテナ化
- AWS Well-Architected Framework 持続可能性の柱を学べるワークショップ
- 課題解決型のワークショップでクラウドネイティブアーキテクチャを一気に学ぼう ! 実践力を鍛える Bootcamp
はじめに
みなさんはデータ分析に取り組まれていますか ?
近年、ビジネスの現場では、データ活用の重要性が強く叫ばれています。みなさんも「データドリブン」という言葉を聞かれたことがあるのではないでしょうか ?「データドリブン経営」や、「データ主導型組織」等、様々な言い回しで耳にする「データドリブン」に関わる言葉ですが、早い話がデータに基づいて意思決定を行うことを指しています。ある調査によると、データを活用できている B2B 企業は、20% 程度の増益を達成していると言われています。つまり、現代においてはデータを活用することが、他社との差別化につながると言っても過言ではありません。
ここで聞こえてきそうですね。「データ活用が重要なのは分かっているし、やりたいと考えてはいるものの、何から始めたらいいか分からないんだよ。」と。確かに、いきなりデータ活用しようと思っても、データがなければ分析もできないし、どうやってデータを集めればいいのかわからないですよね。
大丈夫です。安心してください。そう言ったお悩みを抱えている方に、ピッタリなワークショップがあります。それが、今回紹介する「データレイクハンズオン」です。
データを活用しなきゃと思っている方は、データ分析の第一歩としてこのワークショップにチャレンジし、スモールスタートでデータ分析を始めてみませんか ?
ワークショップの特徴
私がこのワークショップをおすすめする理由は、このワークショップが、データを収集して可視化するまでの、データ分析における一連の流れと構築方法を学ぶことができるものになっているからです。特におすすめのポイントを 3 つ紹介させていただきます。
データ分析までの一連のプロセスを網羅的に学習可能
データ分析と言えば何を思い浮かべますでしょうか ? 多くの方が、BI ツール等を用いてグラフを作成し、情報を可視化することをイメージするのではないでしょうか。
そのイメージは概ね正しいですが、データを分析するまでに乗り越えるべきハードルがいくつかあります。例えば、どこからどの様にデータを収集してくるかであったり、様々な形式のデータをどの形式に整形するか、ユーザーに使いやすい形に加工するには、等です。実際、データ分析においては前処理の時間が 8 割を占めると言われており、分析プロセスよりも多くの時間がかります。
このハンズオンでは、データ分析の収集・整形・分析の全てのステップを体験することが可能です。具体的には、Amazon EC2 上で稼働しているアプリケーションのログをクラウドに収集し、分析しやすい形に整形して、可視化する、ということを学ぶことができます。
画像をクリックすると拡大します
複数の AWS サービスの概要を理解することが可能
データ分析をAWS サービスを使用して実施しようとした場合、複数のサービスを組み合わせることが必要となります。また、収集・整形・分析の各プロセスで使用できるAWS サービスが複数用意されています。
AWS では、それぞれのサービスをユースケースに合わせて選択することが可能です。これは、柔軟性を高めていると言うこともできますが、初学者の参入障壁を高める要因にもなっています。
このハンズオンでは、収集・整形・可視化の各プロセスにおいて、複数の AWS サービスを使用するように設計されています。具体的には、それぞれのプロセスで以下のサービスを使用します。
- アプリケーションログの収集 : Amazon CloudWatch , Amazon Data Firehose + Amazon S3
- データ整形 : AWS Glue , AWS Lambda
- 可視化 : Amazon QuickSight , Amazon OpenSearch Service
- Amazon S3 に格納しているデータへのクエリ方法 : Amazon Athena , Amazon Redshift
このように、複数のAWS サービスを横断的に触ることが可能となる為、初学者がサービスの概要を知るための入門としても使っていただくことが可能です。ただし、本ワークショップでは、各サービスの掘り下げた解説は行なっていません。その為、興味を持ったサービスつについては、AWS Black Belt Online Seminar や、サービスフォーカスのワークショップを実施して学習を進めてください。
学習した環境で小さくデータレイクを始めることが可能
企業内のデータを有効活用していく為に避けて通れないのがデータレイクの構築です。データレイクとは、すべての構造化データと非構造化データを保存できる一元化されたリポジトリの事を指します。企業内のデータをデータレイクに蓄積していくことで、新たなニーズに対しても、データに基づいた意思決定を行うことが可能となり、ビジネスの変化に対し迅速に対応することができます。
これだけ聞くと、大量のデータを扱う大規模な環境を構築しければと構えてしまいがちですが、意外にもデータレイク構築をうまく進めるコツは、小さく始めて段階的に大きくしていくことです。なぜならば、データレイクはその性質上、あらかじめ用途を予見するものではなく、後から柔軟に使用用途を変更できる状態を作り出すことがコンセプトだからです。その為、初めから大規模な環境を構築してしまうと、コストに対してビジネスメリットが見合わず、使われないデータレイク環境が構築されてしまいます。一つのニーズを満たすことから始め、段階的に大きくしていくことで、活用されるデータレイク環境を構築することが可能となります。
今回のワークショップでは、データの格納先に Amazon S3 を使用しています。そして、格納されたデータに対し、Amazon Athena 及び、Amazon Redshift でクエリを行い、Amazon QuickSight で可視化する環境を構築しています。つまり、分析したいデータをAmazon S3 にいれてしまえば、ハンズオンの手順でデータ分析を行うことが可能です。
今回構築した環境に、分析してみたいデータを格納し、小さくデータ活用を始めてみることで、データ分析の有用性を感じながら少しづつ大規模な環境を構築することができます。ただし、今回のワークショップでは、本番運用に耐えうるセキュリティ設計にはなっていません。その為、可能であれば本番環境として運用を開始する前にお近くのソリューションアーキテクトにご相談ください。
ワークショップにかかる時間
このワークショップは、Lab 1 ~ Lab 6 で構成されています。全ての Lab を実施するには、おおよそ 4 時間程度の時間がかかります。そのため、時間に余裕のない方は必要な Lab のみ実施いただくことで時間を節約することが可能です。
例えば、ニアリアルタイムのデータ分析環境の構築を行いたい場合は、Lab 1 / Lab 2 / Lab 3 のみを実施いただくことで、2 時間程度で概要を掴むことが可能です。ただ、Lab 6 では、パフォーマンスとコストの最適化についても触れていますので、時間が許すようであれば全ての Lab を実施いただくことが望ましいです。
ご自身の環境で試す際の注意
直ぐにでもこのワークショップに取り組んでみて下さいと言いたいところですが、注意点にも触れさせて下さい。このワークショップは、皆さんの手元で実際に試していただくことが可能です。初期セットアップの AWS CloudFormation テンプレートをご用意しておりますので、それを使うことで簡単にセットアップできるようになっています。ただし、複数の AWS サービスを利用しますので、AWS 利用料もそれ相応にかかってきます。不要なコストがかからないよう、試したあとは必ずリソースを削除するようにお願いいたします。
builders.Flash のメールメンバーに登録 いただくと毎月抽選で 300 名の方にハンズオンをお試しいただくための無料クーポンを差し上げていますので、登録いただいて当選を狙ってみるのも良いですね。
まとめ
いかがでしたでしょうか ?
この投稿ではデータ分析に興味がある方に向けて、おすすめのワークショップを紹介させていただきました。データ分析においては、試行錯誤することが何より重要です。そういった意味では、クラウドとデータ分析は相性が良いと言えます。
データを活用しなきゃと思っている方は、データ分析の第一歩としてこのワークショップにチャレンジし、スモールスタートでデータ分析を始めてみてください。このワークショップが、皆様のデータ活用を始める一助となれば幸いです。
ワークショップ紹介のその他の記事はこちら
- 選択
- 3 時間でマスター !? 位置情報サービス Amazon Location Service 入門 ワークショップ
- 産業 IoT による工場のデータ収集から可視化まで、AWS Industrial IoT Workshop で一気に体験 !
- 開発者のためのデータベースサービスの学び方
- AWS Security Hub を利用したセキュリティ体制の可視化
- AWS Amplify Gen2 を使ったウェブアプリケーション構築の学び方
- AI コード生成で開発効率アップ ! Amazon CodeWhisperer ワークショップ
- データレイク構築の第一歩 ! はじめてのデータレイクハンズオン
- App2Container を利用した .NET アプリケーションのコンテナ化
- AWS Well-Architected Framework 持続可能性の柱を学べるワークショップ
- 課題解決型のワークショップでクラウドネイティブアーキテクチャを一気に学ぼう ! 実践力を鍛える Bootcamp
筆者プロフィール
久保 和隆
アマゾン ウェブ サービス ジャパン合同会社
エンタープライズ技術本部 ソリューションアーキテクト
銀行員として自社環境へのクラウド導入を経験し、ソリューションアーキテクトとしてアマゾンウェブサービスジャパン合同会社に入社。現在は、西日本の製造業のお客様に向けたクラウドに関する技術支援業務に従事。
表向きの趣味は、フットサル、スキューバダイビング、スノーボード。本当の趣味はゲーム・漫画・アニメ。
AWS を無料でお試しいただけます