Amazon Web Services ブログ
【開催報告】AWS re:Invent Recap Analytics 〜新サービスアップデート&クイックデモ〜
こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。
2021年1月29日に、2020年 AWS re:Invent Recapシリーズのひとつとして、分析サービスのRecapセミナーを開催いたしました。2020年 AWS re:Invent では、AWSの分析サービスに関して、新しいサービスおよび多くのアップデートが発表されました。本セッションでは、新しく発表されたサービスやアップデートを中心に共有させていただくとともに、お客さまの課題や問題をどのように解決できるのか、クイックデモを交えてご紹介させていただきました。
AWS の分析サービスで実現するレイクハウスアーキテクチャ
大園 純平
アマゾン ウェブ サービス ジャパン株式会社 アナリティクス ソリューションアーキテクト
大薗からは、AWSが考える分析アーキテクチャの方向性、AWS分析サービスのポートフォリオとコンセプト、そしてre:Invent 2020で発表された主要なサービスアップデートの概要をご紹介しました。
現在のデータ分析を取り巻くトレンドとしては、データ容量の爆発的増加、新たなデータソースからの取り込み、データ種類の多様化、多くのユーザーからの利用、そして多くのアプリケーションからの分析といったものがあります。これらのトレンドに対して、AWSではレイクハウスというアーキテクチャを提唱しています。レイクハウスとは、データ蓄積場所としてのデータレイクを中心に、データレイクから各ワークロード(分析サービス)へのデータ移動はもちろん、ワークロードからデータレイクへのデータ移動、そしてワークロード間の連携をもサポートしたアーキテクチャとなります。
ここからは、レイクハウスアーキテクチャを構成するデータレイクと主要サービス、そしてそれらのアップデートをご紹介しました。AWSでは、Amazon S3をデータレイクとして利用します。このAmazon S3にカタログ管理やセキュリティ管理の機能を付加して、データレイクの管理を一元化することができるサービスがAWS Lake Formationです。
このデータレイクを中心として、AWSでは目的に応じたデータ分析サービスを提供しています。まず、インタラクティブに標準SQLのクエリを実行することができるサービスとしてAmazon Athenaがあります。HadoopやSparkなどのビッグデータフレームワークを利用するのであれば、これらを容易に実行することができるサービスとしてAmazon EMRがあります。また、ログ分析や検索を行うためのサービスとしては、Amazon Elasticservice Serviceを提供しており、データストリームをリアルタイムに収集・分析するサービスとしてはAmazon Kinesisが用意されています。最後に、高いパフォーマンスを要求されるデータウェアハウスのサービスとしては、Amzon Redshiftを提供しております。これらのサービスのアップデートとして、本セッションではAmazon EKS上でAmazon EMRを実行できるようになったことと、Amazon Redshiftのクラスタ間でデータを共有できるようになったこと(プレビュー)を取り上げました。
データレイクと各分析サービスとの間をつなぎ、データをシームレスに移動するサービスも重要です。AWSでは、AWS Glueがその役割を担っています。AWS Glueでは、データ連携処理を簡単に作成するサービスとしてAWS Glue StudioとAWS Glue DataBrewを、複数のデータストア間でのデータ連携を容易にするサービスとしてAWS Glue Elastic Views(プレビュー)をご紹介しました。
最後に、これらAWSのレイクハウスアーキテクチャを担うサービス群は、優れたパフォーマンスとコスト効率をもたらすことが可能であることをご紹介して、本セッションを締めくくりました。
Data Lake最前線 – 最新機能は何を変えるか
平間 大輔
アマゾン ウェブ サービス ジャパン株式会社 アナリティクス ソリューションアーキテクト
平間からは、re:Invent 2020で発表された新機能のうち、レイクハウスアーキテクチャの基盤部分を強化するための新機能についてご紹介しました。
まず、「どんなデータでも」扱えるようになる機能の一つとして、AWS Glue Elastic Views(プレビュー)、Amazon Redshift Data Sharing(プレビュー)、そしてAmazon Athena Federated Queryについてご紹介しました。AWS Glue Elastic Viewsは、データレイク内のデータのみならず、業務システムで日々発生しているデータをも分析するために、AWSの各サービスをまたいでマテリアライズド・ビュー(あらかじめ集計済みのデータを用意しているビュー)を作成できるサービスです。プレビュー時点では、ソースはAmazon DynamoDBを、ターゲットはAmazon Elasticsearch Service, Amazon S3, Amazon Redshiftの3つをサポートしています。AWS Glue Elastic Viewsを使うことで、これらのサービス間のデータ連携を、特別なタスクを自前で用意することなく実現できます。Amazon Redshift Data Sharingは、複数のDWHクラスタを運用している環境で、クラスタ間でのデータ共有を、データ転送を行うことなく実現可能な機能です。Data Sharingをうまく利用することで、データ更新用クラスタと参照用クラスタとで負荷を分散したり、DWHを運用している各部門間でのデータのコラボレーションを容易に実現することができるようになります。Amazon Athena Federated Queryは、リレーショナルデータベース、NoSQL、オブジェクトストレージなど、各システムでバラバラに保存されているデータを、Amazon AthenaからSQLでクエリすることができる機能です。異なるデータソースに格納されたデータを結合しての分析も可能になるため、不整合を起こしているデータを追跡するために、基幹システムのデータベースとシステムのログを突き合わせて分析するクエリを作成することが可能になります。
次に、「素早く」データを扱うための機能として、Amazon RedshiftのAQUA(プレビュー)をご紹介しました。AQUAは柔軟性を手に入れた第3世代Amazon Redshiftの追加機能として、マネージドストレージをスキャンする際、クラスタにデータを渡す前に高速に中間処理を行います。この結果、実業務でよく使われる文字列データの中間一致検索などのパフォーマンスに大きな効果を発揮します。
最後に、「安全に」データレイクを利用するための機能として、AWS Lake Formationで追加された2つの機能をご紹介しました。1つ目は、データレイク上のデータを一貫性を保ちながら高速に更新するために追加された、Governed Tableという機能です。ACIDトランザクションをサポートすることで、複数のシステムから更新があった際にも、一貫性を保って更新することが可能となりました。2つ目は、行レベルでアクセス権をコントロールすることができる、行レベルセキュリティ機能です。同じデータに対して、全データを閲覧可能なユーザーと一部のデータの閲覧のみ許可されるユーザーが混在する場合も、データセットを分割することなくアクセス制御を行うことが可能となりました。これらの機能追加により、「どんなデータでも」「素早く」「安全に」データレイクを扱えるようになったことを再確認して、本セッションを締めくくりました。
誰もが高度な技術を活用できる環境 – データ前処理と可視化領域
下佐粉 昭
アマゾン ウェブ サービス ジャパン株式会社 アナリティクス ソリューションアーキテクト
下佐粉からは、データ分析業務の中で一般ユーザーが関わることが多く、そのために課題が多い分野である、データ前処理と可視化についての新機能を、デモを交えてご紹介しました。
データが増え、その利用用途も多彩になってくると、元データそのままの形では分析が困難です。そのため、何らかの前処理を行うことがほぼ必須となります。この前処理は、全ユーザーが必要とし、バッチ処理で実行可能な定型処理である場合と、データを利用するユーザーごとにデータ加工・整形のニーズが異なる場合があります。このうちバッチ処理を容易に作成することができる機能としては、AWS Glue Studioがあります。AWS Glue Studioによって、高速なETL処理をGUIで作成することができるようになりました。一方、もう一つのユーザー主導型のデータ前処理については、コードを書くことなく実施することができるサービスとして、AWS Glue DataBrewが登場しました。AWS Glue DataBrewでは、GUIのコンソール画面から、データパターンを理解するためのプロファイリング、データの正規化やクレンジング、データ変換手順のトラッキング(データリネージ)、保存した変換手順の自動実行といった高度な処理を、コードを書くことなく実行可能となっています。
前処理を行ったデータは、最終的に可視化することで、様々なユーザーが分析に活用することができます。この可視化にも課題があります。例えば、可視化を行うBIシステムの運用負荷やコスト、データを見る習慣のない人にどう利用してもらうか、そしてツールの操作方法をどうやってユーザーにマスターしてもらうか、といったものです。これらの多くを解決したAWSのBIサービスが、Amazon QuickSightです。Amazon QuickSightはサーバレスなので運用負荷は軽減されます。使った分だけお支払いする料金体系であるため、使わないかもしれない人に対して無駄なコストがかかることはありません。分析・ダッシュボード画面の埋め込み機能や、メールでのプッシュ配信をうまく利用することで、わざわざBIツールを開いてデータを見る必要もなくなります。そしてツールの操作が難しいという課題に対して新しく発表された機能が、Amazon QuickSight Q(プレビュー)です。Amazon QuickSight Qでは、機械学習の技術を利用することで、ユーザーが質問を自然言語で入力すると、自動的にその回答を可視化することができます。これによって、複雑な操作を覚えることなく、ユーザーが自分が必要とするデータの可視化を行うことができるようになります。
最後に、データレイクの成功とは利用者や用途が増えていくことであり、前処理はIT管理者側とユーザー側でそれぞれ分けて適切な技術を選択することで利用が加速されること、可視化層は全員が利用できることを目標に、利用の敷居を下げる必要があることを確認して、本セッションを締めくくりました。
まとめ
re:Invent 2020では、多くの分析サービスのアップデートがありました。それらはバラバラに存在しているのではありません。多くのアップデートを前にしてうまく整理がつかない場合は、レイクハウスアーキテクチャを思い出してみてください。お客様自身の課題を解決するサービス・新機能はどれなのかが理解しやすくなるでしょう。本セミナーの内容をうまく利用して、お客さまのビジネス課題にAWSの分析サービスをぜひご活用ください。
なお、以下のURLより、本セミナーの録画の視聴と資料のダウンロードが可能です。分析サービスについては、「ソリューション編」の「Analytics」をクリックしてください。
https://pages.awscloud.com/JAPAN-event-OE-reinvent-recap-2021-reg-event.html