AWS Lake Formation

安全なデータレイクを数日で構築する

AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。データレイクとは、キュレートされた安全な一元的リポジトリであり、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、データのサイロ化が解消され、異なる種類の分析を組み合わせることが可能になります。このような分析から得られるインサイトは、ビジネス上の意思決定に大きく貢献します。

とはいえ、今日のデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要となります。このようなタスクの例としては、各種ソースからのデータの読み込み、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、冗長データの重複排除、連結レコードのマッチング、データセットへのアクセス許可付与、経時的なアクセス監査などが挙げられます。

Lake Formation を利用すれば、データが配置される場所と、適用するデータアクセスおよびセキュリティポリシーを定義するだけでデータレイクを作成できます。データレイクの作成後は、Lake Formation が、データベースおよびオブジェクトストレージからのデータの収集とカタログ化、新しく作成した Amazon S3 データレイクへのデータの移動、機械学習アルゴリズムを用いたデータのクリーンアップと分類、機密データに対するアクセスのセキュア化といった各種タスクを担います。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を示すものです。ユーザーはこれらのデータセットを好みの分析や機械学習サービス (Apache Spark 向け Amazon EMR、Amazon RedShift、Amazon Athena、Amazon SageMaker、Amazon QuickSight など) と併せて活用できます。

AWS re:Invent 2018 - AWS Lake Formation を発表

利点

データレイクをすばやく構築する

Lake Formation を使用することで、データの移動、保存、カタログ化、消去をすばやく実行できます。データソースに Lake Formation をポイントするだけで、Lake Formation はソースをクロールし、新しく作成した Amazon S3 データレイクにデータを移動します。Lake Formation は S3 内のデータを頻繁に使用されるクエリ用語で整理し、適切なサイズにまとめ、効率性を向上します。Lake Formation は、分析を速めるためにデータを Apache Parquet や ORC などのフォーマットにも変換します。さらに、Lake Formation には機械学習が組み込まており、レコードの重複を排除し、照合するレコード (同一のものを表す 2 つのエントリ) を検索し、データの品質を向上します。

セキュリティ管理を簡素化する

Lake Formation を使用すると、セキュリティ、ガバナンス、監査のポリシーを一元で 1 つの場所で定義でき、サービスごとにこれらのタスクを行う必要はありません。ポリシー定義後は、これらのポリシーをユーザーの分析アプリケーション全体に適用できます。定義したポリシーは一貫して実装され、セキュリティサービス (AWS Identity and Access Management と AWS Key Management Service)、ストレージサービス (S3)、分析および機械学習サービス (Redshift、Athena、Apache Spack 向け EMR) 全体に手動で設定する必要はありません。 これにより、サービス全体でのポリシーの設定に必要な労力を軽減し、一貫した実行とコンプライアンスが実現します。

データへのセルフサービスアクセスを簡単かつ安全にする

Lake Formation では、利用可能な異なるデータセットとそれぞれにどのグループのユーザーがアクセスできるかを説明するデータカタログを構築します。これにより、ユーザーは分析対象のデータセットを適切に検索でき、生産性が向上します。一貫したセキュリティが実行されるデータのカタログを提供することにより、Lake Formation は、アナリストやデータサイエンティストが好みの分析サービスを簡単に使用できるようにします。
アナリストたちは、単一のデータレイクにまとめられた多様なデータセットに対して Apache Spack 向けEMR、Redshift、Athena、Sagemaker、QuickSight などを使用できます。ユーザーもサイロ間でデータを移動することなくこれらのサービスを混合できます。

仕組み

AWS Lake Formation の仕組み

Lake Formation はデータレイクの構築、保全、管理に役立ちます。まず、S3 またはリレーショナルおよび NoSQL データベースに保存する既存データを特定し、データをデータレイクに移動します。次に、クロール、カタログ化し、データを分析用に準備します。準備ができたら、ユーザーに任意の分析サービス経由のデータへの安全なセルフサービスアクセスを提供します。他の AWS サービスとサードパーティアプリケーションも表示されるサービスを介してデータにアクセスできます。Lake Formation はオレンジ色のボックス内にあるすべてのタスクを管理し、青色のボックス内に表示されているデータストアおサービスと統合されます。

ユースケース

「データレイクとは?」とユースケースについては、こちらをお読みください。

お客様

change-healthcare-red-blue-logo

Change Healthcare は、業界をリードする独立した医療技術の会社で、およそ 2,100 件の政府および商用支払者の接続、5,500 の病院、900,000 人の医師、33,000 人の薬剤師に対して、データと分析に基づくソリューションを提供しています。

「当社では、HIPAA を含め、医療業界の規約を順守しつつ、毎日何百万ものトランザクションからのデータを取り扱っております」Change Healthcare 社 CTO、Aaron Symanski 氏。「当社では、AWS Lake Formation の提供開始にとても興奮しました。この製品により、AWS ベースのデータレイクへの何千ものクライアントからのデータの読み込み、消去、保全、カタログ化が簡単に実行できる一元化された制御が可能となり、当社の運用負荷は大幅に軽減しました。Lake Formation のデータアクセス制御は、一度ポリシーを定義すると、使用している分析および機械学習サービスすべてにポリシーを適用でき、順守していることを示す監査ログの取得も容易です。さらに、Lake Formation は初日から HIPAA に準拠しており、当社のセキュリティ要件を満たし、データレイクを構築し管理するための強力な方法を提供しています」

Fender_digital

Fender Digital は、ギターの象徴的なブランドである Fender の一部門で、Fender が製造するギター、アンプ、オーディオ機器を補完するアプリケーション、Webサイト、プラットフォーム、ツールを作成しています。

「当社では、当社のデジタルアプリケーションおよびデバイスから大量のユーザーデータおよび使用量データを生成しています。当社は AWS にデータレイクを構築し、Amazon Redshift ベースのデータウェアハウスと併せて運用する予定です」Fender Digital 社、エンジニアリング副社長、Joshua Couch 氏。「自分のチームが AWS Lake Formation を使うのが待ち遠しいです。Lake Formation は、データの読み込み、変換、カタログ化を簡単にし、組織内の広範な AWS サービスのポートフォリオのどこからでもそれらのデータを安全に利用できるようにしてくれます。Lake Formation のような企業がすぐ使用できるオプションがあれば、データレイクの設定と管理の手作業の重労働ではなく、データから価値を引き出すことに時間をかけることができます」

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS Lake Formation の機能の詳細
詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
アカウントにサインアップする
サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する
サインイン