AWS Lake Formation

安全なデータレイクを数日で構築

AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。データレイクとは、キュレートされた安全な一元的リポジトリであり、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、データのサイロ化が解消され、異なる種類の分析を組み合わせることが可能になります。このような分析から得られるインサイトは、ビジネス上の意思決定に大きく貢献します。

とはいえ、今日のデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要となります。このようなタスクの例としては、各種ソースからのデータの読み込み、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、冗長データの重複排除、連結レコードのマッチング、データセットへのアクセス許可付与、経時的なアクセス監査などが挙げられます。

Lake Formation を使用してデータを作成することは、データソースの定義と適用するデータアクセスとセキュリティポリシーを定義するのと同様に簡単です。Lake Formationは、データベースとオブジェクトストレージからデータを収集およびカタログ化し、データを新しい Amazon S3 ータレイクに移動し、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。この データカタログ は、利用可能なデータセットおよびその適切な使用方法を示すものです。ユーザーはその後、Apache Spark 向け Amazon RedshiftAmazon Athena、および (ベータ版) Amazon EMR などの分析や機械学習サービスのデータセットを利用します。Lake Formation は AWS Glue で使用可能な機能の上に構築されます。

AWS re:Invent 2018 - AWS Lake Formation を発表

利点

データレイクをすばやく構築する

Lake Formation を使用することで、データの移動、保存、カタログ化、消去をすばやく実行できます。データソースに Lake Formation をポイントするだけで、Lake Formation はソースをクロールし、新しく作成した Amazon S3 データレイクにデータを移動します。Lake Formation は S3 内のデータを頻繁に使用されるクエリ用語で整理し、適切なサイズにまとめ、効率性を向上します。Lake Formation は、分析を速めるためにデータを Apache Parquet や ORC などのフォーマットにも変換します。さらに、Lake Formation には機械学習が組み込まており、レコードの重複を排除し、照合するレコード (同一のものを表す 2 つのエントリ) を検索し、データの品質を向上します。

セキュリティ管理を簡素化する

Lake Formation を使用すると、セキュリティ、ガバナンス、監査のポリシーを一元で 1 つの場所で定義でき、サービスごとにこれらのタスクを行う必要はありません。ポリシー定義後は、これらのポリシーをユーザーの分析アプリケーション全体に適用できます。定義したポリシーは一貫して実装され、セキュリティサービス (AWS Identity and Access Management と AWS Key Management Service)、ストレージサービス (S3)、分析および機械学習サービス (Redshift、Athena、Apache Spack 向け EMR) 全体に手動で設定する必要はありません。これにより、サービス全体でのポリシーの設定に必要な労力を軽減し、一貫した実行とコンプライアンスが実現します。

データにセルフサービス アクセスを提供する

Lake Formation では、利用可能な異なるデータセットとそれぞれにどのグループのユーザーがアクセスできるかを説明するデータカタログを構築します。これにより、ユーザーは分析対象のデータセットを適切に検索でき、生産性が向上します。一貫したセキュリティが実行されるデータのカタログを提供することにより、Lake Formation は、アナリストやデータサイエンティストが好みの分析サービスを簡単に使用できるようにします。
単一のデータレイクにまとめられた多様なデータセットに対して Apache Spack 向け EMR (ベータ版)、Redshift、または Athena を使用できます。ユーザーもサイロ間でデータを移動することなくこれらのサービスを混合できます。

仕組み

AWS Lake Formation の仕組み

Lake Formation はデータレイクの構築、保全、管理に役立ちます。まず、S3 またはリレーショナルおよび NoSQL データベースに保存する既存データを特定し、データをデータレイクに移動します。次に、クロール、カタログ化し、データを分析用に準備します。準備ができたら、ユーザーに任意の分析サービス経由のデータへの安全なセルフサービスアクセスを提供します。他の AWS サービスとサードパーティアプリケーションも表示されるサービスを介してデータにアクセスできます。Lake Formation はオレンジ色のボックス内にあるすべてのタスクを管理し、青色のボックス内に表示されているデータストアおサービスと統合されます。

ユースケース

「データレイクとは?」とユースケースについては、こちらをお読みください。

お客様

panasonic_logo

Panasonic Avionics Corporation は機内エンターテインメントとコミュニケーションシステムの世界をリードするサプライヤーです。

「当社の環境において異なるすべてのアプリケーションに対するセキュリティ設定を管理する能力をもつデータプラットフォームを作りたいと思っています。AWS Lake Formation では、一度ポリシーを定義して、それらを同じ方法、どこででも、使用する複数のサービスに対して施行することができます。これには、AWS Glue および Amazon Athena が含まれます」と Panasonic Avionics のクラウドとデータサービスのダイレクターである Anand Desikan は述べています。「強化されたレベルの管理により、全対象物だけでなく、列とテーブルのデータおよびメタデータへの安全なアクセスが可能になります。これは、データセキュリティおよびガバナンス標準の重要な部分です。」

Accenture_Logo_Black_Purple_RGB

Accenture は戦略、コンサルティング、デジタル、テクノロジー、オペレーションで幅広いサービスとソリューションを提供する一流のグローバルなプロフェッショナルサービス企業です。

「私は、「Data on Cloud」の道筋でクライアントを支援することに焦点を宛てています。それに対して具体的に、次のように述べています。複数のソースからのデータを分析する必要がある場合、組織は信頼できるデータの不足に対処していることがわかりました」とAccenture のデータビジネスグループのシニアアーキテクトである Namrata Maheshwary 氏が述べています。「データクレンジングはデータ分析の重要なステップであり、ビジネスの結果と意思決定に大きな影響を与える可能性があります。AWS Lake Formation の新しい機能は、データの正確性とデータレイクへのアクセスの保護という課題に対処するのに非常に有益です。高度な機械学習技術を使用してデータを準備し、さまざまなデータソースからのレコードを照合し、データをクリーンアップおよび重複排除することが、非常に有用であることがわかりました。これにより、時間、労力、コストを削減しながら、顧客のデータレイク内のデータの品質と精度を向上させることができます。」

Zalando

Zalando はファッションとライフスタイルのヨーロッパにおけるオンラインプラットフォームのリーダーです。

“ヨーロッパの最もファッショナブルな技術会社として、当社はファッションのあらゆる面に対してデジタルソリューションを見つけようと勤めています」と Zalando SE のエンジニアリングリードである Alberto Miorin 氏は述べています。「AWS Lake Formation はデータアクセスに対して、プロセスを簡素化するだけではなく、データの使用法を細かく管理することで向上させる Amazon Redshift を通じて、スケーラブルな中心となる管理のポイントを与えてくれます。ここで、選択した任意のツールを使用して、データレイク内のデータを検出、アクセス、分析し、ビジネスインテリジェンスとデータサイエンスに活用できるようになりました。この合理化されたワークフローを利用して、役員は時間通りに正しい決定を行い、機械学習を通じてイノベーションを育んできました。」

Logo_for_Life360_App

Life360 は世界をリードする家庭の平和をもたらす会社です。Life360 アプリは、家族に自分にとって最も重要な人々を保護しコネクトするように設計されたスマートな機能により、家族を近づけます。

「AWS Lake Formation を使用して、ロケーションに基づいた時系列データをサポートするデータレイクを構築し、データの読み込みを容易にしたいと考えています。事前に作成された青写真は、データエンジニアリングチームがコードを何もないところから記述する必要なく、データレイクにデータを取り込むのに役立つため、ホイールを再発明するのに時間を費やすのではなく、取り込みの運用に集中できます。」Life360, Inc. のクラウドとデータサービスの長である Richard Channault は述べています。「AWS Lake Formation を使用すると、Amazon S3 で利用可能なデータをすばやくロック解除し、AWS データサービスの幅広いスペクトルにわたって分析できるようになりました。データは Amazon S3 に残され、さまざまな方法で分析でき、完全に管理を維持できます。」

change-healthcare-red-blue-logo

Change Healthcare は、業界をリードする独立した医療技術の会社で、およそ 2,100 件の政府および商用支払者の接続、5,500 の病院、900,000 人の医師、33,000 人の薬剤師に対して、データと分析に基づくソリューションを提供しています。

「当社では、HIPAA を含め、医療業界の規約を順守しつつ、毎日何百万ものトランザクションからのデータを取り扱っております」Change Healthcare 社 CTO、Aaron Symanski 氏。「当社では、AWS Lake Formation の提供開始にとても興奮しました。この製品により、AWS ベースのデータレイクへの何千ものクライアントからのデータの読み込み、消去、保全、カタログ化が簡単に実行できる一元化された制御が可能となり、当社の運用負荷は大幅に軽減しました。Lake Formation のデータアクセス制御により、一度ポリシーを定義すると、使用している分析および機械学習サービスすべてにポリシーを適用できます。また、遵守していることを示す監査ログの取得も容易です」

Fender_digital

Fender Digital は、ギターの象徴的なブランドである Fender の一部門で、Fender が製造するギター、アンプ、オーディオ機器を補完するアプリケーション、Webサイト、プラットフォーム、ツールを作成しています。

「当社では、当社のデジタルアプリケーションおよびデバイスから大量のユーザーデータおよび使用量データを生成しています。当社は AWS にデータレイクを構築し、Amazon Redshift ベースのデータウェアハウスと併せて運用する予定です」Fender Digital 社、エンジニアリング副社長、Joshua Couch 氏。「自分のチームが AWS Lake Formation を使うのが待ち遠しいです。Lake Formation は、データの読み込み、変換、カタログ化を簡単にし、組織内の広範な AWS サービスのポートフォリオのどこからでもそれらのデータを安全に利用できるようにしてくれます。Lake Formation のような企業がすぐ使用できるオプションがあれば、データレイクの設定と管理の手作業の重労働ではなく、データから価値を引き出すことに時間をかけることができます」

cloudreach-logo

移行と管理ソフトウェアプラットフォームである Cloudamize によって強化された Cloudreach は、データ指向の意思決定にシンプルさと絶対的な自信をもたらします。

「AWS Lake Formation は、データレイクを民主化し、エンタープライズデータ戦略を加速するポイントを作成しています」Cloudreach の CTO AWS プラクティスである Kevin Davis は述べています。「AWS Lake Formation は、セキュリティとサービスのガバナンスを一元管理し、管理を合理化し、運用オーバーヘッドを削減します。企業全体でデータのサイロ化解除のプロセスを加速することにより、機械学習など、その他のデータイニシアチブがビジネス価値を高め始めます。」

Amgen-logo

Amgen は世界最大の独立系のバイオ技術企業です。

「Amgen は、過去 3 年間にわたり、Amazon Redshift、Amazon EMR クラスターのヘビーユーザーです。要求された詳細レベルの各 AWS アカウント、ユーザー、データセットのセキュリティとアクセス管理のセットアップは、煩雑になる可能性がありました」と Amgen のエンタープライズデータレイク製品オーナーである Kerby Johnson 氏は述べました。「AWS Lake Formation は、集中管理ポイントでプロセスを合理化する一方で、データを誰がどのように使用しているかをより詳細に管理できるようにします。AWS Lake Formation では、データベース内のデータのアクセス許可を管理するように、Amazon S3 オブジェクトのアクセス許可を管理できます。ユーザーは、任意に選択したツールを使用して、必要なデータを検索、アクセス、分析できます。この新しいワークフローにより、Amgen のデータを使用する際の全員の生産性が高まります。」

Alcon-logo

Alcon は、画期的なビジョンとアイケア製品のイノベーションと開発のリーダーです。

「多くの企業と同様に、アクセスできないデータのサイロを避けるためにデータレイクイニシアチブを開始しました」と Alcon の IT アナリティックスリーダー sである Srinivas Ravilisetty は述べました。「AWS Lake Formation では、既存の Amazon S3 バケットに素早くアクセスを追加し、それらの中のことと、使用方法を定義できます。データは S3 に残されたままで、ほかのユーザーを完全にコントロールしました。」

quantiphi-logo

Quantiphi は、複雑なビジネス上の問題の解決を目的とする、人工知能とビッグデータソフトウェアおよびサービス会社です。Quantiphi は、定量化可能な価値を提供するために、顧客がデータレイクと人工知能ソリューションを構築することを専門としています。

「AWS Lake Formation により、数日で関連データにアクセスできる安全なデータレイクを提供できます」と Quantiphi の AWS プラクティスのリーダーである Arnav Gupta は述べています。「完全なセキュリティに加えて、ユーザーが簡単に意思決定を行えるように関連データへのアクセスを簡素化することで、お客様に両方の利点を提供することができます。お客様は、強力で一元管理されたデータソースを使用することにより、よりスマートで分析指向のビジネス意思決定に焦点を充てることができるようになります。」

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS Lake Formation の機能の詳細
詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
アカウントにサインアップする
サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する
サインイン