AWS Lake Formation

安全なデータレイクを数日で構築

AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。データレイクとは、キュレートされた安全な一元的リポジトリであり、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、データのサイロ化が解消され、異なる種類の分析を組み合わせることが可能になります。このような分析から得られるインサイトは、ビジネス上の意思決定に大きく貢献します。

今日のデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要となります。このようなタスクの例としては、各種ソースからのデータの読み込み、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、冗長データの重複排除、連結レコードのマッチングなどが挙げられます。データレイクがデータを読み込んだら、データセットへのきめ細かいアクセスを許可し、時間の経過とともにさまざまな分析や機械学習 (ML) ツールとサービスにわたってアクセスを監査する必要があります。

Lake Formation を使用してデータレイクを作成することは、データソースの定義と適用するアクセスとセキュリティポリシーを定義するのと同様に簡単です。Lake Formation は、データベースとオブジェクトストレージからデータを収集およびカタログ化し、データを新しい Amazon Simple Storage Service (S3) データレイクに移動し、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、列、行、およびセルレベルのきめ細かいコントロールを使用して、機密データへのアクセスを保護します。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を示すものです。次に、これらのデータセットを好みの分析や機械学習サービス (Amazon RedShift、Amazon Athena、Amazon EMR for Apache Spark、Amazon QuickSight など) と併せて使用できます。Lake Formation は、AWS Glue で利用できる機能を基盤として構築されています。

AWS re:Invent 2018 - AWS Lake Formation の発表 (2:44)

メリット

データレイクをすばやく構築する

Lake Formation を使用することで、データの移動、保存、カタログ化、消去をすばやく実行できます。データソースに Lake Formation をポイントするだけで、ソースをクロールし、新しく作成した Amazon S3 データレイクにデータを移動します。Lake Formation は S3 内のデータを頻繁に使用されるクエリ用語で整理し、適切なサイズにまとめ、効率性を向上します。分析を速めるためにデータを Apache Parquet や ORC などのフォーマットにも変換します。さらに、Lake Formation には機械学習が組み込まれており、レコードの重複を排除し、照合するレコード (同一のものを表す 2 つのエントリ) を検索し、データの品質を向上します。

セキュリティ管理を簡素化する

Lake Formation は、データにアクセスするすべてのユーザーとサービスに対して、テーブル、列、行、およびセルレベルで動作するアクセス制御を明確化して適用するための単一の場所を提供します。定義したポリシーは一貫して実装され、セキュリティサービス (AWS Identity and Access Management (IAM) と AWS Key Management Service (KMS)、ストレージサービス (S3)、分析および機械学習サービス (Redshift、Athena、AWS Glue、および EMR for Apache Spark) 全体に手動で設定する必要はありません。これにより、サービス全体でのポリシーの設定に必要な労力を軽減し、一貫した実行とコンプライアンスが実現します。

データにセルフサービスアクセスを提供する

Lake Formation では、利用可能な異なるデータセットとそれぞれにどのグループのユーザーがアクセスできるかを説明するデータカタログを構築します。これにより、ユーザーは分析対象のデータセットを適切に検索でき、生産性が向上します。一貫したセキュリティが実行されるデータのカタログを提供することにより、Lake Formation は、アナリストやデータサイエンティストが好みの分析サービスを簡単に使用できるようにします。 アナリストたちは、単一のデータレイクにまとめられた多様なデータセットに対して EMR for Apache Spark、Redshift、Athena、AWS Glue、Amazon QuickSight などを使用できます。ユーザーもサイロ間でデータを移動することなくこれらのサービスを混合できます。

仕組み

仕組み

Lake Formation はデータレイクの構築、保全、管理に役立ちます。まず、S3 またはリレーショナルおよび NoSQL データベースに保存する既存データを特定し、データをデータレイクに移動します。次に、クロール、カタログ化し、データを分析用に準備します。準備ができたら、ユーザーが選択した分析サービス経由でデータへの安全なセルフサービスアクセスを提供します。他の AWS サービスとサードパーティー製アプリケーションも表示されるサービスを介してデータにアクセスできます。Lake Formation はオレンジ色のボックス内にあるすべてのタスクを管理し、青色のボックス内に表示されているデータストアおよびサービスと統合されます。

ユースケース

データレイクをすばやく構築する

Lake Formation のブループリントを使用して、データの移動、保存、カタログ化、クリーンアップ、および整理をより迅速に行います。データを Parquet や ORC などの形式に変換して分析を高速化し、組み込みの機械学習を使用して重複を排除し、一致するレコードを見つけます。新しいタイプの Amazon S3 テーブルである Governed Tables を使用して、データを保存して維持する方法を簡素化します。Governed Tables は、ACID (原子性、一貫性、分離性、永続性) トランザクションを使用して、競合を自動的に管理し、すべてのユーザーに一貫性のあるデータビューを保証します。Governed Tables は、データをモニタリングして自動的に最適化し、Governed Tables にクエリを実行する際のエンジンパフォーマンスを向上させます。

アクセス制御を一元的に定義して管理する

Lake Formation は、Amazon S3 のデータに対するきめ細かいアクセス許可を定義、分類、タグ付け、および管理するための単一の場所を提供します。タグの階層リストを定義し、データベース、テーブル、および列にタグを割り当て、列レベルおよびセルレベルのセキュリティを構成できます。

データの分類ときめ細かいアクセスを実施する

Lake Formation は、使用する各サービスでデータのアクセス制御を構成することなくポリシーを適用します。Lake Formation はデータを自動的にフィルタリングし、データを複製せずに、定義済みのポリシーで許可されたデータのみの認証を受けたユーザーに公開します。

継続的なデータ管理、タイムトラベル、およびストレージの最適化を可能にする

バッチデータとストリーミングデータを更新するためのデータレイクの信頼性と信用を強化します。履歴データのバージョンをクエリし、変更されたデータを監査します。小さなファイルを自動で圧縮し、プッシュダウンフィルターを有効にして、データのスキャンを減らし、クエリのパフォーマンスを向上させます。

クロスアカウント共有で連合データレイクを有効にする

データの移動を最小限に抑えながら、正しく管理されたデータ共有を使用して、分散型のドメイン指向データ製品を組織全体に配信します。

詳細については、"What is a data lake?" を参照してください。

お客様

ニュースキン

ニュースキンエンタープライズは、パーソナルケアおよび栄養補助食品の分野で、200 種類を超える高品質のアンチエイジング製品を販売するグローバルな直販企業です。

「私たちは、既存の分析システムの機能を拡張して、スループットをスケーリングするという課題を抱えていました。データは切断されたさまざまなデータベースと SaaS ソリューションの間で分散されていたため、機密データへのアクセスを制限しながら大規模なデータ分析を行うことは簡単ではありませんでした。このような課題を克服するため、AWS にデータレイクソリューションを構築しました。これで、さまざまなデータサイロからのデータを Amazon S3 に集約し、AWS Lake Formation を使ってあらゆるデータをカタログ化および保護できるようになりました。AWS Lake Formation がなければ、Amazon S3 のすべてのデータに対してスケーラブルかつ利用しやすいセキュリティレイヤーという目標を達成することは不可能だったでしょう。AWS Lake Formation は、セットアップ、そしてユーザーの役割に基づくきめ細かなアクセスコントロールの適用も簡単でした。」

ニュースキンエンタープライズ社エンタープライズアーキテクチャ兼グローバルテクノロジーサービス VP、Joe Sueper 氏

パナソニック

パナソニックアビオニクス社は、機内エンターテインメントと通信システムにおける世界一流のサプライヤーです。

「私たちは、環境内のすべての異なるアプリケーションに対するセキュリティ設定を管理する機能を備えたデータプラットフォームを作りたいと考えました。AWS Lake Formation を使用することによって、ポリシーを一度定義するだけで、それらを AWS Glue と Amazon Athena を含めた使用している複数のサービスに、どこでも同じ方法で実施することができるようになりました。コントロールレベルの向上により、バルクオブジェクトだけでなく、列とテーブルのデータとメタデータにもセキュアにアクセスできます。これは私たちのデータセキュリティとガバナンス基準における重要な要素です」

パナソニックアビオニクス、クラウドおよびデータサービス担当ディレクター、Anand Desikan 氏

Accenture

アクセンチュアは、戦略、コンサルティング、デジタル、テクノロジー、および経営における幅広いサービスとソリューションを提供する一流のグローバルプロフェッショナルサービス企業です。

「私は、『Data on Cloud』ジャーニーでのクライアントの支援に焦点を当てています。これらに特有のものですが、私たちは、複数のソースからのデータで分析を実行する必要があっても、信頼できるデータが十分にないという問題を組織が抱えているのを目にしてきました。データクレンジングはデータ分析の重要なステップであり、ビジネスの成果と意思決定に大きな影響を与える可能性があります。AWS Lake Formation の新しい機能は、データの正確性とデータレイクへのアクセスのセキュア化という課題への対処において優れた効果をもたらしています。高度な機械学習技術を使用してデータを準備し、さまざまなデータソースからのレコードを照合し、データをクリーンアップおよび重複排除することが、非常に有用であることがわかりました。これは、お客様のデータレイクにあるデータの品質と精度を向上させながら、時間、労力、およびコストを削減するために役立つでしょう」

アクセンチュア社データビジネスグループシニアアーキテクト、Namrata Maheshwary 氏

Zalando

Zalando は、ファッションとライフスタイルのためのヨーロッパ有数のオンラインプラットフォームです。

「ヨーロッパの最もファッショナブルなテクノロジー企業として、私たちはファッションのあらゆる側面に対するデジタルソリューションを見つけるために努力しています。AWS Lake Formation は、Amazon Redshift を通じたデータアクセスのための一元的な制御ポイントを提供してくれます。これは、このプロセスをシンプル化するだけでなく、データの使用法を細かく管理することによってプロセスを向上させます。今では、望ましいツールを使ってデータレイク内のデータの検出、アクセス、および分析を行い、それをビジネスインテリジェンスとデータサイエンスに活用することができるようになりました。この合理化されたワークフローは、経営陣が期限内に適切な判断を下すために役立ち、機械学習を通じたイノベーションを促進します」

Zalando SE 社エンジニアリングリード、Alberto Miorin 氏

Life360

Life360 は、家族のための世界一流の安心サービスです。Life360 アプリは、大切な人たちを保護し、結び付けるために設計されたスマートな機能を使って家族の絆を強めます。

「私たちは、AWS Lake Formation を使用して、ロケーションに基づいた時系列データをサポートするデータレイクを構築し、データの読み込みを容易にしたいと考えました。事前に作成されたブループリントは、データエンジニアリングチームがコードを一から作成しなくてもデータレイクにデータを取得できるようにするので、チームはデータの取り込みを可能にすることに集中でき、無駄な再構築を行う必要もありません。AWS Lake Formation を使用することで、Amazon S3 にある利用可能なデータをすばやく解放し、幅広い AWS データサービス全体での分析に使用できるようになりました。データは引き続き Amazon S3 で保存され、ありとあらゆる方法で分析でき、私たちが完全に制御します」

Life360, Inc. クラウドおよびデータサービス担当責任者、Richard Chennault 氏

Change Healthcare

Change Healthcare は、業界をリードする独立系医療技術企業で、約 2,100 の政府および商業支払者関係、5,500 の病院、900,000 人の医師、および 33,000 の薬局に対して、データおよび分析主導のソリューションを提供しています。

「私たちは、HIPAA を含めたヘルスケア業界の規制を順守しながら、毎日何百万ものトランザクションからのデータを処理しています。私たちは AWS Lake Formation の提供開始を非常に嬉しく思っています。AWS Lake Formation は AWS ベースのデータレイクへの何千ものクライアントからのデータの読み込み、クリーニング、セキュア化、およびカタログ化を容易にする一元的な制御ポイントを提供し、弊社の運用上の負担が大幅に軽減されるからです。Lake Formation のデータアクセスコントロールにより、一度ポリシーを定義するだけで、使用している分析および機械学習サービスすべてにポリシーを適用できます。また、遵守していることを示す監査ログの取得も容易です。」

Change Healthcare、CTO、Aaron Symanski 氏

Fender Digital

Fender Digital は、ギターの象徴的なブランドである Fender の一部門で、Fender が製造するギター、アンプ、オーディオ機器を補完するアプリケーション、ウェブサイト、プラットフォーム、およびツールを作成しています。

「私たちは、デジタルアプリケーションとデバイスから大量のユーザーデータおよび使用量データを生成しており、Amazon Redshift ベースのデータウェアハウスと共に運用するデータレイクを AWS で構築する予定です。私たちのチームが AWS Lake Formation を使えるようになる日を楽しみにしています。Lake Formation は、データの読み込み、変換、およびカタログ化を容易にし、広範な AWS サービスのポートフォリオ全体にまたがって、組織内でデータをセキュアに利用できるようにしてくれるでしょう。Lake Formation のようなエンタープライズ対応のオプションを使用することで、データレイクの手動での設定と管理に関わる煩わしい作業ではなく、データから価値を引き出すことにより多くの時間を費やすことができるようになります」

Fender Digital 社エンジニアリング VP、Joshua Couch 氏

Cloudreach

移行および管理ソフトウェアプラットフォーム、Cloudamize によって力を増した Cloudreach は、データ駆動型の意思決定にシンプルさと絶対的な自信をもたらします。

「AWS Lake Formation は、誰でもデータレイクを使用できるようにし、エンタープライズデータ戦略の加速点を生み出します。AWS Lake Formation はサービスのセキュリティとガバナンスを一元化することで管理を合理化し、運用オーバーヘッドを削減します。エンタープライズ全体でのデータを統合するプロセスを加速化することによって、機械学習などのその他のデータイニシアチブがビジネス価値を高め始めます。」

Cloudreach 社 AWS プラクティス担当 CTO、Kevin Davis 氏

Amgen

Amgen は世界最大の独立系バイオテクノロジー企業です。

「Amgen では、過去 3 年間にわたって Amazon Redshift、Amazon EMR クラスターを頻繁に使用してきました。必要な詳細度で AWS のアカウント、サービス、ユーザー、およびデータセットそれぞれのセキュリティとアクセスのコントロールをセットアップすることは、煩雑になり得ます。AWS Lake Formation は、一元的な制御ポイントでプロセスを合理化すると共に、データを誰がどのように使用しているかをより詳細に管理できるようにしてくれます。AWS Lake Formation では、データベース内のデータに対するアクセス許可を管理するように、Amazon S3 オブジェクトに対するアクセス許可を管理することが可能です。ユーザーは、任意に選択したツールを使用して、必要なデータを検索、アクセス、分析できます。この新しいワークフローは、Amgen のデータの使用時における全員の生産性を高めることができます」

Amgen 社エンタープライズデータレイク製品オーナー、Kerby Johnson 氏

アルコン

アルコンは、人生を一変させるようなビジョンケアとアイケア製品における革新と開発のリーダーです。

「多くの企業と同様に、私たちもアクセスできないデータサイロを避けるためにデータレイクイニシアチブを開始しました。AWS Lake Formation では、既存の Amazon S3 バケットに対するアクセス権をすばやく追加し、その内容と可能な用途を定義することができます。データは引き続き Amazon S3 で保存されますが、他の用途については私たちが完全に制御します」

アルコン社 IT 分析リード、Srinivas Ravilisetty 氏

Quantiphi

Quantiphi は、複雑なビジネス上の問題を解決するという目標を原動力とする、AI とビッグデータのソフトウェア/サービス企業です。Quantiphi は、定量化できる価値を実現するデータレイクと AI ソリューションをお客様のために構築することを専門としています。

「AWS Lake Formation は、関連データにアクセスできるセキュアなデータレイクを数日間で提供することを可能にします。これにより、完全なセキュリティに加えて、ユーザーが意思決定を簡単に行えるようにする関連データへのシンプルなアクセスで、お客様に両方の利点を提供することができるようになりました。弊社のお客様は、強力で一元化されたデータソースを使用することにより、よりスマートで分析主導の経営判断に集中できるようになります」

Quantiphi 社 AWS プラクティスリード、Arnav Gupta 氏

Curvo ラボ

Curvo は、ヘルスケアサプライチェーンに特化した SaaS 企業です。ドメインエキスパートとアジャイル開発プラクティスを持つ Curvo は、ヘルスケアにおける支出管理をより迅速かつ容易にする分析、ワークフロー、およびオートメーションを構築しています。

「データの正規化は、臨床および医療製品の基準価格データに透明性をもたらすことによって、より良い患者アウトカムを実現するうえで重要なステップです。AWS Lake Formation の機械学習変換を使用することで、1 週間かかっていたデータセットが 4 時間で処理できるようになり、精度もほぼ 100% 向上しました。このスピードと精度によって、ヘルスケアのお客様は市場の変化に迅速に対応することが可能になるため、最終的には、患者アウトカムを犠牲にすることなく手頃な価格のヘルスケアを提供できます。これらの提供において、競合他社では 4〜6 週間かかるところを、弊社は 1 日で対応します。」

Curvo 社 CTO、Nic Sagez 氏

最新情報

日付
  • 日付
1
AWS Lake Formation の特徴に関する詳細はこちら

特徴ページにアクセスして、AWS Lake Formation の特徴について学びましょう。

詳細はこちら 
アカウントにサインアップする

AWS 無料利用枠を今すぐご利用ください。 

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで、AWS Lake Formation を使った構築を開始しましょう。

サインイン