全般

Q: データレイクとは何ですか?

A: データレイクは、大量でさまざまな構造化および非構造化データの、スケーラブルな中央リポジトリです。データレイクを使用すると、データのライフサイクル全体を管理できます。データレイクを構築する最初のステップは、さまざまなソースからのデータの取り込みとカタログ化です。その後データは分析の前にクリーニングされ、強化され、結合されます。これにより、直接クエリ、可視化、機械学習を使用してデータを簡単に検出および分析できます。データレイクは従来のデータウェアハウスを補完し、データの取り込み、保管、変換、分析のための柔軟性、費用対効果、スケーラビリティを提供します。データウェアハウスの構築と保守に関する従来の課題と分析の種類における制限は、データレイクを使用することで解決されます。

詳細については、データレイクとは? をお読みください。

Q: AWS Lake Formation とは何ですか?

A: Lake Formation は、データの取り込み、整理、カタログ化、変換、保護を容易にし、分析や機械学習に使用できるようにする統合データレイクサービスです。Lake Formation を使用すると、データソースの検出、Amazon S3 データレイクへのデータの移動、重複の削除とレコードの照合、分析ツールによるアクセスのためのデータのカタログ化、データアクセスとセキュリティポリシーの設定、および AWS の分析サービスと機械学習サービスからのアクセスの監査、制御など、変換ジョブのセットアップを行うことができる中央コンソールが提供されます。Lake Formation は AWS Glue、Amazon Athena、Amazon Redshift、および (ベータ版) Amazon EMR Notebooks および Apache Spark を搭載した Zeppelin ノートブックの登録データへの自動的なアクセスを管理して、Amazon S3 で定義されたポリシーへのコンプライアンスを保証します。AWS のサービスにまたがる変換ジョブをセットアップした場合、Lake Formation はフローを設定し、それらのオーケストレーションを集中管理し、そしてジョブの実行を監視できるようにします。Lake Formation を使用すると、基盤となる複数の AWS のサービスを手動で統合することなく、データレイクの設定および管理ができます。 

Q: Lake Formation を使用してデータレイクを構築するメリットは何ですか?

A: Lake Formation を使用すると、AWS データレイクの構築、保全、管理が簡単になります。Lake Formation は、基盤となる AWS のセキュリティ、ストレージ、分析、機械学習サービスと統合し、集中的に定義されたアクセスポリシーに準拠するようにそれらを自動的に設定します。さらに、ジョブやデータ変換、分析ワークフローを監視するための単一のコンソールを提供します。

Lake Formation は AWS Glue を介してデータ取り込みを管理することができます。データは自動的に分類され、関連するデータ定義、スキーマ、およびメタデータは中心のデータカタログに格納されます。AWS Glue はまたデータを S3 に保存するために選択したオープンデータ形式に変換し、データをクリーンアップして重複を削除し、データセット間でレコードをリンクします。データが S3 データレイクに入ったら、テーブルレベルと列レベルのアクセスコントロールを含むアクセスポリシーを定義し、保存データの暗号化を強制することができます。その後、さまざまな AWS の分析サービスおよび機械学習サービスを使用してデータレイクにアクセスできます。すべてのアクセスは保護され、管理され、監査可能です。

Q: AWS Lake Formation のプレゼンテーションを視聴することはできますか?

A: はい。re:Invent の「Intro to AWS Lake Formation」セッションの全編録画をご覧いただけます。

Q: FindMatches ML 変換では、どのような問題が解決されますか?

A: 一般に、FindMatches はレコード連携およびデータ重複排除の問題を解決します。重複排除は、概念的には「同一」であるが別々のレコードがあるデータベース内のレコードを識別するために必要です。重複したレコードを一意のキーで識別できる場合 (たとえば、製品を UPC コードで一意に識別できる場合) これはそこまで大きな問題ではありませんが、「あいまい一致」を行う必要がある場合は非常に大きな課題となります。

レコード連携は基本的にデータ重複排除と同じ問題ですが、この用語は通常、単一のデータベースを重複排除するのではなく、一意のキーを共有しない 2 つのデータベース間で「あいまい結合」を行っていることを意味します。例として、大規模な顧客データベースを既知の詐欺師の小規模データベースと照合する問題を考えてみましょう。FindMatches は、レコード連携と重複排除の両方に使用できます。

たとえば、Lake Formation の FindMatches ML 変換 は、以下のような問題を解決するのに役立ちます。

  • 病院間で患者の記録をリンクさせることによって、医師が患者に対するより多くの背景情報を得ることができ、名前、誕生日、自宅住所、電話番号などの共通フィールドを持つ別々のデータベースで FindMatches を使用することで、患者に対するより良い治療を提供できる。
  • 「タイトル」、「プロットの概要」、「リリースされた年」、「上映時間」、「出演者」などの列を含む映画のデータベースを重複排除する。たとえば、同じ映画でも「スターウォーズ」、「スターウォーズ: 新たなる希望」、「スターウォーズ: エピソード 4/新たなる希望 (スペシャルエディション)」といったさまざまな形で認識されることになります。
  • アパレル製品カタログでサイズや色の違いを無視して「同等」と定義することによって、店頭で同じようなアイテムをまとめた関連商品を自動グループ化する。この場合「Levi 501 ブルージーンズ、サイズ 34 x 34」は、「Levi 501 ジーンズ - 黒、サイズ 32 x 31」と同じであると定義されます。

Q: Lake Formation はどのようにデータ重複を排除しますか?

A: Lake Formation の FindMatches ML 変換では、同じエンティティを参照していても信頼できる識別子を共有していないいくつかのレコードを簡単に見つけてリンクすることができます。FindMatches がリリースされる前は、開発者は通常、手作業で調整した規則を大量に作成することによって、データマッチングの問題を決定論的に解決していました。FindMatches は、バックグラウンドで機械学習アルゴリズムを使用して、それぞれの開発者のビジネス基準に従ってレコードを一致させる方法を学習します。まず、FindMatches はお客様がどのように一致を見極めてラベル付けしているかを記憶し、次に機械学習を使用して ML 変換を作成します。その後、お客様は自分のデータベースでこの変換を実行して一致するレコードを見つけるか、あるいは FindMatches にラベル付けするレコードを追加することによって ML 変換の精度を上げることができます。

Q: ML 変換とは何ですか?

A: ML 変換は、機械学習変換を作成および管理する目的地を提供します。作成およびトレーニングが完了すると、これらの ML 変換は標準の AWS Glue スクリプトで実行できます。お客様は特定のアルゴリズム (たとえば FindMatches ML 変換) を選択し、データセットとトレーニングの例、およびそのアルゴリズムに必要な調整パラメーターを入力します。AWS Lake Formation はこれらの入力を使用して、通常の ETL ジョブワークフローに組み込み可能な ML 変換を構築します。

Q: ML 変換の仕組みを教えてください。

A: Lake Formation には特殊な ML ベースのデータセット変換アルゴリズムが含まれており、お客様はこれを独自の ML 変換を作成するために使用できます。これには、レコードの重複排除と一致の検出が含まれます。

お客様は、Lake Formation コンソールの [ML Transforms] タブに移動して (または ML 変換サービスエンドポイントを使用するか、CLI 経由で ML 変換トレーニングにアクセスして) 最初の ML 変換モデルを作成します。[ML Transforms] タブは、ユーザー変換を管理するための使いやすいビューを提供します。ML 変換には、個別のトレーニング、パラメータ調整、実行ワークフローの必要性、生成された変換の品質メトリクスを推定する必要性、トレーニングや積極的な学習のために追加の truth ラベルを管理し収集する必要性など、ほかの変換とは異なるワークフロー要件が必要です。

コンソールから ML 変換を作成するには、まず変換の種類 (レコード重複排除やレコードマッチングなど) を選択し、以前にデータカタログで検出された適切なデータソースを指定します。変換によっては、トレーニング用の Ground Truth ラベルデータや追加のパラメータの提供を求められる場合があります。お客様はトレーニングジョブのステータスをモニタリングし、各トランスフォームの品質メトリクスを確認できます。(品質メトリクスは、お客様が用意したラベルデータのホールドアウトセットを使用して報告されます)。

満足のいくパフォーマンスを得ることができたら、ML 変換モデルを昇格して本番環境で使用することができます。AWS Glue ライブラリで提供されているビルド済みトランスフォームと同様に、ML 変換は、サービスによって自動生成されたコード、およびその他のジョブと共に送信されたユーザー定義スクリプトの両方で、ETL ワークフロー中に使用できます。

Q: AWS Lake Formation を使用したレコードの照会、重複の排除に関するプレゼンテーションを視聴することはできますか?

A: はい。AWS オンライン Tech Talk「Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation」の全編録画をご覧ください。

Q: Lake Formation は他の AWS のサービスとどのように関連していますか?

Lake Formation は S3 に格納された登録データのデータアクセスを管理し、統合されたセキュリティモデルと権限を通じて、AWS Glue、Amazon Athena、Amazon Redshift、および (ベータ版) Amazon EMR Notebooks および Apache Spark を搭載した Zeppelin ノートブックからのクエリ―アクセスを管理します。Lake Formation は S3、Amazon RDS データベースおよび AWS CloudTrail ログからのデータを取り込み、それらのフォーマットを理解し、データをクリーンアップして照会可能にします。また、フローを設定し、それらのオーケストレーションを集中管理し、そしてジョブの実行を監視できるようにします。

詳細については、「AWS でのデータレイクと分析」をご覧ください。カスタマイズされたデータレイクの構築方法も記載されています。

Q: Lake Formation は AWS Glue とどのように関連していますか?

A: Lake Formation は、コンソールコントロール、 ETL コード生成 およびジョブ監視、データ取り込みのためのワークフロー作成の青写真、同一データカタログ、サーバーレスアーキテクチャなどといった、AWS Glue を用いた共有インフラストラクチャを活用します。AWS Glue はこれらのタイプの機能に焦点を当てていますが、Lake Formation はすべての AWS Glue 機能を網羅し、データレイクの構築、保護、および管理をサポートするよう設計された追加機能を提供します。詳細については、AWS Glue の特徴ページを参照してください。

ETL およびカタログ

Q: Lake Formation では、データレイクに移動可能なデータをどのように見つけることができますか。

A: Lake Formation は自動的に AWS IAM ポリシーによってアクセスが提供されるすべての AWS データソースを検出します。S3、RDS、CloudTrail ソースをクロール、青写真を通じて、それらをデータレイクに取り込むことができるデータとしてユーザーが識別できるようにします。お客様の許可なしにデータが分析サービスに移動されたりアクセス可能にされることはありません。AWS Glue を使用して、S3 や DynamoDB などの他のソースからデータを取り込むこともできます。

Lake Formation が Oracle、MySQL、Postgres、SQL Server、MariaDB などのオンプレミスデータベースや AWS データベースにアクセスできるように、JDBC 接続を定義することもできます。

Lake Formation を使用すると、すべてのデータが中央のデータカタログに記述され、表示とクエリを実行する権限があるデータを 1 か所で閲覧することができます。権限はデータアクセスポリシーで定義されており、テーブルおよび列レベルで設定できます。

クローラによって自動的に入力されるプロパティに加えて、データの機密性などのビジネス属性を含むラベルをテーブルレベルまたは列レベルで追加したり、フィールドレベルのコメントを追加したりできます。

Q: Lake Formation は、データレイクにあるデータをどのように整理しますか?

A: Lake Formation で利用可能な青写真の 1 つを使用して、データレイクにデータを取り込むことができます。Lake Formation は、ソーステーブルをクロールし、データを抽出して、S3 に読み込む Glue ワークフローを作成します。S3 で、Lake Formation はデータを整理し、最適化されたパフォーマンスとコストを実現するためにパーティションとデータフォーマットを設定します。すでに Amazon S3 にあるデータの場合、それらのバケットを Lake Formation に登録して管理することができます。

さらに、Lake Formation はデータカタログを維持するためにデータレイクをクロールし、エンティティを検索するための直観的なユーザーインターフェイス (種類、分類、属性、または自由形式のテキスト) を提供します。

Q: Lake Formation はどのように機械学習を使用してデータを消去しますか?

A: Lake Formation は、重複排除およびリンクマッチングレコードのための、機械学習アルゴリズムを実行するジョブを提供します。ML 変換は、ソースを選択し、希望する変換を選択し、実行したい変更に関するトレーニングデータを提供するだけで作成できます。お客様の満足のいくところまでトレーニングされると、機械学習に関する専門知識の必要なく、通常のデータ移動ワークフローの一部として ML 変換を実行することができます。

Q: ほかにどのような方法で AWS にデータを取り込み Lake Formation で使用することができますか?

A: お客様は、AWS Snowball、AWS Snowball Edge、および AWS Snowmobile を搭載した物理アプライアンスを使用してペタバイトからエクサバイトのデータをデータセンターから AWS に移動する、あるいは AWS Storage Gateway を使用してオンプレミスアプリケーションを直接 AWS に接続することができます。また、AWS Direct Connect でお客様のネットワークと AWS 間の専用ネットワーク接続を使用してデータ転送を高速化したり、世界中に散らばる Amazon のエッジロケーションを使用して Amazon S3 Transfer Acceleration で長距離グローバルデータ転送を促進したりできます。さらに、ストリーミングデータを S3 にロードするための便利な方法は Amazon Kinesis からも提供されます。継続的な ETL ジョブを実行し、分析用に取り込まれたデータを準備するように Lake Formation Data Importer を設定できます。

Q: 既存のデータカタログまたは Lake Formation の Hive メタストアを使用できますか?

A: Lake Formation を使用すると、既存のカタログをインポートしてデータカタログにメタストアできます。ただし、Lake Formation では、データへの適切なアクセスを確保するために、メタデータをデータカタログに格納する必要があります。

セキュリティとガバナンス

Q: Lake Formation ではどのようにデータが保護されますか?

A: Lake Formation は、アクセスに使用されるサービスに関係なく、データを保護するきめ細かいデータアクセスポリシーを設定できる一元的な場所を提供することで、データを保護します。

Lake Formation を使用してデータアクセスポリシーコントロールを一元管理するには、まず S3 でバケットへの直接アクセスを停止し、すべてのデータアクセスが Lake Formation によって管理されるようにします。次に、Lake Formation を使用してデータ保護とアクセスポリシーを設定します。これにより、レイクのデータにアクセスするすべての AWS のサービスにこれらのポリシーが適用されます。ユーザーとロールを設定し、これらのロールがアクセスできるデータをテーブルと列のレベルまで定義することができます。

Lake Formation は現在、S3 (SSE-S3、AES-265) の Server-Side-Encryption をサポートしています。Lake Formation はまた、VPC 内のプライベートエンドポイントをサポートし、AWS CloudTrail 内のすべてのアクティビティを記録するので、ネットワークの隔離と監査能力はお客様が持つことになります。

Q: Lake Formation は AWS IAM とどのように連携しますか?

A: Lake Formation は IAM と統合されているため、認証されたユーザーとロールは、データカタログに格納されているデータ保護ポリシーに自動的にマッピングできます。IAM 統合により、Microsoft Active Directory あるいは LDAP を使って、SAML を使用する IAM に統合することもできます。 

データアクセスの有効化

Q: Lake Formation は、アナリストやデータサイエンティストがアクセス可能なデータを発見するのにどのように役立ちますか?

A: Lake Formation を使用すると、すべてのデータが中央のデータカタログに記述され、表示とクエリを実行する権限があるデータを 1 か所で閲覧することができます。権限はデータアクセスポリシーで定義されており、テーブルおよび列レベルで設定できます。

Q: Lake Formation でサードパーティ製のビジネスインテリジェンスツールを使用できますか?

A: はい。Tableau や Looker などのサードパーティ製ビジネスアプリケーションを使用して、Athena、または Redshift 向けの EMR などのサービスを通して AWS データソースに接続できます。データへのアクセスは基礎となるデータカタログによって管理されるため、どのアプリケーションを使用する場合でも、データへのアクセスは確実に管理され、コントロールされます。

Q: Lake Formation は API や CLI を提供しますか?

A: はい。Lake Formation では、Lake Formation 機能をカスタムアプリケーションに統合するための API と CLI が提供されます。Java および C++ SDK も利用可能で、独自のデータエンジンをLake Formation と統合することができます。

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS Lake Formation の料金設定の詳細
詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
アカウントにサインアップする
サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する
サインイン