全般

Q: データレイクとは何ですか?

データレイクは、大量でさまざまな構造化および非構造化データの、スケーラブルな中央リポジトリです。データレイクを使用すれば、データのライフサイクル全体を管理できます。データレイクを構築する最初のステップは、さまざまなソースからのデータの取り込みとカタログ化です。その後データは分析の前にクリーニングされ、強化され、結合されます。これにより、直接クエリ、可視化、機械学習 (ML) を使用してデータを簡単に検出および分析できます。データレイクは従来のデータウェアハウスを補完し、データの取り込み、保管、変換、分析のための柔軟性、費用対効果、スケーラビリティを提供します。データウェアハウスの構築と保守に関する従来の課題と分析の種類における制限は、データレイクを使用することで解決されます。

詳細については、「データレイクとは?」をお読みください。

Q: AWS Lake Formation とは何ですか?

Lake Formation は、データの取り込み、整理、カタログ化、変換、保護を容易にし、分析や機械学習に使用できるようにする統合データレイクサービスです。Lake Formation を使用すると、データソースの検出、Amazon Simple Storage Service (S3) データレイクへのデータの移動、重複の削除とレコードの照合、分析ツールによるアクセスのためのデータのカタログ化、データアクセスとセキュリティポリシーの設定、および AWS の分析サービスと機械学習サービスからのアクセスの監査、制御など、変換ジョブのセットアップを行うことができる中央コンソールが提供されます。Lake Formation は AWS Glue、Amazon Athena、Amazon Redshift、Amazon QuickSight、Amazon EMR などのサービスを通じて Amazon S3 に登録されたデータへの自動的なアクセスを管理して、定義されたポリシーへのコンプライアンスを保証します。AWS のサービスにまたがる変換ジョブをセットアップした場合、Lake Formation はフローを設定し、それらのオーケストレーションを集中管理し、そしてジョブをモニタリングできるようにします。Lake Formation を使用すると、基盤となる複数の AWS のサービスを手動で統合することなく、データレイクの設定および管理ができます。

Q: Lake Formation を使用してデータレイクを構築するメリットは何ですか?

Lake Formation を使用すると、AWS データレイクの構築、保全、管理が簡単になります。Lake Formation は基盤となる AWS セキュリティ、ストレージ、分析、機械学習サービスと統合し、それらが一元的に定義されたアクセスポリシーに準拠するように自動的に構成します。また、ジョブとデータ変換および分析ワークフローをモニタリングするための単一のコンソールを提供します。

Lake Formation は AWS Glue を介してデータ取り込みを管理することができます。データは自動的に分類され、関連するデータ定義、スキーマ、およびメタデータは中心のデータカタログに格納されます。AWS Glue はまたデータを Amazon S3 に保存するために選択したオープンデータ形式に変換し、データをクリーンアップして重複を削除し、データセット間でレコードをリンクします。データが S3 データレイクに入ったら、テーブルレベルと列レベルのアクセスコントロールを含むアクセスポリシーを定義し、保管中のデータの暗号化を強制することができます。その後、さまざまな AWS の分析サービスおよび機械学習サービスを使用してデータレイクにアクセスできます。すべてのアクセスは保護され、管理され、監査可能です。

Q: AWS Lake Formation のプレゼンテーションを視聴することはできますか?

はい。re:Invent の「Intro to AWS Lake Formation」セッションの全編録画をご覧いただけます。

Q: FindMatches 機械学習変換では、どのような問題が解決されますか?

一般に、FindMatches はレコード連携およびデータ重複排除の問題を解決します。概念的には「同一」であるが別々のレコードがあるデータベース内のレコードを識別する場合は、重複排除が必要です。重複したレコードを一意のキーで識別できる場合 (たとえば、製品を UPC コードで一意に識別できる場合) これはそこまで大きな問題ではありませんが、「あいまい一致」を行う必要がある場合は非常に大きな課題となります。

レコード連携は基本的にデータ重複排除と同じ問題ですが、この用語は通常、単一のデータベースを重複排除するのではなく、一意のキーを共有しない 2 つのデータベース間で「あいまい結合」を行っていることを意味します。例として、大規模な顧客データベースを既知の詐欺師の小規模データベースと照合する問題を考えてみましょう。FindMatches は、レコード連携と重複排除の両方に使用できます。

たとえば、Lake Formation の FindMatches 機械学習変換は、以下のような問題を解決するのに役立ちます。

患者記録へのリンク: 病院間で患者記録をリンクして、医師がより多くの予備知識を入手し、患者により適切な治療を施せるようにします。名前、誕生日、自宅の住所、電話番号などの共通フィールドが両方に含まれている個別のデータベースで FindMatches を使用します。

データの重複排除: 「タイトル」、「プロットの概要」、「公開年度」、「上映時間」、「出演者」などの列を含む映画のデータベースを重複排除します。 たとえば、タイトルまたは出演者名の一覧表示方法にはバリエーションがあり、クリーンなデータセットではなく情報が重複する可能性があります。

商品のグループ化: アパレル製品カタログで特定の違いを無視して「同等」と定義することによって、店頭で同じような項目をまとめた関連商品を自動グループ化します。たとえば、サイズや色の違いにもかかわらず、すべてのパンツを同等と見なすことができます。

Q: Lake Formation はどのようにデータ重複を排除しますか?

Lake Formation の FindMatches 機械学習変換では、同じエンティティを参照していても信頼できる識別子を共有していないいくつかのレコードを簡単に見つけてリンクすることができます。FindMatches がリリースされる前は、デベロッパーは通常、手作業で調整した規則を大量に作成することによって、データマッチングの問題を決定論的に解決していました。FindMatches は、バックグラウンドで機械学習アルゴリズムを使用して、それぞれのデベロッパーのビジネス基準に従ってレコードを一致させる方法を学習します。まず、FindMatches はお客様がどのように一致を見極めてラベル付けしているかを記憶し、次に機械学習を使用して機械学習変換を作成します。その後、お客様は自分のデータベースでこの変換を実行して一致するレコードを見つけるか、あるいは FindMatches にラベル付けするレコードを追加することによって機械学習変換の精度を上げることができます。

Q: 機械学習変換とは何ですか?

機械学習変換は、機械学習変換を作成および管理する目的地を提供します。作成およびトレーニングが完了すると、これらの機械学習変換は標準の AWS Glue スクリプトで実行できます。お客様はアルゴリズム (たとえば FindMatches 機械学習変換) を選択し、データセットとトレーニングの例、およびそのアルゴリズムに必要なチューニングパラメータを入力します。AWS Lake Formation はこれらの入力を使用して、通常の ETL ジョブワークフローに組み込み可能な機械学習変換を構築します。

Q: AWS Lake Formation を使用したレコードの照会、重複の排除に関するプレゼンテーションを視聴することはできますか?

はい。AWS オンライン Tech Talk「AWS Lake Formation のための機械学習変換によるファジーマッチングとデータの重複排除」の録画 (全編) をご覧ください。

Q: Lake Formation は他の AWS のサービスとどのように関連していますか?

Lake Formation は Amazon S3 に格納された登録データのデータアクセスを管理し、統合されたセキュリティモデルと許可を通じて、AWS Glue、Athena、Redshift、Amazon QuickSight、EMR からのクエリアクセスを、Apache Spark を搭載した Zeppelin ノートブックを使用して管理します。Lake Formation は S3、Amazon RDS データベースおよび AWS CloudTrail ログからのデータを取り込み、それらのフォーマットを理解し、データをクリーンアップして照会可能にします。また、Lake Formation はフローを設定し、それらのオーケストレーションを集中管理し、そしてジョブをモニタリングできるようにします。

詳細については、「AWS でのデータレイクと分析」をご覧ください。カスタマイズされたデータレイクの構築方法も記載されています。

Q: Lake Formation は AWS Glue とどのように関連していますか?

Lake Formation は、コンソールコントロール、ETL コード生成およびジョブモニタリング、データ取り込みのためのワークフロー作成のブループリント、同一データカタログ、サーバーレスアーキテクチャなどといった、AWS Glue を用いた共有インフラストラクチャを使用します。AWS Glue はこれらのタイプの機能に焦点を当てていますが、Lake Formation はすべての AWS Glue 機能を網羅し、データレイクの構築、保護、および管理をサポートするように設計された追加機能を提供します。詳細については、AWS Glue の特徴ページを参照してください。

ETL およびカタログ

Q: Lake Formation では、データレイクに移動可能なデータをどのように見つけることができますか。

Lake Formation は自動的に AWS IAM ポリシーによってアクセスが提供されるすべての AWS データソースを検出します。Amazon S3、Amazon RDS、および AWS CloudTrail ソースをクロールし、ブループリントを通じて、それらをデータレイクに取り込むことができるデータとしてユーザーが識別できるようにします。お客様の許可なしにデータが分析サービスに移動されたりアクセス可能にされることはありません。AWS Glue を使用して、S3 や Amazon DynamoDB などの他のソースからデータを取り込むこともできます。

Lake Formation が Oracle、MySQL、Postgres、SQL Server、MariaDB などのオンプレミスデータベースや AWS データベースにアクセスできるように、JDBC 接続を定義することもできます。

Lake Formation を使用すると、すべてのデータが中央のデータカタログに記述され、表示とクエリを実行する権限があるデータを 1 か所で閲覧することができます。許可はデータアクセスポリシーで定義されており、テーブルおよび列レベルで設定できます。

クローラによって自動的に入力されるプロパティに加えて、データの機密性などのビジネス属性を含むラベルをテーブルレベルまたは列レベルで追加したり、フィールドレベルのコメントを追加したりできます。

Q: Lake Formation は、データレイクにあるデータをどのように整理しますか?

Lake Formation で利用可能なブループリントの 1 つを使用して、データレイクにデータを取り込むことができます。Lake Formation は、ソーステーブルをクロールし、データを抽出して、Amazon S3 に読み込む Glue ワークフローを作成します。S3 で、Lake Formation はデータを整理し、最適化されたパフォーマンスとコストを実現するためにパーティションとデータフォーマットを設定します。すでに S3 にあるデータの場合、それらのバケットを Lake Formation に登録して管理することができます。

さらに、Lake Formation はデータカタログを維持するためにデータレイクをクロールし、エンティティを検索するための直観的なユーザーインターフェイス (種類、分類、属性、または自由形式のテキスト) を提供します。

Q: Lake Formation はどのように機械学習を使用してデータを消去しますか?

Lake Formation は、重複排除およびリンクマッチングレコードのための、機械学習アルゴリズムを実行するジョブを提供します。機械学習変換は、ソースを選択し、希望する変換を選択し、実行したい変更に関するトレーニングデータを提供するだけで簡単に作成できます。お客様の満足のいくところまでトレーニングされると、機械学習に関する専門知識の必要なく、通常のデータ移動ワークフローの一部として機械学習変換を実行することができます。

Q: ほかにどのような方法で AWS にデータを取り込み Lake Formation で使用することができますか?

物理アプライアンスを使用してペタバイト規模からエクサバイト規模までのデータをデータセンターから AWS に移動するには、AWS Snowball、AWS Snowball Edge、および AWS Snowmobile を使用できます。AWS Storage Gateway を使用して、オンプレミスアプリケーションを直接 AWS に接続することもできます。また、AWS Direct Connect でネットワークと AWS 間の専用ネットワーク接続を使用してデータ転送を高速化したり、世界中に散らばる Amazon のエッジロケーションを使用して Amazon S3 Transfer Acceleration で長距離グローバルデータ転送を促進したりできます。さらに、ストリーミングデータを S3 にロードするための便利な方法は Amazon Kinesis からも提供されます。継続的な ETL ジョブを実行し、分析用に取り込まれたデータを準備するように Lake Formation Data Importer を設定できます。

Q: 既存のデータカタログまたは Lake Formation の Hive メタストアを使用できますか?

Lake Formation を使用すると、既存のカタログをインポートしてデータカタログにメタストアできます。ただし、Lake Formation では、データへの適切なアクセスを確保するために、メタデータをデータカタログに格納する必要があります。

セキュリティとガバナンス

Q: Lake Formation ではどのようにデータが保護されますか?

Lake Formation は、アクセスに使用されるサービスに関係なく、データを保護するきめ細かいデータアクセスポリシーを設定できる一元的な場所を提供することで、データを保護します。

Lake Formation を使用してデータアクセスポリシーコントロールを一元管理するには、まず Amazon S3 でバケットへの直接アクセスを停止し、すべてのデータアクセスが Lake Formation によって管理されるようにします。次に、Lake Formation を使用してデータ保護とアクセスポリシーを設定します。これにより、レイクのデータにアクセスするすべての AWS のサービスにこれらのポリシーが適用されます。ユーザーとロールを設定し、これらのロールがアクセスできるデータをテーブルと列のレベルまで定義することができます。

Lake Formation は現在、S3 (SSE-S3、AES-265) のサーバー側の暗号化をサポートしています。Lake Formation はまた、Amazon Virtual Private Cloud (VPC) 内のプライベートエンドポイントをサポートし、AWS CloudTrail 内のすべてのアクティビティを記録するので、ネットワークの隔離と監査能力はお客様が持つことになります。

Q: Lake Formation は AWS IAM とどのように連携しますか?

Lake Formation は IAM と統合されているため、認証されたユーザーとロールは、データカタログに格納されているデータ保護ポリシーに自動的にマッピングできます。IAM 統合により、Microsoft アクティブディレクトリあるいは LDAP を使って、SAML を使用する IAM に統合することもできます。

Q: Amazon S3 の既存のテーブルを管理対象テーブルに変換するにはどうすればよいですか?

AWS Glue データカタログにカタログ化された既存の Amazon S3 ベースのテーブルがある場合は、AWS ラボ Github ページで利用可能な AWS Glue ブループリントを実行することでそれらを管理対象テーブルに変換できます。さらに、AWS SDK と CLI を使用して新しい管理対象テーブルを作成し、Lake Formation のマニフェスト情報を更新できます。マニフェスト情報には、テーブルの現在の状態を表す S3 オブジェクトと関連するメタデータのリストが含まれています。AWS Glue ETL を使用して既存のテーブルから読み取り、そのコピーを Governed Table として作成することもできます。これにより、独自のペースでアプリケーションとユーザーを Governed Table に移行できます。

データアクセスの有効化

Q: Lake Formation は、アナリストやデータサイエンティストがアクセス可能なデータを発見するのにどのように役立ちますか?

Lake Formation を使用すると、すべてのデータが中央のデータカタログに記述され、表示とクエリを実行する権限があるデータを 1 か所で閲覧することができます。許可はデータアクセスポリシーで定義されており、テーブルおよび列レベルで設定できます。

Q: Lake Formation でサードパーティ製のビジネスインテリジェンスツールを使用できますか?

はい。Tableau や Looker などのサードパーティー製ビジネスアプリケーションを使用して、Athena、または Redshift などのサービスを通して AWS データソースに接続できます。データへのアクセスは基礎となるデータカタログによって管理されるため、どのアプリケーションを使用する場合でも、データへのアクセスは確実に管理され、コントロールされます。

Q: Lake Formation は API や CLI を提供しますか?

はい。Lake Formation では、Lake Formation 機能をカスタムアプリケーションに統合するための API と CLI が提供されます。Java および C++ SDK も利用可能で、独自のデータエンジンを Lake Formation と統合することができます。

Q: AWS Lake Formation ストレージ API とは何ですか? それを使用する理由は何ですか?

Lake Formation Storage API は、AWS サービス、ISV ソリューション、およびアプリケーションのデベロッパーがデータレイク内のデータを安全かつ確実に読み取りまたは書き込みするための単一のインターフェイスを提供します。データを書き込むために、Storage API は ACID (原子性、一貫性、分離性、永続性) トランザクションを公開します。これにより、信頼性が高く一貫性のある方法を利用して、新しいタイプの Amazon S3 テーブルである Governed Tables にデータを書き込むことができます。データを読み取るために Storage API を使用すると、Lake Formation のきめ細かい許可で保護された Governed Tables および標準 S3 テーブルのデータをクエリできます。Storage API は、フィルタリングされた結果を呼び出し元のアプリケーションに返す前に、自動的に許可を適用します。アクセス許可は、さまざまなサービスとツールに一貫して適用されます。

Standard Product Icons (Features) Squid Ink
AWS Lake Formation の料金に関する詳細はこちら

AWS Lake Formation の料金については、製品の料金ページをご覧ください。

詳細はこちら 
Sign up for a free account
アカウントにサインアップする

AWS 無料利用枠を今すぐご利用ください。 

サインアップ 
Standard Product Icons (Start Building) Squid Ink
コンソールで構築を開始する

AWS マネジメントコンソールで、AWS Lake Formation を使った構築を開始しましょう。

サインイン