AWS Lake Formation の特徴

データレイクをすばやく構築する

既に AWS にあるデータベースからデータをインポートする

既存のデータベースの場所を指定してアクセス認証情報を指定したら、AWS Lake Formation がデータとそのメタデータ (スキーマ) を読み取ってデータソースの内容を把握します。その後、データを新しいデータレイクにインポートし、中心のカタログにメタデータを記録します。Lake Formation を使用すると、Amazon Relational Database Service (RDS) で実行されているか Amazon Elastic Compute Cloud (EC2) でホストされている MySQL、PostgreSQL、SQL Server、MariaDB、および Oracle データベースから、データをインポートすることができます。一括と増分の両方のデータ読み込みがサポートされています。 

その他の外部ソースからデータをインポートする

Lake Formation を使用すると、Java Database Connectivity (JDBC) と接続することで、オンプレミスのデータベースからデータを移動することができます。ターゲットのソースを特定し、コンソールでアクセス認証情報を入力すると、Lake Formation がデータを読み取ってデータレイクに読み取ります。前述のデータベース以外のデータベースからデータをインポートする場合は、AWS Glue でカスタムの ETL ジョブを作成できます。 

AWS のその他のサービスからデータをインポートする

Lake Formation を使用すると、その他の Amazon Simple Storage Service (S3) データソースから半構造化データと非構造化データを引き出すこともできます。データが含まれている既存の Amazon S3 バケットを特定して、データレイクにコピーすることができます。S3 パスを指定してデータソースを登録し、アクセスを認証すると、Lake Formation がデータとそのスキーマを読み取ります。Lake Formation は、サービス (AWS CloudTrail、AWS CloudFront、請求明細レポート、AWS Elastic Load Balancing (ELB)) からのログのようなデータセットを、収集して整理することができます。また、カスタムジョブを使用して Amazon Kinesis または Amazon DynamoDB でデータレイクにデータを読み込むこともできます。

データをカタログ化してラベルを付ける

Lake Formation は、データソースをクロールして読み取ることで技術的なメタデータ (スキーマ定義など) を抽出し、この情報をユーザーに説明するための検索可能なカタログを作成します。そのため、ユーザーが使用可能なデータベースを検出することができます。また、テーブルレベルと列レベルで、データに独自のカスタムラベルを追加して、「機密情報」や「ヨーロッパの販売データ」などの属性を定義することもできます。 Lake Formations は、このメタデータに対してテキストベースの検索を行うため、ユーザーは分析が必要なデータを素早く見つけることができます。 

データを変換する

Lake Formation は、データが分析しやすい方法で保存されるよう、データに対して変換 (一貫性を保つためのさまざまなデータ形式の書き換えなど) を実行します。Lake Formation は、変換テンプレートを作成し、データを分析用に準備するジョブをスケジュールします。データは AWS Glue で変換され、パフォーマンス向上のために Parquet や ORC などの列指向形式で書き込まれます。行全体をスキャンするのに対し、データが列にまとめられている場合は、分析用に読み取るデータが少なくて済みます。AWS Glue と Apache Spark でカスタムの変換を作成して、特定の要件に適合させることができます。

データを消去して重複を排除する

Lake Formation は、重複排除のための FindMatches という機械学習 (ML) の変換を提供して一致するレコードを検索することで、データを消去して分析用に準備することができます。例えば、あるレコードで「121 Main St.」に「Joe's Pizza」をリストされ、別のレコードで「121 Main」に「Joseph's Pizzeria」が示されるといった場合に、FindMatches を使用してレストランのデータベースで重複レコードを検索します。 これを実行するために機械学習についての知識は必要ありません。FindMatches は、レコードのセットに「一致する」または「一致しない」のいずれかのラベルを付けるよう求めるだけです。 その後、このシステムは、1 組のレコードを「一致」と見なす条件を学習し、データベース内の重複レコードまたは 2 つのデータベース間で一致するレコードの検索に使用できる機械学習の変換を構築します。

パーティションを最適化する

Lake Formation は、パフォーマンス向上とコスト削減のために、Amazon S3 のデータのパーティションも最適化します。raw データがロードされるパーティションは、小さすぎる (追加の読み取りが必要) ことも、大きすぎる (必要以上のデータを読み取っている) こともあります。 Lake Formation で、使用するデータは、サイズ、時間、および/または関連キーごとに整理されたデータです。これは、最も一般的に使用されるクエリに対して高速スキャンと並行処理の両方で分散された読み取りを有効にします。

行レベルおよびセルレベルのセキュリティ
Lake Formation は、列と行の組み合わせへのアクセスを制限できるデータフィルターを提供します。行レベルおよびセルレベルのセキュリティを使用して、個人識別情報 (PII) などの機密データを保護します。

セキュリティ管理を簡素化する

暗号化を強化する

Lake Formation は、データレイクのデータに対して Amazon S3 の暗号化機能を使用します。このアプローチによって、AWS Key Management Service (KMS) で管理されるキーによる自動的なサーバー側暗号化を提供できます。S3 では、リージョン間のレプリケーション時に転送中のデータが暗号化され、レプリケーション元のリージョンとレプリケーション先のリージョンに別々のアカウントを使用できるため、内部からの悪意のある削除を防ぐことができます。これらの暗号化機能は、データレイクのすべてのデータのための安全な基盤を提供します。

アクセス制御を定義して管理する
Lake Formation は、データレイクのデータ用の中心的なアクセス制御を管理するための単一の場所を提供します。データベース、テーブル、列、行、およびセルのレベルでデータへのアクセスを制限するセキュリティポリシーを定義できます。これらのポリシーは、AWS Identity and Access Management (IAM) のユーザーとロール、および外部 ID プロバイダーを介してフェデレーションする場合のユーザーとグループに適用されます。きめ細かいコントロールを使用して、Amazon Redshift Spectrum、Amazon Athena、AWS Glue ETL、および Amazon EMR for Apache Spark 内の Lake Formation によって保護されたデータにアクセスできます。
監査ログを実装する

Lake Formation は、CloudTrail で包括的なログ監査をオンにして、アクセスをモニタリングし、一元的に定義されたポリシーに準拠していることを示すことができます。Lake Formation 経由でデータレイクのデータを読み取る分析と機械学習のサービス全体で、データへのアクセス履歴を監査できます。これにより、どのユーザーまたはロールがどのデータに、どのサービスで、いつアクセスしたかを確認できます。CloudTrail API とコンソールを使用して他の CloudTrail ログにアクセスするのと同じ方法で、監査ログにアクセスできます。

Governed tables
ACID (原子性、一貫性、分離性、永続性) トランザクションを使用して、複数のユーザーとジョブがデータを Amazon S3 の複数のテーブルに確実かつ一貫して挿入できるようにします。Governed Tables のトランザクションは競合とエラーを自動的に管理し、すべてのユーザーに対して一貫したビューを保証します。Amazon Redshift、Amazon Athena、および AWS Glue からのトランザクションを使用して、Governed Tables にクエリを実行できます。

データにセルフサービスアクセスを提供する

ビジネスメタデータでデータにラベルを付ける

Lake Formation では、テーブルプロパティのフィールドをカスタム属性として追加することで、データスチュワードやビジネスユニットなどのデータ所有者を指定できます。所有者は、データの適切な使用を詳細に定義するビジネスメタデータによって、技術的なメタデータを強化することができます。Lake Formation のセキュリティとアクセス制御を使用することで、適切なユースケースを指定し、データの機密性に強化のラベルを付けることができます。

セルフサービスのアクセスを有効にする

Lake Formation は、データセットへのアクセスのリクエストと提供を容易にして、さまざまな分析ユースケース用のデータレイクへのセルフサービスアクセスをユーザーに提供します。中心のデータカタログに定義されているテーブルに対するアクセス許可の、指定、付与、および取り消しを行うことができます。同じデータカタログを、複数のアカウント、グループ、およびサービスで使用できます。

分析のために関連データを検出する

Lake Formation では、ユーザーが中心のデータセットに記録されたデータセットを、オンラインで、テキストベースの検索とフィルタリングを行うことができます。ユーザーは関連データを、名前、内容、機密性、または定義したカスタムラベルで検索することができます。

分析方法を組み合わせてさらに詳しいインサイトを得る
Lake Formation では、SQL には Athena、データウェアハウジングには Redshift、データ統合と準備には AWS Glue、Apache Spark ベースのビッグデータ処理と機械学習 (Zeppelin ノートブック用) には EMR を使用して、分析ユーザーがデータセットのクエリを直接実行できるようにすることができます。これらのサービスを Lake Formation に指定すると、使用可能なデータセットがカタログに表示され、アクセス制御が常時適用されるため、ユーザーは同じデータで分析方法を簡単に組み合わせることができます。
AWS Lake Formation の料金に関する詳細はこちら

AWS Lake Formation の料金については、製品の料金ページをご覧ください。

詳細はこちら 
アカウントにサインアップする

AWS 無料利用枠を今すぐご利用ください。 

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで、AWS Lake Formation を使った構築を開始しましょう。

サインイン