AWS Lake Formation は、非常に安全なデータレイクを数日で簡単にセットアップできるサービスです。Lake Formation により継続的な管理も簡単になります。 

データレイクをすばやく構築する

既に AWS にあるデータベースからデータをインポートする

既存のデータベースの場所を指定してアクセス認証情報を指定したら、Lake Formation がデータとそのメタデータ (スキーマ) を読み取ってデータソースの内容を把握します。その後 Lake Formation は、データを新しいデータレイクにインポートし、中心のカタログにメタデータを記録します。Lake Formation を使用すると、Amazon RDS で実行されているか Amazon EC2 でホストされている MySQL、Postgres、SQL Server、MariaDB、および Oracle データベースから、データをインポートすることができます。一括と増分の両方のデータ読み込みがサポートされています。 

その他の外部ソースからデータをインポートする

Lake Formation を使用すると、Java Database Connectivity (JDBC) と接続することで、オンプレミスのデータベースからデータを移動することができます。 ターゲットのソースを特定し、コンソールでアクセス認証情報を入力すると、Lake Formation がデータを読み取ってデータレイクに読み込みます。前述のデータベース以外のデータベースからデータをインポートする場合は、AWS Glue でカスタムの ETL ジョブを作成できます。 

AWS のその他のサービスからデータをインポートする

Lake Formation を使用すると、その他の S3 データソースから半構造化データと非構造化データを引き出すこともできます。データが含まれている既存の Amazon S3 バケットを特定して、データレイクにコピーすることができます。S3 パスを指定してデータソースを登録し、アクセスを認証すると、Lake Formation がデータとそのスキーマを読み取ります。Lake Formation は、サービス (AWS CloudTrail、AWS CloudFront、請求明細レポート、AWS Elastic Load Balancing など) からのログのようなデータセットを、収集して整理することができます。また、カスタムジョブを使用して Amazon Kinesis または Amazon DynamoDB でデータレイクにデータを読み込むこともできます。

データをカタログ化してラベルを付ける

Lake Formation は、データソースをクロールして読み取ることで技術的なメタデータ (スキーマ定義など) を抽出し、この情報をユーザーに説明するための検索可能なカタログを作成します。そのため、ユーザーが使用可能なデータベースを検出することができます。また、データに独自のカスタムラベルを追加して、「機密情報」や「ヨーロッパの販売データ」などの属性を定義することもできます。 Lake Formation はデータレイクの内容を整理するため、ユーザーは分析する必要のあるデータをすばやく見つけることができます。 

データを変換する

Lake Formation は、データが分析しやすい方法で保存されるよう、データに対して変換 (一貫性を保つためのさまざまなデータ形式の書き換えなど) を実行します。Lake Formation は、変換テンプレートを作成し、データを分析用に準備するジョブをスケジュールします。データは AWS Glue で変換され、パフォーマンス向上のために Parquet や ORC などの列指向形式で書き込まれます。 行全体をスキャンするのに対し、データが列にまとめられている場合は、分析用に読み取るデータが少なくて済みます。AWS Glue と Apache Spark でカスタムの変換を作成して、特定の要件に適合させることができます。

データを消去して重複を排除する

Lake Formation は、重複排除のための FindMatches という機械学習の変換を提供して一致するレコードを検索することで、データを消去して分析用に準備することができます。例えば、あるレコードで「121 Main St.」に「Joe's Pizza」をリストされ、別のレコードで「121 Main」に「Joseph's Pizzeria」が示されるといった場合に、Lake Formation の FindMatches を使用してレストランのデータベースで重複レコードを検索します。これを実行するために機械学習についての知識は必要ありません。FindMatches は、レコードのセットに「一致する」または「一致しない」のいずれかのラベルを付けるよう求めるだけです。その後、このシステムは、1 組のレコードを「一致」と見なす条件を学習し、データベース内の重複レコードまたは 2 つのデータベース間で一致するレコードの検索に使用できる ML 変換を構築します。

パーティションを最適化する

Lake Formation は、パフォーマンス向上とコスト削減のために、S3 のデータのパーティションも最適化します。未加工データが読み込まれるパーティションは、小さすぎる (追加の読み取りが必要) ことも、大きすぎる (必要以上のデータを読み取っている) こともあります。 Lake Formation では、データはサイズ、期間、関連するキーで整理されるため、よく使われるクエリの高速なスキャンと並列の分散された読み取りが可能になります。

セキュリティ管理を簡素化する

暗号化を強化する

Lake Formation は、データレイクのデータに対して S3 の暗号化機能を活用します。この方法によって、AWS Key Management Service (KMS) で管理されるキーによる自動的なサーバー側暗号化を使用できます。 S3 では、リージョン間のレプリケーション時に転送中のデータが暗号化され、レプリケーション元のリージョンとレプリケーション先のリージョンに別々のアカウントを使用できるため、内部からの悪意のある削除を防ぐことができます。 これらの暗号化機能は、データレイクのすべてのデータのための安全な基盤を提供します。

アクセス制御を定義して管理する

Lake Formation は、データレイクのデータ用の中心的なアクセス制御を提供します。AWS IAM との統合により、ユーザーとアプリケーションのためのセキュリティポリシーベースのルールを定義できます。ルールを定義した後、Lake Formation は、Amazon Redshift Spectrum、Amazon Athena、および Amazon EMR (Apache Spark の場合) のユーザーに対して、テーブルレベルと列レベルの詳細度でアクセス制御を適用します。 AWS Glue のアクセスは、通常は管理者のみに対して、テーブルレベルで適用されます。Apache Spark の EMR ユーザーは、Active Directory (AD) 統合によって認証することもできます。

監査ログを実装する

Lake Formation は、CloudTrail で包括的な監査をオンにして、アクセスを監視し、一元的に定義されたポリシーに準拠していることを示すことができます。データレイクのデータを読み取る分析と機械学習のサービス全体で、データへのアクセス履歴を監査できます。これにより、どのユーザー、ロール、またはグループが、どのデータに、どのサービスを使って、いつアクセスを試みたかを確認できます。監査ログは、コンソールまたは API を使用して管理することができます。 

データへのセルフサービスアクセスを簡単かつ安全にする

ビジネスメタデータでデータにラベルを付ける

Lake Formation では、データスチュワードやビジネスユニットなどのデータ所有者を、テーブルプロパティのフィールドをカスタム属性として追加することで指定することができます。所有者は、データの適切な使用を詳細に定義するビジネスメタデータによって、技術的なメタデータを強化することができます。Lake Formation のセキュリティとアクセス制御を使用することで、適切なユースケースを指定し、データの機密性に強化のラベルを付けることができます。

セルフサービスのアクセスを有効にする

Lake Formation は、データセットへのアクセスのリクエストと提供を容易にして、さまざまな分析ユースケース用のデータレイクへのセルフサービスアクセスをユーザーに提供します。中心のデータカタログに定義されているテーブルに対するアクセス許可の、指定、付与、および取り消しを行うことができます。同じデータカタログを、複数のアカウント、グループ、およびサービスで使用できます。

分析のために関連データを検出する

Lake Formation では、ユーザーは、中心のデータセットに記録されたデータセットを、オンラインで、テキストベースの検索とフィルタリングを行うことができます。ユーザーは関連データを、名前、内容、機密性、または定義したその他のカスタムラベルで検索することができます。

分析方法を組み合わせてさらに詳しい情報を得る

Lake Formation では、SQL には Athena、データ ウェアハウジングには Redshift、Apache Spark ベースのビッグデータ処理と機械学習には EMR を使用して、分析ユーザーがデータセットのクエリを直接実行できるようにすることができます。これらのサービスを Lake Formation に指定すると、使用可能なデータセットがカタログに表示され、アクセス制御が常時適用されるため、ユーザーは同じデータで分析方法を簡単に組み合わせることができます。 

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS Lake Formation のよくある質問を読む
詳細はこちら 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
アカウントにサインアップする
サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する
サインイン