データレイクをすばやく構築する
既存のデータベースの場所を指定してアクセス認証情報を指定したら、AWS Lake Formation がデータとそのメタデータ (スキーマ) を読み取ってデータソースの内容を把握します。その後、データを新しいデータレイクにインポートし、中心のカタログにメタデータを記録します。Lake Formation を使用すると、Amazon Relational Database Service (RDS) で実行されているか Amazon Elastic Compute Cloud (EC2) でホストされている MySQL、PostgreSQL、SQL Server、MariaDB、および Oracle データベースから、データをインポートすることができます。一括と増分の両方のデータ読み込みがサポートされています。
Lake Formation を使用すると、Java Database Connectivity (JDBC) と接続することで、オンプレミスのデータベースからデータを移動することができます。ターゲットのソースを特定し、コンソールでアクセス認証情報を入力すると、Lake Formation がデータを読み取ってデータレイクに読み取ります。前述のデータベース以外のデータベースからデータをインポートする場合は、AWS Glue でカスタムの ETL ジョブを作成できます。
Lake Formation を使用すると、その他の Amazon Simple Storage Service (S3) データソースから半構造化データと非構造化データを引き出すこともできます。データが含まれている既存の Amazon S3 バケットを特定して、データレイクにコピーすることができます。S3 パスを指定してデータソースを登録し、アクセスを認証すると、Lake Formation がデータとそのスキーマを読み取ります。Lake Formation は、サービス (AWS CloudTrail、AWS CloudFront、請求明細レポート、AWS Elastic Load Balancing (ELB)) からのログのようなデータセットを、収集して整理することができます。また、カスタムジョブを使用して Amazon Kinesis または Amazon DynamoDB でデータレイクにデータを読み込むこともできます。
Lake Formation は、データソースをクロールして読み取ることで技術的なメタデータ (スキーマ定義など) を抽出し、この情報をユーザーに説明するための検索可能なカタログを作成します。そのため、ユーザーが使用可能なデータベースを検出することができます。また、テーブルレベルと列レベルで、データに独自のカスタムラベルを追加して、「機密情報」や「ヨーロッパの販売データ」などの属性を定義することもできます。 Lake Formations は、このメタデータに対してテキストベースの検索を行うため、ユーザーは分析が必要なデータを素早く見つけることができます。
Lake Formation は、データが分析しやすい方法で保存されるよう、データに対して変換 (一貫性を保つためのさまざまなデータ形式の書き換えなど) を実行します。Lake Formation は、変換テンプレートを作成し、データを分析用に準備するジョブをスケジュールします。データは AWS Glue で変換され、パフォーマンス向上のために Parquet や ORC などの列指向形式で書き込まれます。行全体をスキャンするのに対し、データが列にまとめられている場合は、分析用に読み取るデータが少なくて済みます。AWS Glue と Apache Spark でカスタムの変換を作成して、特定の要件に適合させることができます。
Lake Formation は、重複排除のための FindMatches という機械学習 (ML) の変換を提供して一致するレコードを検索することで、データを消去して分析用に準備することができます。例えば、あるレコードで「121 Main St.」に「Joe's Pizza」をリストされ、別のレコードで「121 Main」に「Joseph's Pizzeria」が示されるといった場合に、FindMatches を使用してレストランのデータベースで重複レコードを検索します。 これを実行するために機械学習についての知識は必要ありません。FindMatches は、レコードのセットに「一致する」または「一致しない」のいずれかのラベルを付けるよう求めるだけです。 その後、このシステムは、1 組のレコードを「一致」と見なす条件を学習し、データベース内の重複レコードまたは 2 つのデータベース間で一致するレコードの検索に使用できる機械学習の変換を構築します。
Lake Formation は、パフォーマンス向上とコスト削減のために、Amazon S3 のデータのパーティションも最適化します。raw データがロードされるパーティションは、小さすぎる (追加の読み取りが必要) ことも、大きすぎる (必要以上のデータを読み取っている) こともあります。 Lake Formation で、使用するデータは、サイズ、時間、および/または関連キーごとに整理されたデータです。これは、最も一般的に使用されるクエリに対して高速スキャンと並行処理の両方で分散された読み取りを有効にします。
セキュリティ管理を簡素化する
Lake Formation は、データレイクのデータに対して Amazon S3 の暗号化機能を使用します。このアプローチによって、AWS Key Management Service (KMS) で管理されるキーによる自動的なサーバー側暗号化を提供できます。S3 では、リージョン間のレプリケーション時に転送中のデータが暗号化され、レプリケーション元のリージョンとレプリケーション先のリージョンに別々のアカウントを使用できるため、内部からの悪意のある削除を防ぐことができます。これらの暗号化機能は、データレイクのすべてのデータのための安全な基盤を提供します。
Lake Formation は、CloudTrail で包括的なログ監査をオンにして、アクセスをモニタリングし、一元的に定義されたポリシーに準拠していることを示すことができます。Lake Formation 経由でデータレイクのデータを読み取る分析と機械学習のサービス全体で、データへのアクセス履歴を監査できます。これにより、どのユーザーまたはロールがどのデータに、どのサービスで、いつアクセスしたかを確認できます。CloudTrail API とコンソールを使用して他の CloudTrail ログにアクセスするのと同じ方法で、監査ログにアクセスできます。
データにセルフサービスアクセスを提供する
Lake Formation では、テーブルプロパティのフィールドをカスタム属性として追加することで、データスチュワードやビジネスユニットなどのデータ所有者を指定できます。所有者は、データの適切な使用を詳細に定義するビジネスメタデータによって、技術的なメタデータを強化することができます。Lake Formation のセキュリティとアクセス制御を使用することで、適切なユースケースを指定し、データの機密性に強化のラベルを付けることができます。
Lake Formation は、データセットへのアクセスのリクエストと提供を容易にして、さまざまな分析ユースケース用のデータレイクへのセルフサービスアクセスをユーザーに提供します。中心のデータカタログに定義されているテーブルに対するアクセス許可の、指定、付与、および取り消しを行うことができます。同じデータカタログを、複数のアカウント、グループ、およびサービスで使用できます。
Lake Formation では、ユーザーが中心のデータセットに記録されたデータセットを、オンラインで、テキストベースの検索とフィルタリングを行うことができます。ユーザーは関連データを、名前、内容、機密性、または定義したカスタムラベルで検索することができます。