Amazon Web Services ブログ

AWS Lake Formation が大阪リージョンでご利用いただけます

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、シニアエバンジェリストの亀田です。

AWS Lake Formation が大阪リージョンでご利用いただけるようになりましたのでお知らせいたします。

AWS Lake Formation

Lake Formation は、安全なデータレイクを数日で簡単にセットアップすることができるサービスです。データレイクとは、安全な一元的データリポジトリであり、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、組織間で個別にデータを管理するといったデータのサイロ化が解消され、異なる種類のデータや異なるテクノロジーによる分析を組み合わせることが可能になり、データから価値を見出す可能性を高めます。

データレイクの構築には、各種ソースからのデータの読み込み、データ配置場所の設定、SQL処理用のパーティション設定、暗号化設定、それぞれのデータ配置場所に権限を適切に設定する、など複雑で時間のかかる手作業のタスクが数多く必要となります。ほかにも、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、冗長データの重複排除、連結レコードのマッチング、データセットへのアクセス許可付与、経時的なアクセス監査などが挙げられます。

Lake Formation はデータベースとオブジェクトストレージからデータを収集およびカタログ化し、データを新しい Amazon S3 データレイクに移動し、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。これらのタスクが完了すると、ユーザーは、AWS Glue によって管理される、一元化されたデータカタログにアクセスできるようになり、Amazon RedshiftAmazon Athena などの分析や機械学習サービスから分析を行うことが可能となります。

Lake Formationのデータ整理機能とセキュリティ

Lake Formationは単純に複数のデータソースからデータを集約し、適切な保存場所にデータを保存するだけではなく、分析作業の効率を想定したデータ変換機能が提供されます。データソースに Lake Formation をポイントするだけで、ソースをクロールし、S3 データレイクにデータを移動します。データを頻繁に使用されるクエリ用語で整理し、適切なサイズにまとめ、効率性の向上が期待できます。分析を速めるためにデータを Apache Parquet や ORC などのフォーマットに変換したり、機械学習の力を使ってレコードの重複を排除しデータの品質を向上します。

複数のデータソースからデータを集約し、カタログがした後、複数の分析サービスがそこにアクセスを行うこととなるため、個別のセキュリティ設定は複雑化する傾向にあり、都度手作業で設定を行う場合、不必要に大きい権限が付与されている、などの問題が発生するケースがあります。Lake Formation では、セキュリティ、ガバナンス、監査のポリシーを一元で 1 つの場所で定義でき、サービスごとにこれらのタスクを行う必要はなくなります。ポリシー定義後は、これらのポリシーをユーザーの分析アプリケーション全体に適用できます。定義したポリシーは一貫して実装され、セキュリティサービス (AWS Identity and Access ManagementAWS Key Management Service)、ストレージサービス (S3)、分析および機械学習サービス (Redshift、Athena、Apache Spark 向け EMR) 全体に手動で設定する必要はありません。これにより、サービス全体でのポリシーの設定に必要な労力を軽減し、一貫した実行とコンプライアンスが実現します。

https://play.vidyard.com/NzmigKZhj4cqw2rfm8Zjie.html

弊社ソリューションアーキテクトの久保による解説動画がありますので合わせてご覧ください。

– シニアエバンジェリスト 亀田