投稿日: Aug 9, 2019

AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。データレイクとは、キュレートされた安全な一元的リポジトリで、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、データのサイロ化が解消され、異なる種類の分析を組み合わせることが可能になります。このような分析から得られるインサイトは、ビジネス上の意思決定に大きく貢献します。

とはいえ、現在のデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要です。タスクの例として、各種ソースからのデータの読み込み、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴うジョブの明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、機械学習を使用したデータセット全体におけるほぼ重複するデータや一致するレコードの特定、データセットへのアクセス許可の付与、経時的なアクセス監査などが挙げられます。 

AWS Lake Formation を利用すれば、データが配置される場所と、適用するデータアクセスおよびセキュリティポリシーを定義するだけでデータレイクを作成できます。データレイクの作成後は、AWS Lake Formation が、データベースおよびオブジェクトストレージからのデータの収集とカタログ化、新しく作成した Amazon S3 データレイクへのデータの移動、機械学習アルゴリズムを用いたデータのクリーンアップと分類、機密データに対するアクセスのセキュア化といった各種タスクを行います。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を示すものです。ユーザーはこれらのデータセットを好みの分析や機械学習サービス (Apache Spark 向け Amazon EMR、Amazon Redshift、Amazon Redshift Spectrum、Amazon Athena など) と併せて活用できます。 

AWS Lake Formation は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド)、アジアパシフィック (東京) の AWS リージョンでご利用いただけます。AWS Lake Formation が利用可能なすべてのリージョンは、AWS リージョンのページでご確認いただけます。AWS Lake Formation の使用を開始するには、AWS Lake Formation コンソールにアクセスしてください。