投稿日: Nov 28, 2018
AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップするためのサービスです。データレイクとは、キュレートされた安全な一元的リポジトリであり、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、データのサイロ化が解消され、異なる種類の分析を組み合わせることが可能になります。このような分析から得られるインサイトは、ビジネス上の意思決定に大きく貢献します。
とはいえ、今日のデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要となります。このようなタスクの例としては、各種ソースからのデータの読み込み、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、冗長データの重複排除、連結レコードのマッチング、データセットへのアクセス許可付与、経時的なアクセス監査などが挙げられます。
Lake Formation を利用すれば、データが配置される場所と、適用するデータアクセスおよびセキュリティポリシーを定義するだけでデータレイクを作成できます。データレイクの作成後は、Lake Formation が、データベースおよびオブジェクトストレージからのデータの収集とカタログ化、新しく作成した Amazon S3 データレイクへのデータの移動、機械学習アルゴリズムを用いたデータのクリーンアップと分類、機密データに対するアクセスのセキュア化といった各種タスクを担います。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を示すものです。これらのデータセットは、分析や機械学習に関する各種サービス (Amazon EMR での Apache Spark、Amazon RedShift、Amazon Athena、Amazon SageMaker、Amazon QuickSight など) と併せて活用できます。
詳細およびプレビューへのサインアップについては、AWS Lake Formation のウェブページを参照してください。
2018 年 12 月 10 日の AWS Lake Formation に関するオンラインセミナーに参加するには、こちらをクリックして登録してください。