Amazon Web Services (AWS) のお客様の多くが、俊敏性と柔軟性の面で従来のデータ管理システムを超える、データストレージおよび分析ソリューションを必要としています。幅広いソースに由来する複数のデータタイプを管理し、構造化データまたは非構造化データとして集中リポジトリに保存できるデータレイクは、データの保存と分析の新たな方法としてますます企業に普及しています。
AWS クラウドには、お客様が安全かつ柔軟で費用対効果に優れたデータレイクを実装するために必要な構成要素の多くが用意されています。この中には、構造化と非構造化データの両方の取り込み、保存、検索、処理、分析に役立つ AWS マネージドサービスが含まれます。お客様のデータレイク構築をサポートするために、AWS は AWS でのデータレイクを提供しています。これは、AWS クラウドでの高可用性とコスト効率の高いデータレイクアーキテクチャをデプロイし、データセットの検索とリクエストのためのユーザーフレンドリーなコンソールを備えています。
概要
AWS でのデータレイクでは、企業全体や外部ユーザーとの間で特定のデータサブセットのタグ付け、検索、共有、変換、分析、制御を簡単に行うために必要な、AWS の中核サービスを自動的に構成できます。このガイダンスでは、ユーザーがビジネスのニーズに合わせて利用可能なデータセットの検索や閲覧ができるコンソールがデプロイされます。Microsoft Active Directory と統合できるバージョンのソリューションをローンチ可能にするフェデレーションテンプレートもそれに含まれます。
下の図表は、GitHub にあるサンプルコードを使って構築できるデータレイクアーキテクチャを示しています。

AWS でのデータレイクアーキテクチャ
このコードは、AWS Lambda マイクロサービス (関数) のセット、Amazon OpenSearch Service による堅牢な検索機能、Amazon Cognito によるユーザー認証、AWS Glue によるデータ変換、Amazon Athena による分析を設定します。
AWS でのデータレイクでは、組織のデータセットの永続的なカタログの管理に Simple Storage Service (Amazon S3) の持つ安全性、耐久性、スケーラビリティが活用され、対応するメタデータの管理には Amazon DynamoDB が使用されます。データセットのカタログ化が完了すると、属性と記述タグを検索に利用できるようになります。ユーザーはコンソールから利用できるデータセットの検索とブラウズを実行でき、アクセスが必要なデータのリストを作成できます。ユーザーが選んだデータセットを記録し、必要なコンテンツへの安全なアクセスリンクを含んだマニフェストファイルをチェックアウト時に生成します。