AWS でのデータレイク

Amazon S3 データレイクでデータサイロを排し、大規模な分析を可能にする

概要

AWS 上でのデータレイクは、データサイロを排して、エンドツーエンドのデータインサイトを最大化するのに役立ちます。 データレイクの基盤として Amazon Simple Storage Service (Amazon S3) を使用すると、データインジェスト、移動、保存から、ビッグデータ分析、ストリーミング分析、ビジネスインテリジェンス、機械学習 (ML) などのデータニーズをサポートするために AWS 分析サービスを、すべて極めて高い料金パフォーマンスで利用できます。AWS では 100 万を超えるデータレイクが稼働しています。

Amazon S3 は、比類のない耐久性、可用性、スケーラビリティ、セキュリティ、コンプライアンス、監査機能を備えているため、データレイクを構築するのに最適な場所です。AWS Lake Formation を使用すると、数か月ではなく数日で安全なデータレイクを構築することができます。AWS Glue を使用すると、データレイクと専用データおよび分析サービスとの間でシームレスなデータ移動が可能になります。

データの可能性を最大限に引き出す

Amazon S3 に構築されたデータレイクで、最新のデータ戦略に最適な基盤を築きましょう。

AWS によるデータレイクの利点

Amazon S3 はコスト効率良く、実質的に無制限にスケールできるため、あらゆるソースのあらゆるデータを保存し、その価値を解き放つことができます。
すべてのデータを分析に利用できるため、組織は節約や個別化の新しい機会を発見するなど、イノベーションを加速させることができます。機械学習や予測分析のために、より幅広いデータの連続性にアクセスすることができます。
専用の AWS の分析サービスを使用すると、ニーズに合わせて最高のパフォーマンス、スケール、コストを提供するために最適化された、ジョブに最も適したツールを使用して、データのインサイトをすばやく抽出することができます。
クラウドのデータ分析に最も適したサーバーレスオプションを持つ AWS の分析サービスは、使用、管理、運用が簡単です。

Amazon S3 と Amazon DataZone を利用したデータレイク上のデータガバナンス

効果的なデータガバナンスは、データの完全性と信頼性を実現するための鍵です。データレイクが組織にとって重要な理由、データガバナンスの AWS モデル、データレイクの管理に役立つさまざまなサービスをご覧ください。  

AWS 上でのデータレイクに不可欠な柱

Amazon S3 に構築されたデータレイクでは、ネイティブの AWS のサービスを利用して、ビッグデータ分析、人工知能 (AI)、機械学習、ハイパフォーマンスコンピューティング (HPC)、ならびにメディアデータ処理を行うアプリケーションを実行し、非構造化データセットからインサイトを得ることができます。AWS Lake Formation と AWS Glue を組み合わせると、エンドツーエンドのデータ統合と、データベースのような集中型のアクセス許可とガバナンスにより、簡単に、データレイクの作成と管理を簡素化することができます。Glue、Amazon EMR、Amazon Athena などの AWS 分析ソリューションにより、データレイクに直接クエリを実行することが容易になります。

AWS Glue を使用すると、リアルタイムまたはバッチで、任意の量のデータをインポートすることができます。複数のソースからデータを収集し、オリジナルのフォーマットでデータレイクに移動できます。また、AWS の分析サービスを使用して、データレイクに直接クエリを実行することもできます。AWS Glue のようなデータ統合、発見、準備、変換ツールがあれば、データ構造、スキーマ、変換を定義する時間を節約しながらスケールすることができます。

データレイクにはさまざまなデータソースやフォーマットがありますが、データのクロール、カタログ化、インデックス化、および保護が可能であることは、ユーザーへのアクセスを確保するために重要です。AWS Glue は、データレイク内のデータをよりよく理解できるように、合理的で一元化されたデータカタログを提供します。AWS Lake Formation は、データガバナンスとセキュリティを一元化することで、自信を持ってデータをデプロイできるようにします。

データサイエンティスト、データデベロッパー、ビジネスアナリストなど、組織内のさまざまなユーザーが、専用の AWS 分析ツールやフレームワークを選択して、データに簡単にアクセスできます。データを別の分析システムに移動させる必要なく、簡単かつ迅速に分析を実行することができます。

AWS 上でのデータレイクでは、最も包括的な AI と機械学習のサービスセットでイノベーションを加速します。データレイクで機械学習を有効にすると、正確な予測、データからのより深いインサイトの獲得、運用上のオーバーヘッドの削減、カスタマーエクスペリエンスの向上が可能になります。

データレイクのデータを管理

AWS を使用して、きめ細かなデータアクセス権限を一元管理およびスケーリングできます。