AWS でのデータレイクと分析

データレイクと分析のソリューションを構築するための、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオ

 

近年、分析を必要とするデータはサイズが大きく複雑になっているため、過去に使用していたテクノロジーとアプローチが今では役に立たなくなっています。AWS では、データから最大限の価値を引き出すために、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオを提供しています。このサービスポートフォリオを使用すると、クラウド上にデータレイクを構築し、機械学習を含むさまざまな分析アプローチを使用して IoT デバイスのデータなどすべてのデータを分析できます。

AWS でデータレイクを構築して分析を行っている企業は増えており、その数は業界トップです。NASDAQ、Zillow、Yelp、iRobot、FINRA といった企業が AWS に信頼を寄せ、ビジネスに重要な分析ワークロードを実行しています。

AWS でのデータレイクと分析

AWS でのデータレイクと分析

AWS では、データレイクと分析のソリューションを構築する方法として、データを移動、保存、分析するための非常に包括的な一連のサービスを提供しています。

aws-datalake-diagram-simplified

データ移動

オンプレミスからリアルタイムでデータをインポートします。

データレイク

ギガバイトからエクサバイトまで、あらゆるタイプのデータを安全に保存します。

分析

広範な分析ツールと分析エンジンを使用してデータを分析します。

Machine Learning

将来の結果を予測し、アクションを指示します。

データ移動

AWS でデータレイクを構築するための最初のステップは、クラウドにデータを移動することです。帯域幅や転送速度に物理的な制約がある場合、大きな中断を避け、かつ多大なコストや作業時間をかけずに、データを移動することには限界があります。AWS では、簡単かつ柔軟なデータ転送を実現するために、クラウドにデータを転送するための幅広いオプションを用意しています。

オンプレミスデータの移動

AWS では、データセンターから AWS にデータを移動するためにさまざまな方法を提供しています。お客様のネットワークと AWS との間に専用ネットワークを確立するには、AWS Direct Connect を使用できます。物理アプライアンスを使用してペタバイト規模からエクサバイト規模までのデータを AWS に移動するには、AWS SnowballAWS Snowmobile を使用できます。 オンプレミスアプリケーションから直接 AWS にデータを保存するには、AWS Storage Gateway を使用できます。 

リアルタイムのデータ移動

AWS では、ウェブサイト、モバイルアプリケーション、インターネット接続デバイスといった新しいソースが生成するリアルタイムデータを取り込むためにさまざまな方法を用意しています。ストリーミングデータや IoT デバイスデータを簡単にキャプチャおよびロードするには、Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core を使用できます。 

データレイク

クラウド上にデータの準備ができたら、Amazon S3 と Amazon Glacier を使用して、大規模なデータをあらゆるデータ形式で安全かつ簡単に保存できます。  分析に使用するための関連データをエンドユーザーが簡単に検出できるようにするには、AWS Glue を使用して、ユーザーによる検索とクエリの実行ができる、単一のカタログを自動的に作成します。

オブジェクトストレージ

Amazon S3

Amazon S3 は、安全かつ非常にスケーラブルで耐久性に優れたオブジェクトストレージで、ミリ秒単位のレイテンシーでデータにアクセスできます。S3 は、ウェブサイトおよびモバイルアプリケーション、社内アプリケーション、IoT センサーまたはデバイスからのデータなど、生成された場所や種類に関係なくデータを保存できるように設計されています。他のストレージとは比較にならない可用性を実現しながら、どのような量のデータでも保存および取得できるように構築されており、99.999999999% (イレブンナイン) の耐久性を持つようにゼロから開発されました。S3 では最も厳格なセキュリティ要件を満たす包括的なセキュリティおよびコンプライアンス機能が提供されます。 

バックアップとアーカイブ

Amazon Glacier

Amazon Glacier は、安全性と耐久性に優れたきわめて低コストのストレージです。長期間のバックアップとアーカイブに適しており、数分でデータにアクセスできます。 99.999999999% (イレブンナイン) の耐久性を実現するように設計されており、最も厳格な規制要件にも対応できる包括的なセキュリティ機能およびコンプライアンス機能があります。お客様はデータの量にかかわらず、1 か月あたりわずか 0.004 USD/GB でデータを保存できるので、オンプレミスのソリューションに比べてコストを大幅に削減できます。

データカタログ

AWS Glue

AWS Glue は完全マネージド型のサービスで、データレイクのデータを検出可能にするデータカタログを提供します。また、分析に備えてデータを抽出、変換、ロード (ETL) する機能も備えています。データカタログは、すべてのデータアセットの永続的なメタデータストアとして自動的に作成されます。これにより、単一のビューですべてのデータに対する検索とクエリの実行が可能になります。

分析

AWS では、最も広範でコスト効率に優れていて、データレイクで実行できる一連の分析サービスを提供しています。各分析サービスは、インタラクティブ分析、Hadoop や Spark を使用したビッグデータの処理、データウェアハウジング、リアルタイム分析、運用上の分析、ダッシュボード、可視化といったさまざまな分析ユースケースに適するように構築されています。

インタラクティブ分析

Amazon Athena

インタラクティブ分析を行う場合、Amazon Athena を使用すると、標準的な SQL クエリを使用して S3 や Glacier で直接、簡単にデータを分析できます。Athena はサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。操作は簡単で、Amazon S3 にあるデータを指定し、スキーマを定義し、標準的な SQL を使用してクエリの実行を開始するだけです。多くの場合、数秒で結果が出てきます。 

ビッグデータ処理

Amazon EMR

Hadoop や Spark フレームワークを使用してビッグデータ処理を行う場合、Amazon EMR を使用すると、大量のデータをコスト効率に優れた方法で簡単かつ高速に処理できるマネージドサービスが提供されます。Amazon EMR は、HadoopSparkHBasePresto といった 19 のさまざまなオープンソースプロジェクトをサポートしています。バージョンリリースの 30 日以内に EMR 内で各プロジェクトが更新され、その最も優れた最新バージョンをコミュニティから取得できます。

データウェアハウジング

Amazon Redshift

データウェアハウジングの場合、Amazon Redshift を使用すると、ペタバイト規模の構造化データに対して複雑な分析クエリを実行できます。さらに、このサービスに含まれている Redshift Spectrum を使用すると、S3 に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接 SQL クエリを実行できます。このときにデータを移動する必要はありません。Amazon Redshift に必要なコストは、従来のソリューションと比較して 10 分の 1 です。1 時間あたりわずか 0.25 USD の小規模から開始して、1 テラバイトにつき年間 1,000 USD の料金であるペタバイト規模のデータ処理までスケールアウトできます。

リアルタイム分析

Amazon Kinesis

リアルタイム分析を行う場合、Amazon Kinesis を使用すると、IoT のテレメトリーデータ、アプリケーションログ、ウェブサイトのクリックストリームといったストリーミングデータを簡単に収集、処理、分析できます。Amazon Kinesis は、データレイクでデータを受信するとすぐに処理と分析を行うため、すべてのデータが収集されるのを待たずに処理を開始してリアルタイムで応答することが可能です。

運用上の分析

Amazon Elasticsearch Service

アプリケーションのモニタリング、ログ分析、クリックストリーム分析といった運用上の分析を行う場合、Amazon Elasticsearch Service を使用すると、データの検索、調査、フィルタリング、集計、可視化をほぼリアルタイムで実行できます。Amazon Elasticsearch Service は、Elasticsearch の使いやすい API とリアルタイム分析機能とともに、本番ワークロードに必要な可用性、スケーラビリティ、セキュリティを備えています。

 

ダッシュボードと可視化

Amazon QuickSight

ダッシュボードと可視化については、クラウドを活用した高速なビジネス分析サービスである Amazon QuickSight を使用すると、簡単に最適な可視化を行って、ブラウザやモバイルデバイスからアクセスできる優れたダッシュボードを作成できます。

 

Machine Learning

AWS では、予測分析のユースケースのために、機械学習の広範なサービスセットと、AWS のデータレイクで使用できるツールを提供しています。AWS のサービスは、Amazon で構築してきた知識と機能に基づいています。Amazon では、Amazon.com のレコメンデーションエンジン、サプライチェーン、予測、フルフィルメントセンター、キャパシティープランニングに機械学習を活用しています。 

フレームワークとインターフェイス

AWS では、機械学習の専門家やデータサイエンティスト向けに AWS 深層学習 AMI を提供しています。これにより、深層学習モデルを構築することや、機械学習および深層学習向けに最適化された GPU インスタンスを使用してクラスターを構築することが容易になります。AWS では、TensorFlow、Caffe2、Apache MXNet などの主要なすべての機械学習フレームワークをサポートしているため、任意のモデルを使用または構築することができます。このようなサービスにより、深層学習および機械学習のワークロードで必要になる、非常に高い能力、速度、効率性が提供されます。

プラットフォームサービス

Amazon SageMaker は、機械学習に関して深い知識を求める開発者向けのプラットフォームサービスです。このサービスを使用すると、機械学習モデルの構築、トレーニング、デプロイといったプロセス全体を簡単に実行できます。トレーニングデータへの接続、最適なアルゴリズムとフレームワークの選択および最適化、Amazon EC2 の Auto Scaling クラスターでのモデルデプロイを行うために必要なツールがすべて備わっています。また、SageMaker にはホスト型の Jupyter Notebook が含まれており、Amazon S3 に保存されているトレーニングデータを簡単に分析し可視化できます。

アプリケーションサービス

AWS では、事前に構築された AI 機能をアプリケーションに組み込みたいと考えている開発者のために、コンピュータビジョンおよび自然言語処理に適したソリューション指向の API を提供しています。これらのアプリケーションサービスによって、開発者は独自のモデルを開発およびトレーニングすることなく、アプリケーションにインテリジェンスを追加することができます。

非常に多くの企業がデータレイクと分析の構築に AWS を選択

データレイクと分析に AWS が選択される理由

柔軟性と選択肢

AWS では、オープンフォーマットおよびオープンスタンダードを使用してデータを分析する、分析ツールと分析エンジンを幅広く提供しています。データの保存には、CSV、ORC、Grok、Avro、Parquet といった標準ベースのデータ形式を選択できます。また、データの分析には、データウェアハウジング、インタラクティブな SQL クエリ、リアルタイム分析、ビッグデータ処理などのさまざまな方法を柔軟に選択できます。AWS に保存されているデータには幅広い分析サービスを使用できるため、現在および将来の分析ユースケースのニーズに確実に対応できます。

非常に高いスケーラビリティと可用性

Amazon S3 は、他のストレージとは比較にならない可用性を実現しながら、どのような量のデータでも保存および取得できるように構築されており、99.999999999% (イレブンナイン) の耐久性を持つようにゼロから開発されました。S3 では、単一の AWS リージョン内における 3 つのアベイラビリティーゾーンに配置された複数のデータセンターにデータを保存します。データセンターが 1 つの場合とは比較にならない耐障害性を実現している唯一のストレージ製品です。また、あらゆるリージョン間でシームレスにデータをレプリケートできる唯一のストレージ製品でもあります。

高い安全性

S3 は、アクセスポリシー、ログポリシー、監査ポリシーをアカウントレベルおよびオブジェクトレベルで適用できる唯一のクラウドストレージサービスです。S3 では、自動的なサーバー側暗号化、AWS Key Management Service (KMS) で管理されるキーによる暗号化、ユーザーが管理するキーによる暗号化を使用できます。S3 では、リージョン間のレプリケーション時に転送中のデータが暗号化され、レプリケーション元のリージョンとレプリケーション先のリージョンに別々のアカウントを使用できるため、内部からの悪意のある削除を防ぐことができます。機械学習を活用したセキュリティサービスである Amazon Macie を使用すると、攻撃の初期段階を事前に検出するために、データアクセスの異常なアクティビティをモニタリングし、不正なアクセスや不注意によるデータ漏洩のリスクが検出された場合に詳細なアラートを生成できます。

優れたコスト効率

AWS に構築されたデータレイクは、最もコスト効率に優れています。使用頻度の低いデータは、Amazon Glacier に移動させると、非常に低コストで長期間のバックアップとアーカイブを行うことができます。Amazon S3 の管理機能を使用すると、オブジェクトのアクセスパターンを分析し、使用頻度の低いデータをオンデマンドで、またはライフサイクルポリシーに基づいて自動的に Glacier に移動できます。Amazon Athena を使用すると、1 GB あたりわずか 0.005 USD でデータのクエリ実行を開始できます。 その他の分析サービスと機械学習サービスは、使用したリソースに対する従量課金制の料金体系で使用できます。

高速なパフォーマンス

Amazon Redshift や Amazon Athena のような AWS の分析サービスは、インタラクティブクエリで高速なパフォーマンスを実現するよう構築されており、多数の同時実行可能なインタラクティブクエリをサポートしています。Amazon S3 Select を使用して AWS の分析サービスおよび機械学習サービスの広範なポートフォリオを使用すると、オブジェクト内で必要なデータのサブセットのみが返されるため、非常に高速なクエリの実行 (最大 400% の高速化) が可能で、コストを大幅に削減できます。Glacier Select にも同様の機能があり、アーカイブされたデータを迅速に取得できます。また、分析機能をデータレイク全体に拡張して、アーカイブストレージを分析対象に含めることができます。 

 

大規模なパートナーネットワーク

AWS パートナーネットワーク (APN) は、世界中のコンサルティングおよび独立系ソフトウェアベンダーを含む数万ものパートナーで構成されており、パートナーの数は他社に比べて 2 倍になります。これにより、お客様が現在使用しているお気に入りのツールの大部分と簡単に連携および統合できます。AWS のソリューションアーキテクトとパートナーが開発したデータレイククイックスタートを使用すると、セキュリティと高可用性に関する AWS のベストプラクティスに基づいて、データレイクソリューションの構築、テスト、デプロイをいくつかの簡単なステップで行うことができます。 

 

AWS の開始方法

icon1

AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。
詳細については、 データレイクとはをご覧ください。
icon2

AWS でのデータレイクの詳細について確認する

AWS でのデータレイクのデプロイについて詳しくは、 こちらをご覧ください。
データレイクのアーキテクチャの設計に関するセッションは こちらから、ビッグデータのアーキテクチャパターンに関するセッションは こちらから視聴できます。
FINRAAmazon.comRovioSysco Foods といったお客様がデータレイクを構築した方法についてのセッションをご覧ください。
 
icon3

AWS で構築を開始する

データを Amazon S3 にアップロードし、AWS Glue でデータの カタログを作成して、Amazon Athena でデータの クエリを開始してください。Amazon Redshift Spectrum で データウェアハウジングのクエリ、Amazon EMR で Hadoop と Spark、Amazon Sagemaker で Machine Learningを実行してください。
 
POC についてのサポートが必要な場合は、 お問い合わせいただくか、 AWS クリックスタートを使ってデータレイクをデプロイしてください。
 
ご不明な点がおありですか?
お問い合わせ