AWS でのデータレイクと分析

データレイクと分析のソリューションを構築するための、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオ

 

近年、分析を必要とするデータはサイズが大きく複雑になっているため、過去に使用していたテクノロジーとアプローチが今では役に立たなくなっています。AWS では、データから最大限の価値を引き出すために、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオを提供しています。このサービスポートフォリオを使用すると、クラウド上にデータレイクを構築し、機械学習を含むさまざまな分析アプローチを使用して IoT デバイスのデータなどすべてのデータを分析できます。

AWS でデータレイクを構築して分析を行っている企業は増えており、その数は業界トップです。NASDAQ、Zillow、Yelp、iRobot、FINRA といった企業が AWS に信頼を寄せ、ビジネスに重要な分析ワークロードを実行しています。

AWS でのデータレイクと分析

AWS でのデータレイクと分析

AWS では、データレイクと分析のソリューションを構築する方法として、データを移動、保存、分析するための非常に包括的な一連のサービスを提供しています。

aws-datalake-diagram-simplified

データ移動

オンプレミスからリアルタイムでデータをインポートします。

データレイク

ギガバイトからエクサバイトまで、あらゆるタイプのデータを安全に保存します。

分析

広範な分析ツールと分析エンジンを使用してデータを分析します。

機械学習

将来の結果を予測し、アクションを指示します。

データ移動

AWS でデータレイクを構築するための最初のステップは、クラウドにデータを移動することです。帯域幅や転送速度に物理的な制約がある場合、大きな中断を避け、かつ多大なコストや作業時間をかけずに、データを移動することには限界があります。AWS では、簡単かつ柔軟なデータ転送を実現するために、クラウドにデータを転送するための幅広いオプションを用意しています。

オンプレミスデータの移動

AWS では、データセンターから AWS にデータを移動するためにさまざまな方法を提供しています。お客様のネットワークと AWS との間に専用ネットワークを確立するには、AWS Direct Connect を使用できます。物理アプライアンスを使用してペタバイト規模からエクサバイト規模までのデータを AWS に移動するには、AWS SnowballAWS Snowmobile を使用できます。オンプレミスアプリケーションから直接 AWS にデータを保存するには、AWS Storage Gateway を使用できます。

リアルタイムのデータ移動

AWS では、ウェブサイト、モバイルアプリケーション、インターネット接続デバイスといった新しいソースが生成するリアルタイムデータを取り込むためにさまざまな方法を用意しています。ストリーミングデータや IoT デバイスデータを簡単にキャプチャおよびロードするには、Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core を使用できます。

データレイク

クラウド上にデータの準備ができたら、Amazon S3 と Amazon Glacier を使用して、大規模なデータをあらゆるデータ形式で安全かつ簡単に保存できます。分析に使用するための関連データをエンドユーザーが簡単に検出できるようにするには、AWS Glue を使用して、ユーザーによる検索とクエリの実行ができる、単一のカタログを自動的に作成します。

オブジェクトストレージ

Amazon S3

Amazon S3 は、安全かつ非常にスケーラブルで耐久性に優れたオブジェクトストレージで、ミリ秒単位のレイテンシーでデータにアクセスできます。S3 は、ウェブサイトおよびモバイルアプリケーション、社内アプリケーション、IoT センサーまたはデバイスからのデータなど、生成された場所や種類に関係なくデータを保存できるように設計されています。他のストレージとは比較にならない可用性を実現しながら、どのような量のデータでも保存および取得できるように構築されており、99.999999999% (イレブンナイン) の耐久性を持つようにゼロから開発されました。S3 では、最も厳格な規制要件にも対応できる包括的なセキュリティ機能およびコンプライアンス機能が提供されます。

バックアップとアーカイブ

Amazon Glacier

Amazon Glacier は、安全性と耐久性に優れたきわめて低コストのストレージです。長期間のバックアップとアーカイブに適しており、数分でデータにアクセスできます。99.999999999% (イレブンナイン) の耐久性を実現するように設計されており、最も厳格な規制要件にも対応できる包括的なセキュリティ機能およびコンプライアンス機能があります。1 か月あたりわずか 0.004 USD/GB でデータを保存できるため、オンプレミスのソリューションに比べてコストを大幅に削減できます。

データカタログ

AWS Glue

AWS Glue は完全マネージド型のサービスで、データレイクのデータを検出可能にするデータカタログを提供します。また、分析に備えてデータを抽出、変換、ロード (ETL) する機能も備えています。データカタログは、すべてのデータアセットの永続的なメタデータストアとして自動的に作成されます。これにより、単一のビューですべてのデータに対する検索とクエリの実行が可能になります。

分析

AWS では、最も広範でコスト効率に優れていて、データレイクで実行できる一連の分析サービスを提供しています。各分析サービスは、インタラクティブ分析、Hadoop や Spark を使用したビッグデータの処理、データウェアハウス、リアルタイム分析、運用上の分析、ダッシュボード、可視化といったさまざまな分析ユースケースに適するように構築されています。

インタラクティブ分析

Amazon Athena

インタラクティブ分析を行う場合、Amazon Athena を使用すると、標準的な SQL クエリを使用して S3 や Glacier で直接、簡単にデータを分析できます。Athena はサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。操作は簡単で、Amazon S3 にあるデータを指定し、スキーマを定義し、標準的な SQL を使用してクエリの実行を開始するだけです。多くの場合、数秒以内に結果が得られます。

ビッグデータ処理

Amazon EMR

Hadoop や Spark フレームワークを使用してビッグデータ処理を行う場合、Amazon EMR を使用すると、大量のデータをコスト効率に優れた方法で簡単かつ高速に処理できるマネージドサービスが提供されます。Amazon EMR は、HadoopSparkHBasePresto といった 19 のさまざまなオープンソースプロジェクトをサポートしています。バージョンリリースの 30 日以内に EMR 内で各プロジェクトが更新され、その最も優れた最新バージョンをコミュニティから取得できます。

データウェアハウス

Amazon Redshift

データウェアハウスの場合、Amazon Redshift を使用すると、ペタバイト規模の構造化データに対して複雑な分析クエリを実行できます。さらに、このサービスに含まれている Redshift Spectrum を使用すると、S3 に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接 SQL クエリを実行できます。このときにデータを移動する必要はありません。Amazon Redshift に必要なコストは、従来のソリューションと比較して 10 分の 1 です。1 時間あたりわずか 0.25 USD の小規模から開始して、1 テラバイトにつき年間 1,000 USD の料金であるペタバイト規模のデータ処理までスケールアウトできます。

リアルタイム分析

Amazon Kinesis

リアルタイム分析を行う場合、Amazon Kinesis を使用すると、IoT のテレメトリーデータ、アプリケーションログ、ウェブサイトのクリックストリームといったストリーミングデータを簡単に収集、処理、分析できます。Amazon Kinesis は、データレイクでデータを受信するとすぐに処理と分析を行うため、すべてのデータが収集されるのを待たずに処理を開始してリアルタイムで応答することが可能です。

運用上の分析

Amazon Elasticsearch Service

アプリケーションのモニタリング、ログ分析、クリックストリーム分析といった運用上の分析を行う場合、Amazon Elasticsearch Service を使用すると、データの検索、調査、フィルタリング、集計、可視化をほぼリアルタイムで実行できます。Amazon Elasticsearch Service は、Elasticsearch の使いやすい API とリアルタイム分析機能とともに、本番ワークロードに必要な可用性、スケーラビリティ、セキュリティを備えています。

 

ダッシュボードと可視化

Amazon QuickSight

ダッシュボードと可視化については、クラウドを活用した高速なビジネス分析サービスである Amazon QuickSight を使用すると、簡単に最適な可視化を行って、ブラウザやモバイルデバイスからアクセスできる優れたダッシュボードを作成できます。

 

機械学習

AWS では、予測分析のユースケースのために、機械学習の広範なサービスセットと、AWS のデータレイクで使用できるツールを提供しています。AWS のサービスは、Amazon で構築してきた知識と機能に基づいています。Amazon では、Amazon.com のレコメンデーションエンジン、サプライチェーン、予測、フルフィルメントセンター、キャパシティープランニングに機械学習を活用しています。 

 

アプリケーションサービス

AWS では、事前に構築された AI 機能をアプリケーションに組み込みたいと考えている開発者のために、コンピュータビジョンおよび自然言語処理に適したソリューション指向の API を提供しています。

Amazon Rekognition

コンピュータビジョンについては、Amazon Rekognition を使用すると、開発者はインテリジェントな動画分析および画像分析をアプリケーションに簡単に組み込むことができます。

Amazon Transcribe

Amazon Transcribe は、自動音声認識 (ASR) サービスで、このサービスを使用すると、開発者は音声をテキストに変換する機能をアプリケーションに簡単に追加することができます。

Amazon Translate

Amazon Translate は、高速で高品質な言語翻訳を手ごろな価格で提供するニューラル機械翻訳サービスです。

Amazon Polly

Amazon Polly を使用すると、開発者はさまざまな音声と言語で、テキストをリアルな音声に変換できます。

Amazon Comprehend

Amazon Comprehend は、機械学習を使用してテキスト内でインサイトや関係性を検出する自然言語処理 (NLP) サービスです。このサービスは、テキストの言語を識別し、キーフレーズ、場所、人物、ブランド、イベントを抽出し、テキストがどの程度肯定的か否定的かを理解し、テキストファイルのコレクションをトピックごとに自動的に整理します。

Amazon Lex

Amazon Lex では、Amazon Alexa に採用されている自動音声認識と自然言語理解技術が使用されているため、開発者はインテリジェントな会話型アプリケーションを短時間で構築できます。

フレームワークとインターフェイス

AWS 深層学習 AMI

AWS では、機械学習の専門家やデータサイエンティスト向けに AWS 深層学習 AMI を提供しています。これにより、深層学習モデルを構築することや、機械学習および深層学習向けに最適化された GPU インスタンスを使用してクラスターを構築することが容易になります。AWS では、TensorFlow、Caffe2、Apache MXNet といった主要なすべての機械学習フレームワークをサポートしているため、お客様が選択したモデルの使用や開発が可能です。このようなサービスにより、深層学習および機械学習のワークロードで必要になる、非常に高い能力、速度、効率性が提供されます。

プラットフォームサービス

Amazon SageMaker

Amazon SageMaker は、機械学習に関して深い知識を求める開発者向けのプラットフォームサービスです。このサービスを使用すると、機械学習モデルの構築、トレーニング、デプロイといったプロセス全体を簡単に実行できます。トレーニングデータへの接続、最適なアルゴリズムとフレームワークの選択および最適化、Amazon EC2 の Auto Scaling クラスターでのモデルデプロイを行うために必要なツールがすべて備わっています。また、SageMaker にはホスト型の Jupyter Notebook が含まれており、Amazon S3 に保存されているトレーニングデータを簡単に分析し可視化できます。

非常に多くの企業がデータレイクと分析の構築に AWS を選択

データレイクと分析に AWS が選択される理由

柔軟性と選択肢

AWS では、オープンフォーマットおよびオープンスタンダードを使用してデータを分析する、分析ツールと分析エンジンを幅広く提供しています。データの保存には、CSV、ORC、Grok、Avro、Parquet といった標準ベースのデータ形式を選択できます。また、データの分析には、データウェアハウス、インタラクティブな SQL クエリ、リアルタイム分析、ビッグデータ処理などのさまざまな方法を柔軟に選択できます。AWS に保存されているデータには幅広い分析サービスを使用できるため、現在および将来の分析ユースケースのニーズに確実に対応できます。

非常に高いスケーラビリティと可用性

Amazon S3 は、他のストレージとは比較にならない可用性を実現しながら、どのような量のデータでも保存および取得できるように構築されており、99.999999999% (イレブンナイン) の耐久性を持つようにゼロから開発されました。S3 では、単一の AWS リージョン内における 3 つのアベイラビリティーゾーンに配置された複数のデータセンターにデータを保存します。データセンターが 1 つの場合とは比較にならない耐障害性を実現している唯一のストレージ製品です。また、あらゆるリージョン間でシームレスにデータをレプリケートできる唯一のストレージ製品でもあります。

高い安全性

S3 は、アクセスポリシー、ログポリシー、監査ポリシーをアカウントレベルおよびオブジェクトレベルで適用できる唯一のクラウドストレージサービスです。S3 では、自動的なサーバー側暗号化、AWS Key Management Service (KMS) で管理されるキーによる暗号化、ユーザーが管理するキーによる暗号化を使用できます。S3 では、リージョン間のレプリケーション時に転送中のデータが暗号化され、レプリケーション元のリージョンとレプリケーション先のリージョンに別々のアカウントを使用できるため、内部からの悪意のある削除を防ぐことができます。機械学習を活用したセキュリティサービスである Amazon Macie を使用すると、攻撃の初期段階を事前に検出するために、データアクセスの異常なアクティビティをモニタリングし、不正なアクセスや不注意によるデータ漏洩のリスクが検出された場合に詳細なアラートを生成できます。

優れたコスト効率

AWS に構築されたデータレイクは、最もコスト効率に優れています。使用頻度の低いデータは、Amazon Glacier に移動させると、非常に低コストで長期間のバックアップとアーカイブを行うことができます。Amazon S3 の管理機能を使用すると、オブジェクトのアクセスパターンを分析し、使用頻度の低いデータをオンデマンドで、またはライフサイクルポリシーに基づいて自動的に Glacier に移動できます。Amazon Athena を使用すると、1 GB あたりわずか 0.005 USD でデータのクエリ実行を開始できます。その他の分析サービスと機械学習サービスは、使用したリソースに対する従量課金制の料金体系で使用できます。

高速なパフォーマンス

Amazon Redshift や Amazon Athena のような AWS の分析サービスは、インタラクティブクエリで高速なパフォーマンスを実現するよう構築されており、多数の同時実行可能なインタラクティブクエリをサポートしています。Amazon S3 Select を使用して AWS の分析サービスおよび機械学習サービスの広範なポートフォリオを使用すると、オブジェクト内で必要なデータのサブセットのみが返されるため、非常に高速なクエリの実行 (最大 400% の高速化) が可能で、コストを大幅に削減できます。Glacier Select にも同様の機能があり、アーカイブされたデータを迅速に取得できます。また、分析機能をデータレイク全体に拡張して、アーカイブストレージを分析対象に含めることができます。

 

大規模なパートナーネットワーク

AWS パートナーネットワーク (APN) は、世界中のコンサルティングおよび独立系ソフトウェアベンダーを含む数万ものパートナーで構成されており、パートナーの数は他社に比べて 2 倍になります。これにより、お客様が現在使用しているお気に入りのツールの大部分と簡単に連携および統合できます。AWS のソリューションアーキテクトとパートナーが開発したデータレイククイックスタートを使用すると、セキュリティと高可用性に関する AWS のベストプラクティスに基づいて、データレイクソリューションの構築、テスト、デプロイをいくつかの簡単なステップで行うことができます。

 

AWS クラウドの開始方法

icon1

AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。
詳細については、 データレイクとはをご覧ください。
icon2

AWS でのデータレイクの詳細について確認する

AWS でのデータレイクのデプロイについて詳しくは、 こちらをご覧ください。
データレイクのアーキテクチャの設計に関するセッションは こちらから、ビッグデータのアーキテクチャパターンに関するセッションは こちらから視聴できます。
FINRAAmazon.comRovioSysco Foods といったお客様がデータレイクを構築した方法についてのセッションをご覧ください。
 
icon3

AWS で構築を開始する

データを Amazon S3 にアップロードし、AWS Glue でデータの カタログを作成して、Amazon Athena でデータの クエリを開始してください。Amazon Redshift Spectrum で データウェアハウスのクエリ、Amazon EMR で Hadoop と Spark、Amazon Sagemaker で 機械学習を実行してください。
 
POC についてのサポートが必要な場合は、 お問い合わせいただくか、 AWS クリックスタートを使ってデータレイクをデプロイしてください。
 
ご不明な点がおありですか?
お問い合わせ