AWS でのデータレイクと分析

すべてのユーザーにお使いのすべてのデータからの回答を得る最速の方法

AWS では、分析用のデータレイクを迅速かつ容易に構築して管理するために必要な事柄すべて提供する統合されたサービス一式を提供しています。AWS 駆動のデータレイクは、従来のデータサイロとデータウェアハウスが実現できない方法で、より深い洞察を得るための異なるタイプのデータを組み合わせと分析アプローチに必要な規模、俊敏性、および柔軟性に対応します。AWS は、セキュリティまたはガバナンスを損なうことなく、すべての関連データに簡単にアクセスできるように、分析と機械学習の最も広範なサービスをお客様に提供します。

AWS は、データレイクを所有し、分析を行う組織に、他のどこよりも多く使用されています。AWS は、ビジネスクリティカルな分析ワークロードの実行について、NASDAQ、Zillow、Yelp、iRobot、および FINRA などのお客様にご信頼いただいています。

AWS でのデータレイクと分析

AWS でのデータレイクと分析

データレイクと分析のソリューションを構築するため、AWS ではデータの移動、保存、および分析のための最も包括的な一連のサービスを提供しています。

aws-datalake-diagram-simplified

データ移動

オンプレミスからリアルタイムでデータをインポートします。

データレイク

ギガバイトからエクサバイトまで、あらゆるタイプのデータを安全に保存します。

分析

最も幅広い分析サービスのオプションでデータを分析してください。

Machine Learning

将来の成果を予測し、迅速な対応のためのアクションを講じましょう。

データレイクと分析に AWS が選択される理由

データレイクを最も容易に構築

セキュアなデータレイクを数か月かけずに数日で構築数万人のお客様と協力して生産的なデータレイクを構築した経験により、クラウド内のデータ分析のあらゆる側面を容易にすることができました。たとえば、AWS Lake Formationは、データレイクの構築に必要な手動手順を自動化し、すべてのデータに単一のセキュリティメカニズムを提供します。そのため、データレイクの構築に必要な差別化につながらない面倒な作業に費やす時間が少なくなり、最も重要な質問に対する答えを得るためにデータの探索にさらに多くの時間をかけることができるようになります。

最低のコストで最高のパフォーマンス

AWS はデータを保存し、分析するための高速で最もコスト効果の高い場所です。たとえば、Amazon S3 は 5 つのストレージクラスと自動データライフサイクル管理機能を備えているため、データが使用される方法に基づいて、必要な分だけのデータに対して支払いを行います。Amazon Redshift はほかのクラウドデータウェアハウスよりも 3 倍速く、その速度は年を追うごとに向上しています。Amazon EMR は、クラウドで Apache Spark および Apache HIVE ワークロードを実行する最速の場所を提供します。EMR と他の AWS との緊密な統合により、EC2 スポットインスタンスなどのコスト節約機能を簡単に活用して、コストを最大 90% 削減できます。

最も包括的でオープン

単一のサイロ化された分析サービスですべてのデータをロックすることは機能しなくなります。最新の分析には、さまざまな言語を使用して正しいインサイトと回答を得るために、SQL、R、Scala、Jupyter、Python などのさまざまなツールとアプローチのコレクションが必要です。AWS は、オープンデータレイクに対して実行される成熟した包括的な分析サービスセットを提供するため、異なる分析アプローチごとにデータを移動または変換する必要なく、適切なジョブに適切なツールを使用できます。すべてのサービスは、オープン形式(Apache Paquet、Apache ORC、Apache Avro)のオープンな API で単一のオブジェクトストア (S3) に保存されたデータへのアクセスをサポートします。その際に、独自のエンジン (データウェアハウジング用の Redshift) およびオープンエンジン (例:Spark、Hive) を使用します。 

最もセキュア

データをセキュアに保ち、関連規則を順守することは不可欠です。AWS は、暗号化やアクセス制御などの標準的なセキュリティ機能を超えて、セキュリティポリシーのプロアクティブなモニタリングと統合管理に至る包括的なツールセットを提供します。たとえば、Amazon Macie はデータレイクを監視して、資格情報や個人を特定できる情報 (PII) を誤って公開しないようにします。Amazon Inspector は、ベストプラクティスを実施し、悪用される可能性のある構成の問題を特定するのに役立ち、AWS Lake Formation では、すべての分析サービスにわたってデータレイクのデータへのアクセスを一貫して制御できます。 

データ移動

AWS でデータレイクを構築するための最初のステップは、クラウドにデータを移動することです。帯域幅や転送速度に物理的な制約がある場合、大きな中断を避け、かつ多大なコストや作業時間をかけずに、データを移動することには限界があります。簡単かつ柔軟なデータ転送を実現するために、AWS はクラウドにデータを転送するための幅広いオプションをご用意しています。

データレイク用の ETL ジョブおよび ML Transform を構築するために、AWS Lake Formation について学んでください。

オンプレミスデータの移動

AWS では、データセンターから AWS にデータを移動するためにさまざまな方法を提供しています。お客様のネットワークと AWS との間に専用ネットワークを確立するには、AWS Direct Connect を使用できます。物理アプライアンスを使用してペタバイト規模からエクサバイト規模までのデータを AWS に移動するには、AWS SnowballAWS Snowmobile を使用できます。 オンプレミスアプリケーションから直接 AWS にデータを保存するには、AWS Storage Gateway を使用できます。 

リアルタイムのデータ移動

AWS では、ウェブサイト、モバイルアプリケーション、インターネット接続デバイスといった新しいソースが生成するリアルタイムデータを取り込むためにさまざまな方法を用意しています。ストリーミングデータや IoT デバイスデータを簡単にキャプチャおよびロードするには、Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core を使用できます。 

データレイク

データをクラウド用に準備したら、AWS が Amazon S3 と Amazon Glacier を使用して、データをあらゆるフォーマットで、セキュアかつ大規模な方法によって簡単に保存できるようにします。AWS Glue は、エンドユーザーが分析で使用する関連データを簡単に検出できるようにするために、ユーザーによる検索とクエリが可能な単一のカタログを自動で作成します。

セキュアなデータレイクをより迅速に構築するために、AWS Lake Formation の詳細をご覧ください。

オブジェクトストレージ

Amazon S3

Amazon S3 は、安全かつ非常にスケーラブルで耐久性に優れたオブジェクトストレージで、ミリ秒単位のレイテンシーでデータにアクセスできます。S3 は、ウェブサイトおよびモバイルアプリケーション、社内アプリケーション、IoT センサーまたはデバイスからのデータなど、生成された場所や種類に関係なくデータを保存できるように設計されています。他にはない可用性で、あらゆる量のデータを保存して取得するように構築されており、99.999999999% (イレブンナイン) の耐久性を実現するようにゼロから開発されました。S3 Select は、データの読み込みと取得に焦点を当て、応答時間を最大 400% 短縮します。S3 は、最も厳格な規制要件をも満たす、包括的なセキュリティ機能とコンプライアンス機能を提供します。 

バックアップとアーカイブ

Amazon Glacier

Amazon Glacier は、長期のバックアップとアーカイブのための超低コストのストレージで、数分のうちにデータにアクセスできます。これと同様に、Glacier Select は必要なデータだけを読み込み、取得します。99.999999999% (イレブンナイン) の耐久性を実現するように設計されている Amazon Glacier は、最も厳格な規制要件をも満たす、包括的なセキュリティ機能とコンプライアンス機能を提供します。お客様はデータの量にかかわらず、1 か月あたりわずか 0.004 USD/GB でデータを保存できるので、オンプレミスのソリューションに比べてコストを大幅に削減できます。

データカタログ

AWS Glue

AWS Glue は完全マネージド型のサービスで、データレイクのデータを検出可能にするデータカタログを提供します。また、分析に備えてデータを抽出、変換、ロード (ETL) する機能も備えています。データカタログは、すべてのデータアセットの永続的なメタデータストアとして自動的に作成されます。これにより、単一のビューですべてのデータに対する検索とクエリの実行が可能になります。

分析

AWS は、データレイクでの実行のために、最も幅広く、コスト効率に優れた分析サービスの一連を提供します。各分析サービスは、インタラクティブ分析、Hadoop と Spark を使用したビッグデータの処理、データウェアハウジング、リアルタイムの分析、運用分析、ダッシュボード、および可視化などのさまざまな分析ユースケース専用に構築されています。

分析サービスのためのデータレイク内のデータへのセキュアなセルフサービスアクセスを管理するために、AWS Lake Formation の詳細をご覧ください。

インタラクティブ分析

Amazon Athena

インタラクティブ分析を行う場合、Amazon Athena を使用すると、標準的な SQL クエリを使用して S3 や Glacier で直接、簡単にデータを分析できます。Athena はサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。操作は簡単で、Amazon S3 にあるデータを指定し、スキーマを定義し、標準的な SQL を使用してクエリの実行を開始するだけです。多くの場合、数秒で結果が出てきます。 

ビッグデータ処理

Amazon EMR

Hadoop および Spark のフレームワークを使用してビッグデータ処理については、Amazon EMR が、大量のデータを簡単かつ迅速にし、コスト効率を高めるマネージドサービスを提供します。Amazon EMR は、HadoopSparkHBase、および Presto を含む 19 の異なるオープンソースプロジェクトをサポートしており、データエンジニアリング、データサイエンス開発、およびコラボレーションのためのマネージド EMR ノートブックが搭載されています。各プロジェクトはバージョンリリースから 30 日以内に ERM で更新され、労することなくコミュニティからの最新かつ最も優れたプロジェクトを確実に使用できます。

データウェアハウジング

Amazon Redshift

データウェアハウジングの場合、Amazon Redshift を使用すると、ペタバイト規模の構造化データに対して複雑な分析クエリを実行できます。さらに、このサービスに含まれている Redshift Spectrum を使用すると、S3 に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接 SQL クエリを実行できます。このときにデータを移動する必要はありません。Amazon Redshift に必要なコストは、従来のソリューションと比較して 10 分の 1 です。1 時間あたりわずか 0.25 USD の小規模から開始して、1 テラバイトにつき年間 1,000 USD の料金であるペタバイト規模のデータ処理までスケールアウトできます。

リアルタイム分析

Amazon Kinesis

リアルタイム分析を行う場合、Amazon Kinesis を使用すると、IoT のテレメトリーデータ、アプリケーションログ、ウェブサイトのクリックストリームといったストリーミングデータを簡単に収集、処理、分析できます。Amazon Kinesis は、データレイクでデータを受信するとすぐに処理と分析を行うため、すべてのデータが収集されるのを待たずに処理を開始してリアルタイムで応答することが可能です。

運用上の分析

Amazon Elasticsearch Service

アプリケーションのモニタリング、ログ分析、クリックストリーム分析といった運用上の分析を行う場合、Amazon Elasticsearch Service を使用すると、データの検索、調査、フィルタリング、集計、可視化をほぼリアルタイムで実行できます。Amazon Elasticsearch Service は、Elasticsearch の使いやすい API とリアルタイム分析機能とともに、本番ワークロードに必要な可用性、スケーラビリティ、セキュリティを備えています。

 

ダッシュボードと可視化

Amazon QuickSight

ダッシュボードと可視化については、クラウドを活用した高速なビジネス分析サービスである Amazon QuickSight を使用すると、簡単に最適な可視化を行って、ブラウザやモバイルデバイスからアクセスできる優れたダッシュボードを作成できます。

 

Machine Learning

AWS では、予測分析のユースケースのために、機械学習の広範なサービスセットと、AWS のデータレイクで使用できるツールを提供しています。AWS のサービスは、Amazon で構築してきた知識と機能に基づいています。Amazon では、Amazon.com のレコメンデーションエンジン、サプライチェーン、予測、フルフィルメントセンター、キャパシティープランニングに機械学習を活用しています。 

フレームワークとインターフェイス

AWS は、機械学習の専門家とデータサイエンティストのために AWS Deep Learning AMI を提供しており、これらは深層学習モデルの構築、および機械学習と深層学習向けに最適化された GPU インスタンスを使用したクラスターの構築を容易にします。AWS は、Apache MXNet、TensorFlow、および Caffe2 などの主要機械学習フレームワークのすべてをサポートしているため、モデルを自由に選択して使用または構築することができます。これらの機能は、深層学習および機械学習のワークロードで必要とされる、比類ない能力、速度、および効率性を提供します。

プラットフォームサービス

Amazon SageMaker は、機械学習に関して深い知識を求める開発者向けのプラットフォームサービスです。このサービスを使用すると、機械学習モデルの構築、トレーニング、デプロイといったプロセス全体を簡単に実行できます。トレーニングデータへの接続、最適なアルゴリズムとフレームワークの選択および最適化、Amazon EC2 の Auto Scaling クラスターでのモデルデプロイを行うために必要なツールがすべて備わっています。また、SageMaker にはホスト型の Jupyter Notebook が含まれており、Amazon S3 に保存されているトレーニングデータを簡単に分析し可視化できます。

アプリケーションサービス

AWS では、事前に構築された AI 機能をアプリケーションに組み込みたいと考えている開発者のために、コンピュータビジョンおよび自然言語処理に適したソリューション指向の API を提供しています。これらのアプリケーションサービスによって、開発者は独自のモデルを開発およびトレーニングすることなく、アプリケーションにインテリジェンスを追加することができます。

非常に多くの企業がデータレイクと分析の構築に AWS を選択

AWS の使用を開始する

Step 1 - Sign up for an AWS account

AWS アカウントにサインアップする

AWS 無料利用枠に今すぐアクセスできます
 
icon2

セキュアなデータレイクを数日で構築

AWS Lake Formation についてお読みください

 
icon3

AWS で構築を開始する

AWS でのデータレイクのデプロイメントについてお読みください

 
ご不明な点がおありですか?
お問い合わせ