AWS でのデータレイクと分析

データレイクと分析のソリューションを構築するための、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオ

AWS では、分析用のデータレイクを迅速かつ容易に構築して管理するために必要な事柄すべて提供する統合されたサービス一式を提供しています。AWS 駆動のデータレイクは、従来のデータサイロとデータウェアハウスが実現できない方法で、より深い洞察を得るための異なるタイプのデータを組み合わせと分析アプローチに必要な規模、俊敏性、および柔軟性に対応します。AWS は、セキュリティまたはガバナンスを損なうことなく、すべての関連データに簡単にアクセスできるように、分析と機械学習の最も広範なサービスをお客様に提供します。

AWS は、データレイクを所有し、分析を行う組織に、他のどこよりも多く使用されています。AWS は、ビジネスクリティカルな分析ワークロードの実行について、NASDAQ、Zillow、Yelp、iRobot、および FINRA などのお客様にご信頼いただいています。

AWS でのデータレイクと分析

AWS でのデータレイクと分析

データレイクと分析のソリューションを構築するため、AWS ではデータの移動、保存、および分析のための最も包括的な一連のサービスを提供しています。

aws-datalake-diagram-simplified

データ移動

オンプレミスからリアルタイムでデータをインポートします。

データレイク

ギガバイトからエクサバイトまで、あらゆるタイプのデータを安全に保存します。

分析

最も幅広い分析サービスのオプションでデータを分析してください。

機械学習

将来の成果を予測し、迅速な対応のためのアクションを講じましょう。

データ移動

AWS でデータレイクを構築するための最初のステップは、クラウドにデータを移動することです。帯域幅や転送速度に物理的な制約がある場合、大きな中断を避け、かつ多大なコストや作業時間をかけずに、データを移動することには限界があります。簡単かつ柔軟なデータ転送を実現するために、AWS はクラウドにデータを転送するための幅広いオプションをご用意しています。

データレイク用の ETL ジョブおよび ML Transform を構築するために、AWS Lake Formation について学んでください。

オンプレミスデータの移動

AWS では、データセンターから AWS にデータを移動するためにさまざまな方法を提供しています。お客様のネットワークと AWS との間に専用ネットワークを確立するには、AWS Direct Connect を使用できます。物理アプライアンスを使用してペタバイト規模からエクサバイト規模までのデータを AWS に移動するには、AWS SnowballAWS Snowmobile を使用できます。 オンプレミスアプリケーションから直接 AWS にデータを保存するには、AWS Storage Gateway を使用できます。 

リアルタイムのデータ移動

AWS では、ウェブサイト、モバイルアプリケーション、インターネット接続デバイスといった新しいソースが生成するリアルタイムデータを取り込むためにさまざまな方法を用意しています。ストリーミングデータや IoT デバイスデータを簡単にキャプチャおよびロードするには、Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core を使用できます。 

データレイク

データをクラウド用に準備したら、AWS が Amazon S3 と Amazon Glacier を使用して、データをあらゆるフォーマットで、セキュアかつ大規模な方法によって簡単に保存できるようにします。AWS Glue は、エンドユーザーが分析で使用する関連データを簡単に検出できるようにするために、ユーザーによる検索とクエリが可能な単一のカタログを自動で作成します。

セキュアなデータレイクをより迅速に構築するために、AWS Lake Formation の詳細をご覧ください。

オブジェクトストレージ

Amazon S3

Amazon S3 は、安全かつ非常にスケーラブルで耐久性に優れたオブジェクトストレージで、ミリ秒単位のレイテンシーでデータにアクセスできます。S3 は、ウェブサイトおよびモバイルアプリケーション、社内アプリケーション、IoT センサーまたはデバイスからのデータなど、生成された場所や種類に関係なくデータを保存できるように設計されています。他にはない可用性で、あらゆる量のデータを保存して取得するように構築されており、99.999999999% (イレブンナイン) の耐久性を実現するようにゼロから開発されました。S3 Select は、データの読み込みと取得に焦点を当て、応答時間を最大 400% 短縮します。S3 は、最も厳格な規制要件をも満たす、包括的なセキュリティ機能とコンプライアンス機能を提供します。 

バックアップとアーカイブ

Amazon Glacier

Amazon Glacier は、長期のバックアップとアーカイブのための超低コストのストレージで、数分のうちにデータにアクセスできます。これと同様に、Glacier Select は必要なデータだけを読み込み、取得します。99.999999999% (イレブンナイン) の耐久性を実現するように設計されている Amazon Glacier は、最も厳格な規制要件をも満たす、包括的なセキュリティ機能とコンプライアンス機能を提供します。お客様はデータの量にかかわらず、1 か月あたりわずか 0.004 USD/GB でデータを保存できるので、オンプレミスのソリューションに比べてコストを大幅に削減できます。

データカタログ

AWS Glue

AWS Glue は完全マネージド型のサービスで、データレイクのデータを検出可能にするデータカタログを提供します。また、分析に備えてデータを抽出、変換、ロード (ETL) する機能も備えています。データカタログは、すべてのデータアセットの永続的なメタデータストアとして自動的に作成されます。これにより、単一のビューですべてのデータに対する検索とクエリの実行が可能になります。

分析

AWS は、データレイクでの実行のために、最も幅広く、コスト効率に優れた分析サービスの一連を提供します。各分析サービスは、インタラクティブ分析、Hadoop と Spark を使用したビッグデータの処理、データウェアハウジング、リアルタイムの分析、運用分析、ダッシュボード、および可視化などのさまざまな分析ユースケース専用に構築されています。

分析サービスのためのデータレイク内のデータへのセキュアなセルフサービスアクセスを管理するために、AWS Lake Formation の詳細をご覧ください。

インタラクティブ分析

Amazon Athena

インタラクティブ分析を行う場合、Amazon Athena を使用すると、標準的な SQL クエリを使用して S3 や Glacier で直接、簡単にデータを分析できます。Athena はサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。操作は簡単で、Amazon S3 にあるデータを指定し、スキーマを定義し、標準的な SQL を使用してクエリの実行を開始するだけです。多くの場合、数秒で結果が出てきます。 

ビッグデータ処理

Amazon EMR

Hadoop および Spark のフレームワークを使用してビッグデータ処理については、Amazon EMR が、大量のデータを簡単かつ迅速にし、コスト効率を高めるマネージドサービスを提供します。Amazon EMR は、HadoopSparkHBase、および Presto を含む 19 の異なるオープンソースプロジェクトをサポートしており、データエンジニアリング、データサイエンス開発、およびコラボレーションのためのマネージド EMR ノートブックが搭載されています。各プロジェクトはバージョンリリースから 30 日以内に ERM で更新され、労することなくコミュニティからの最新かつ最も優れたプロジェクトを確実に使用できます。

データウェアハウジング

Amazon Redshift

データウェアハウジングの場合、Amazon Redshift を使用すると、ペタバイト規模の構造化データに対して複雑な分析クエリを実行できます。さらに、このサービスに含まれている Redshift Spectrum を使用すると、S3 に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接 SQL クエリを実行できます。このときにデータを移動する必要はありません。Amazon Redshift に必要なコストは、従来のソリューションと比較して 10 分の 1 です。1 時間あたりわずか 0.25 USD の小規模から開始して、1 テラバイトにつき年間 1,000 USD の料金であるペタバイト規模のデータ処理までスケールアウトできます。

リアルタイム分析

Amazon Kinesis

リアルタイム分析を行う場合、Amazon Kinesis を使用すると、IoT のテレメトリーデータ、アプリケーションログ、ウェブサイトのクリックストリームといったストリーミングデータを簡単に収集、処理、分析できます。Amazon Kinesis は、データレイクでデータを受信するとすぐに処理と分析を行うため、すべてのデータが収集されるのを待たずに処理を開始してリアルタイムで応答することが可能です。

運用上の分析

Amazon Elasticsearch Service

アプリケーションのモニタリング、ログ分析、クリックストリーム分析といった運用上の分析を行う場合、Amazon Elasticsearch Service を使用すると、データの検索、調査、フィルタリング、集計、可視化をほぼリアルタイムで実行できます。Amazon Elasticsearch Service は、Elasticsearch の使いやすい API とリアルタイム分析機能とともに、本番ワークロードに必要な可用性、スケーラビリティ、セキュリティを備えています。

 

ダッシュボードと可視化

Amazon QuickSight

ダッシュボードと可視化については、クラウドを活用した高速なビジネス分析サービスである Amazon QuickSight を使用すると、簡単に最適な可視化を行って、ブラウザやモバイルデバイスからアクセスできる優れたダッシュボードを作成できます。

 

Machine Learning

AWS では、予測分析のユースケースのために、機械学習の広範なサービスセットと、AWS のデータレイクで使用できるツールを提供しています。AWS のサービスは、Amazon で構築してきた知識と機能に基づいています。Amazon では、Amazon.com のレコメンデーションエンジン、サプライチェーン、予測、フルフィルメントセンター、キャパシティープランニングに機械学習を活用しています。 

フレームワークとインターフェイス

AWS は、機械学習の専門家とデータサイエンティストのために AWS Deep Learning AMI を提供しており、これらは深層学習モデルの構築、および機械学習と深層学習向けに最適化された GPU インスタンスを使用したクラスターの構築を容易にします。AWS は、Apache MXNet、TensorFlow、および Caffe2 などの主要機械学習フレームワークのすべてをサポートしているため、モデルを自由に選択して使用または構築することができます。これらの機能は、深層学習および機械学習のワークロードで必要とされる、比類ない能力、速度、および効率性を提供します。

プラットフォームサービス

Amazon SageMaker は、機械学習に関して深い知識を求める開発者向けのプラットフォームサービスです。このサービスを使用すると、機械学習モデルの構築、トレーニング、デプロイといったプロセス全体を簡単に実行できます。トレーニングデータへの接続、最適なアルゴリズムとフレームワークの選択および最適化、Amazon EC2 の Auto Scaling クラスターでのモデルデプロイを行うために必要なツールがすべて備わっています。また、SageMaker にはホスト型の Jupyter Notebook が含まれており、Amazon S3 に保存されているトレーニングデータを簡単に分析し可視化できます。

アプリケーションサービス

AWS では、事前に構築された AI 機能をアプリケーションに組み込みたいと考えている開発者のために、コンピュータビジョンおよび自然言語処理に適したソリューション指向の API を提供しています。これらのアプリケーションサービスによって、開発者は独自のモデルを開発およびトレーニングすることなく、アプリケーションにインテリジェンスを追加することができます。

非常に多くの企業がデータレイクと分析の構築に AWS を選択

データレイクと分析に AWS が選択される理由

柔軟性と選択肢

AWS では、オープンフォーマットおよびオープンスタンダードを使用してデータを分析する、分析ツールと分析エンジンを幅広く提供しています。データの保存には、CSV、ORC、Grok、Avro、Parquet といった標準ベースのデータ形式を選択できます。また、データの分析には、データウェアハウジング、インタラクティブな SQL クエリ、リアルタイム分析、ビッグデータ処理などのさまざまな方法を柔軟に選択できます。AWS に保存されているデータには幅広い分析サービスを使用できるため、現在および将来の分析ユースケースのニーズに確実に対応できます。

非常に高いスケーラビリティと可用性

Amazon S3 は、他のストレージとは比較にならない可用性を実現しながら、どのような量のデータでも保存および取得できるように構築されており、99.999999999% (イレブンナイン) の耐久性を持つようにゼロから開発されました。S3 では、単一の AWS リージョン内における 3 つのアベイラビリティーゾーンに配置された複数のデータセンターにデータを保存します。データセンターが 1 つの場合とは比較にならない耐障害性を実現している唯一のストレージ製品です。また、あらゆるリージョン間でシームレスにデータをレプリケートできる唯一のストレージ製品でもあります。

高い安全性

S3 は、アクセスポリシー、ログポリシー、監査ポリシーをアカウントレベルおよびオブジェクトレベルで適用できる唯一のクラウドストレージサービスです。S3 では、自動的なサーバー側暗号化、AWS Key Management Service (KMS) で管理されるキーによる暗号化、ユーザーが管理するキーによる暗号化を使用できます。S3 では、リージョン間のレプリケーション時に転送中のデータが暗号化され、レプリケーション元のリージョンとレプリケーション先のリージョンに別々のアカウントを使用できるため、内部からの悪意のある削除を防ぐことができます。機械学習を活用したセキュリティサービスである Amazon Macie を使用すると、攻撃の初期段階を事前に検出するために、データアクセスの異常なアクティビティをモニタリングし、不正なアクセスや不注意によるデータ漏洩のリスクが検出された場合に詳細なアラートを生成できます。

優れたコスト効率

AWS に構築されたデータレイクは、最もコスト効率に優れています。使用頻度の低いデータは、Amazon Glacier に移動させると、非常に低コストで長期間のバックアップとアーカイブを行うことができます。Amazon S3 の管理機能を使用すると、オブジェクトのアクセスパターンを分析し、使用頻度の低いデータをオンデマンドで、またはライフサイクルポリシーに基づいて自動的に Glacier に移動できます。Amazon Athena を使用すると、1 GB あたりわずか 0.005 USD でデータのクエリ実行を開始できます。 その他の分析サービスと機械学習サービスは、使用したリソースに対する従量課金制の料金体系で使用できます。

高速なパフォーマンス

Amazon Redshift や Amazon Athena のような AWS の分析サービスは、インタラクティブクエリで高速なパフォーマンスを実現するよう構築されており、多数の同時実行可能なインタラクティブクエリをサポートしています。Amazon S3 Select を使用して AWS の分析サービスおよび機械学習サービスの広範なポートフォリオを使用すると、オブジェクト内で必要なデータのサブセットのみが返されるため、非常に高速なクエリの実行 (最大 400% の高速化) が可能で、コストを大幅に削減できます。Glacier Select にも同様の機能があり、アーカイブされたデータを迅速に取得できます。また、分析機能をデータレイク全体に拡張して、アーカイブストレージを分析対象に含めることができます。 

 

大規模なパートナーネットワーク

AWS パートナーネットワーク (APN) は、世界中のコンサルティングおよび独立系ソフトウェアベンダーを含む数万ものパートナーで構成されており、パートナーの数は他社に比べて 2 倍になります。これにより、お客様が現在使用しているお気に入りのツールの大部分と簡単に連携および統合できます。AWS のソリューションアーキテクトとパートナーが開発したデータレイククイックスタートを使用すると、セキュリティと高可用性に関する AWS のベストプラクティスに基づいて、データレイクソリューションの構築、テスト、デプロイをいくつかの簡単なステップで行うことができます。 

 

AWS の使用を開始する

Step 1 - Sign up for an AWS account

AWS アカウントにサインアップする

AWS 無料利用枠に今すぐアクセスできます
 
icon2

セキュアなデータレイクを数日で構築

AWS Lake Formation についてお読みください

 
icon3

AWS で構築を開始する

AWS でのデータレイクのデプロイメントについてお読みください

 
ご不明な点がおありですか?
お問い合わせ