概要
Amazon MSK 向けストリーミングデータソリューションでは、データプロデューサーからの大量のデータを処理できる非常にスケーラブルなストレージサービスである Amazon Managed Streaming for Apache Kafka (Amazon MSK) を使用してストリーミングデータをキャプチャできます。プロデューサーは数千のデータソースであり、それぞれが継続的にストリーミングデータを生成し、通常は、同時に小さなサイズ (キロバイト単位) でレコードを送信します。
さらに、ストリーミングデータには、次のようなさまざまなデータが含まれます。モバイルアプリケーションやウェブアプリケーションを使用する顧客によって生成されるログファイル。e コマースでの購入内容。ゲーム内でのプレイヤーのアクティビティ。ソーシャルネットワーク、証券取引所の立会場、または地理空間サービスからの情報。データセンター内の接続されたデバイスや計器からのテレメトリ。
この AWS のソリューションでは、4 種類の AWS CloudFormation テンプレートが用意されていて、それぞれ、データがプロデューサー、ストリーミングストレージ、コンシューマー、送信先を通過します。Amazon Kinesis 向けストリーミングデータソリューションと同様に、テンプレートは、ダッシュボードとアラームを使用して、機能をモニタリングし、データをセキュリティで保護するためのベストプラクティスを適用するように設定されています。
メリット
技術的な詳細情報
このアーキテクチャは、実装ガイドとそれに付属する AWS CloudFormation テンプレートを使用して自動的にデプロイできます。
-
オプション 1
-
オプション 2
-
オプション 3
-
オプション 4
-
オプション 1
-
Amazon Managed Streaming for Apache Kafka (Amazon MSK) を使用した AWS CloudFormation テンプレート
ステップ 1
この AWS CloudFormation テンプレートは、Amazon Managed Streaming for Apache Kafka (MSK) クラスターをデプロイします。
ステップ 2
Amazon Cognito のユーザープールは、REST API メソッドを呼び出すことができるユーザーを制御するために使用されます。 -
オプション 2
-
Amazon MSK と AWS Lambda を使用した AWS CloudFormation テンプレート
ステップ 1
この CloudFormation テンプレートは、Apache Kafka トピックのレコードを処理する AWS Lambda 関数をデプロイします。デフォルトの関数は受信したメッセージをログに記録する Node.js アプリケーションですが、ビジネスニーズに合わせてカスタマイズ可能です。 -
オプション 3
-
Amazon MSK、AWS Lambda、および Amazon Kinesis Data Firehose を使用した AWS CloudFormation テンプレート
ステップ 1
Apache Kafka トピックのレコードは Lambda 関数で処理されます。ステップ 2
Amazon Kinesis Data Firehose 配信ストリームは、送信先に配信する前にデータをバッファリングします。ステップ 3
Amazon Simple Storage Service (Amazon S3) バケットは、Amazon MSK クラスターからのすべての元のイベントを保存します。 -
オプション 4
-
Amazon MSK、Amazon Managed Service for Apache Flink、および Amazon S3 を使用した AWS CloudFormation テンプレート
ステップ 1
Amazon Managed Service for Apache Flink Studio ノートブックは、Amazon MSK クラスター内の既存のトピックからイベントを読み取ります。ステップ 2
S3 バケットに出力が保存されます。
関連コンテンツ
この投稿では、MSK のトピックを S3 にバックアップするために使用できるパターンとソリューションについて説明します。これにより、MSK の長期的なデータ保持設定を減らすことができます。一部のお客様は、データ分析や機械学習のワークロードのために、MSK に長期データを保存しています。S3 でトピックデータをオフロードし、分析/ML に S3 を使用することで、このアーキテクチャを簡素化するパターンを共有します。
このセルフペースコースでは、データ分析ソリューションを計画するプロセスと、関連するさまざまなデータ分析プロセスについて学びます。