Amazon Kinesis Data Streams の使用を開始

Amazon Kinesis Data Streams: Why Streaming Data? (9:49)

Why Amazon Kinesis Data Streams? (6:39)

Amazon Kinesis Data Streams Fundamentals (5:19)

Amazon Kinesis Data Streams の使用を開始 »

Amazon Kinesis Data Streams の最新情報を見る »

PoC (概念実証) または評価に関するサポートをリクエスト»

Amazon Kinesis Data Streams は、ストリーミングデータ用に最適化された、非常にスケーラブルで高い耐久性を持つデータインジェストおよびデータ処理サービスです。Kinesis データストリームに継続的にデータを入力するように何十万個ものデータプロデューサーを設定できます。データはすぐにAmazon Kinesis アプリケーションで利用できるようになり、アプリケーションはデータレコードを生成された順番に受け取ります。

Amazon Kinesis Data Streams には、Amazon S3 といった AWS データレイクへほぼリアルタイムでストリーミングデータを変換、提供する Amazon Kinesis Data Firehose、マネージド型ストリームを処理する Amazon Managed Service for Apache Flink、イベントまたはレコードを処理する AWS Lambda、プライベート接続の AWS PrivateLink、メトリクスやログを処理する Amazon Cloudwatch、サーバー側の暗号化を行う AWS KMS など、多数の AWS サービスが統合されています。

以下のアーキテクチャ図では、Amazon Kinesis Data Streams をビッグデータソリューションのゲートウェイとして使用しています。さまざまな送信元からのデータが Amazon Kinesis ストリームに配置され、ストリームのデータはさまざまな Amazon Kinesis アプリケーションによって利用されます。この例では、あるアプリケーション (黄色) がストリーミングデータに対してリアルタイムダッシュボードを実行しています。別のアプリケーション (赤色) は、単純な集約を実行し、処理済みデータを Amazon S3 に送信します。S3 のデータはさらに処理され、複雑な分析を行うために Amazon Redshift に保存されます。3 つ目のアプリケーション (緑色) は、未加工データを Amazon S3 に送信します。そのデータは、低コストで長期間保管するために Amazon Glacier にアーカイブされます。この 3 つのデータ処理パイプラインはすべて同時かつ並列に動作しています。

ビッグデータソリューションとして Amazon Kinesis Data Streams を活用

主要な概念

データプロデューサー

データプロデューサーは通常、生成されたデータレコードを Kinesis データストリームに送信するアプリケーションです。データプロデューサーは、パーティションキーをレコードに割り当てます。パーティションキーは、最終的にどのシャードがデータストリームのデータレコードを取り込むか決定します。

データコンシューマー

データコンシューマーは、データが生成されると、ストリーム内のすべてのシャードからデータを取得する分散型 Kinesis アプリケーションまたは AWS サービスです。多数のデータコンシューマーがシャード内の最新データを取得し、リアルタイムのデータ分析またはデータ処理を可能にします。

データストリーム

データストリームはシャードの論理グループです。データストリーム内のシャード数に制限はありません (必要に応じて、上限の引き上げをリクエストしてください)。データストリームは、デフォルトで 24 時間、またはオプションで最大 365 日間データを保持します。

シャード

シャードとは、Amazon Kinesis データストリームの基本的なスループットの単位です。

シャードはアペンド専用のログで、ストリーミング機能の単位です。シャードには、到達時間順に並んだレコードのシーケンスが含まれています。
1 つのシャードは 1 秒あたり最大 1000 のデータレコードまたは 1MB/秒を取り込むことができます。シャードを追加して取り込み能力を上げることができます。
AWS コンソール、UpdateShardCount API を使用したデータスループットの変更により AWS Lambda を介して、または自動スケーリングユーティリティを使用した自動スケーリングがトリガーされたら、ストリームから動的にシャードを追加または削除します。
コンシューマーが拡張ファンアウトを使用する場合、シャードは、拡張ファンアウトを使用するために登録された各データコンシューマーに 1MB/秒のデータ入力と 2MB/秒のデータ出力を提供します。
コンシューマーが拡張ファンアウトを使用しない場合、シャードは、1MB/秒のデータ入力と 2MB/秒のデータ出力を提供します。この出力は拡張ファンアウトを使用しないコンシューマーと共有されます。
ストリームを作成するときに必要なシャード数を指定します。シャード数はいつでも変更できます。たとえば、2 シャードのストリームを作成できます。拡張ファンアウトを使用する 5 データコンシューマーを持つ場合、このストリームは合計データ出力最大 20 MB/秒を提供できます (2 シャード x 2MB/秒 x 5 データコンシューマー)。データコンシューマーが拡張ファンアウトを使用していない場合、このストリームは 2MB/秒のデータ入力と 4MB/秒のデータ出力のスループットを持ちます。すべてのケースで、このストリームは 1 秒あたり最大 2000 PUT レコードまたは 2MB/秒の取り込みができ、先に上限に達した方になります。
Amazon Kinesis Data Streams でシャードレベルメトリクスをモニタリングできます。

データレコード

レコードとは、Amazon Kinesis ストリームに保存されるデータの単位です。レコードは、シーケンス番号、パーティションキー、データ BLOB で構成されています。データ BLOB はデータ生成元がストリームに追加する、処理対象のデータです。データ BLOB (Base64 デコーディングの後のデータペイロード) の最大サイズは、1 メガバイト (MB) です。

パーティションキー

パーティションキーは通常、ユーザー ID またはタイムスタンプなど、意味を持つ ID です。データプロデューサーによって指定され、データを Amazon Kinesis データストリームに配置します。コンシューマーはパーティションキーを使用し、パーティションキーに関連する履歴を再生または構築できるので、コンシューマーに便利です。パーティションキーは、データレコードを分離してストリームの異なるシャードにルーティングするためにも使用されます。たとえば、2 つのシャード (シャード 1 とシャード 2) で構成される Amazon Kinesis データストリームがあるものとします。2 つのパーティションキー (キー A とキー B) を使用し、キー A のデータレコードはすべてシャード 1 に追加され、キー B のデータレコードはすべてシャード 2 に追加されるように、データプロデューサーを設定できます。

シーケンス番号

シーケンス番号とは、各データレコードの一意の識別子です。データプロデューサーが PutRecord API または PutRecords API を呼び出してデータを Amazon Kinesis データストリームに追加すると、Amazon Kinesis Data Streams によってシーケンス番号が割り当てられます。同じパーティションキーのシーケンス番号は一般的に、時間の経過とともに大きくなります。PutRecord リクエストまたは PutRecords リクエスト間の期間が長くなるほど、シーケンス番号は大きくなります。

Kinesis Data Streams の使用

Amazon Kinesis Data Streams のご利用開始にあたって (1:58)

アマゾンウェブサービスにサインアップした後、次の方法で Amazon Kinesis Data Streams の使用を開始できます。

Amazon Kinesis マネジメントコンソールまたは Amazon Kinesis CreateStream API を使用して Amazon Kinesis データストリームを作成します。
Amazon Kinesis データストリームに連続的にデータを格納するように、データプロデューサーを設定します。
Amazon Kinesis データストリームからデータを読み取って処理するように Amazon Kinesis アプリケーションを構築します。

Streams へのデータの格納

データプロデューサーは、Amazon Kinesis データストリームに Amazon Kinesis Data Streams API、Amazon Kinesis Producer Library (KPL)、または Amazon Kinesis Agent を介してデータを格納できます。

Amazon Kinesis Data Generator

Amazon Kinesis Data Generator を使用して Kinesis データストリームまたは Kinesis Data Firehose にサンプルデータを格納します。

Amazon Kinesis Data Streams API

Amazon Kinesis Data Streams には、データを Amazon Kinesis ストリームに入力するために PutRecord と PutRecords という 2 種類の API が準備されています。PutRecord では 1 回の API 呼び出しでデータレコードを 1 つだけ取扱いできます。PutRecords API では 1 回の API 呼び出し内で複数のデータレコードを取扱いできます。

Amazon Kinesis Producer Library (KPL)

Amazon Kinesis Producer Library (KPL) とは、Amazon Kinesis データストリームにデータを格納するのに役立つ、使いやすく、高度な設定が可能なライブラリです。Amazon Kinesis Producer Library (KPL) は、最低限のクライアントリソースを使用して、高いプロデューサースループットを素早く実現できる、シンプルで非同期の、信頼のおけるインターフェイスを提供します。

Amazon Kinesis Agent

Amazon Kinesis Agent は、データを収集して Amazon Kinesis に送る機能を簡単に実現する、事前に構築された Java アプリケーションです。このエージェントは、ウェブサーバー、ログサーバー、データベースサーバーなど、Linux ベースのサーバー環境にインストールできます。エージェントによって特定のファイルがモニタリングされ、継続的にデータがストリームに送られます。

フルマネージド型のストリーム処理アプリケーションを実行する、または独自のアプリケーションを構築する

AWS サービスを使用してフルマネージド型のストリーム処理アプリケーションを実行するか、または独自のアプリケーションを構築します。

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose は、ストリーミングデータを変換し、データストアや分析ツールに確実にロードする最も簡単な方法です。Kinesis データストリームを Kinesis data firehose のソースとして使用できます。

Amazon Managed Service for Apache Flink

Amazon Managed Service for Apache Flink を使用すると、Apache Flink を使用してストリーミングデータを簡単にクエリしたり、ストリーミングアプリケーションを構築したりできます。これにより、実用的なインサイトを得て、ビジネスやお客様のニーズにすばやく対応することができます。Kinesis データストリームは、Amazon Managed Service for Apache Flink アプリケーションのソースと宛先として使用できます。

AWS Lambda

Lambda 関数をサブスクライブして、Kinesis データストリームから自動的にレコードを読み取ることができます。AWS Lambda は通常、レコードごとの (イベントベースとしても知られています) ストリーム処理に使用されます。

Amazon Kinesis クライアントライブラリ (KCL)

ビルド済みのライブラリである Amazon Kinesis Client Library (KCL) を使用すると Amazon Kinesis データストリームからデータを読み取って処理する Amazon Kinesis アプリケーションを簡単に作成できます。KCL は、ストリームボリュームの変化への適応、ストリーミングデータの負荷分散、分散サービスの調整、データ処理の耐障害性などの複雑な問題に対応します。KCL を利用することで、Amazon Kinesis アプリケーションの構築中にビジネスロジックに集中できます。 KCL 2.0 以降では、低レイテンシーの HTTP/2 ストリーミング API と拡張ファンアウトを使用してストリームからデータを取得できます。

Amazon Kinesis コネクタライブラリ

ビルド済みのライブラリである Amazon Kinesis コネクタライブラリを使用すると Amazon Kinesis を他の AWS サービスやサードパーティー製ツールと簡単に統合できるようになります。Amazon Kinesis コネクタライブラリを使用するには、Amazon Kinesis クライアントライブラリ (KCL) が必要です。このライブラリの現在のバージョンでは、Amazon DynamoDB、Amazon Redshift、Amazon S3、Amazon Elasticsearch Service に対するコネクタが提供されています。またライブラリには、各タイプのサンプルコネクタと、サンプルを実行するための Apache Ant ビルドファイルも含まれています。

Amazon Kinesis Storm Spout

ビルド済みのライブラリである Amazon Kinesis Storm Spout は Amazon Kinesis Data Streams を Apache Storm と簡単に統合できます。Amazon Kinesis Storm Spout の現在のバージョンは、Kinesis データストリームからデータをフェッチし、そのデータをタプルとして送出します。信頼性が高くスケーラブルなストリームキャプチャ、ストレージ、再生サービスとして Amazon Kinesis Data Streams を活用するには、Spout を Storm トポロジに追加します。

管理機能

Amazon VPC から Kinesis Data Streams API へのプライベートアクセス

VPC エンドポイントを作成すると、Amazon Virtual Private Cloud (VPC) から Kinesis Data Streams API にプライベートにアクセスできます。VPC エンドポイントを使うと、VPC と Kinesis Data Streams の間のルーティングが AWS ネットワークによって処理されます。インターネットゲートウェイ、NAT ゲートウェイ、VPN 接続は必要ありません。Kinesis Data Streams で使用される VPC エンドポイントの最新世代では、AWS PrivateLink が使用されています。AWS PrivateLink は、VPC でのプライベート IP と Elastic Network Interface (ENI) を使用することにより、AWS のサービス間でのプライベート接続を実現するテクノロジーです。PrivateLink の詳細については、AWS PrivateLink のドキュメントを参照してください。

パフォーマンスを犠牲にしないファンアウト Kinesis Data Streams データ

拡張ファンアウトにより、並行してストリームから読み取るコンシューマー数を調整しながら、パフォーマンスを維持できます。拡張ファンアウトと HTTP/2 データ取得 API を使用して、通常 70 ミリ秒以内にデータを複数のアプリケーションに届けます。

Kinesis Data Streams データの暗号化

サーバー側の暗号化またはクライアント側の暗号化を使用して、Kinesis Data Streams に格納したデータを暗号化できます。サーバー側の暗号化は、ストリームからデータの格納と取得を行う際に自動的にデータを暗号化および復号化する、フルマネージド型の機能です。また、データストリームにデータを格納する前に、クライアント側でデータを暗号化することもできます。詳細については、Kinesis Data Streams のよくある質問にある「セキュリティ」セクションを参照してください。

Amazon Kinesis Data Firehoseと Amazon Managed Service for Apache Flink の統合

データストリームを Kinesis Data Firehose のソースとして使用すると、すぐにデータを変換し、S3、Redshift、Elasticsearch、Splunk に送信できます。新しいプログラミング言語やフレームワークの処理を学ぶことなく、標準 SQL を使用してリアルタイムでストリーミングデータを処理できる Amazon Managed Service for Apache Flink アプリケーションを接続します。

Amazon CloudWatch との統合

Amazon Kinesis Data Streams は Amazon CloudWatch と統合されているため、Amazon Kinesis データストリームとデータストリーム内のシャードの CloudWatch メトリクスを簡単に収集、表示、分析できます。Amazon Kinesis Data Streams のメトリクスの詳細については、「Amazon CloudWatch による Amazon Kinesis Streams サービスのモニタリング」を参照してください。

AWS IAM の統合

Amazon Kinesis Data Streams は、AWS Identity and Access Management (IAM) と統合されています。IAM は、AWS の各種サービスとリソースへのユーザーアクセスを安全に制御するためのサービスです。たとえば、特定のユーザーまたはグループだけに Amazon Kinesis データストリームへのデータの追加を許可するポリシーを作成できます。Amazon Kinesis データストリームのアクセスの管理と制御に関する詳細については、「IAM により Amazon Kinesis リソースへのアクセスを制御する」を参照してください。

AWS CloudTrail の統合

Amazon Kinesis Data Streams は AWS CloudTrail と統合されています。AWS CloudTrail は、ユーザーのアカウントに対する AWS API コールを記録してログファイルを提供するサービスです。API コールのログ記録およびサポートされる Amazon Kinesis API のリストの詳細については、「AWS CloudTrail を使用した Amazon Kinesis API コールのログ記録」を参照してください。

タグ付けのサポート

リソースとコストの管理が容易になるように Amazon Kinesis データストリームにタグを付けることができます。タグは、AWS リソースの整理に便利なキーと値のペアとして表されるユーザー定義のラベルです。たとえば、コストセンター別に Amazon Kinesis データストリームにタグを付けることにより、コストセンターに基づいて Amazon Kinesis データストリームのコストを分類および追跡できます。詳細については、Amazon Kinesis Data Streams でのストリームのタグ付けを参照してください。

チュートリアル

Amazon Kinesis Data Streams を使った株式データの分析

このチュートリアルでは、Amazon Kinesis データストリームの作成、株取引のシミュレーションデータのストリームへの送信、データストリームのデータを処理するアプリケーションの作成といった方法について説明します。

注目のプレゼンテーション

Analyzing Streaming Data in Real Time with Amazon Kinesis (ABD301)

Amazon Kinesis を使用すると、ストリーミングデータをリアルタイムに収集、処理、分析することが簡単になるため、インサイトを適時に取得して新しい情報に迅速に対応できます。このセッションでは、データの取り込みに Kinesis Streams、リアルタイムの処理に Kinesis Analytics、永続性のために Kinesis Firehose を使用した、エンドツーエンドのストリーミングデータソリューションを紹介します。ストリーミングデータを使用する SQL クエリの記述方法を詳しく確認し、Kinesis Analytics アプリケーションを最適化およびモニタリングするためのベストプラクティスについて説明します。最後に、システム全体のコストを算出する方法を説明します。

セッションの録画を視聴する | プレゼンテーションをダウンロードする

ワークショップ: Building Your First Big Data Application on AWS (ABD317)

AWS のビッグデータウェブサービスに関する知識を強化し、はじめてのビッグデータアプリケーションをクラウドでリリースしましょう。取り込み、保存、処理、および可視化で構成されるデータバスとしてビッグデータ処理を簡素化する方法を説明します。AWS マネージドサービス (Amazon Athena、Amazon Kinesis、Amazon DynamoDB、Amazon S3 など) を使用してビッグデータアプリケーションを構築します。また、ビッグデータアプリケーションのアーキテクチャの設計パターンを確認し、アプリケーションを自分で再構築してカスタマイズできるように、自習用ラボへのアクセス権を付与します。このセッションを最大限活用するためには、自分のノート PC を持参し、AWS のサービスを理解している必要があります。

プレゼンテーションをダウンロードする

ワークショップ: Don't Wait Until Tomorrow How to Use Streaming Data to Gain Real-time Insights into Your Business (ABD321)

近年、コネクテッドデバイスの数とリアルタイムデータソースの数は、爆発的に増加しています。そのため、データが継続的に生成され、生成されるスピードも加速しています。ビジネスでは、このようなデータを使用するために数時間または数日待つことはできません。貴重なインサイトを取得するためには、このデータを即座に利用して新しい情報に迅速に対応する必要があります。このワークショップでは、ストリーミングデータソースを利用して、ほぼリアルタイムで分析、対応する方法を説明します。実際のストリーミングデータのシナリオに関する要件がいくつか提示され、Amazon Kinesis、AWS Lambda、Amazon SNS などのサービスを使用して、要件を満たすソリューションを作成するタスクを実行します。

プレゼンテーションをダウンロードする

How Amazon Flex Uses Real-time Analytics to Deliver Packages on Time (ABD217)

データから実行可能なインサイトを取得する時間を短縮することは、すべてのビジネスにとって重要であり、バッチデータ分析ツールを使用しているお客様は、ストリーミング分析のメリットを活用しようとしています。データウェアハウスやデータベースから、リアルタイムのソリューションにアーキテクチャを拡張するためのベストプラクティスをご確認ください。Amazon Kinesis を使用してリアルタイムデータのインサイトを取得し、Amazon Aurora、Amazon RDS、Amazon Redshift、Amazon S3 と統合させる方法をご確認ください。Amazon Flex チームが、Amazon 配信ドライバーで使われる Amazon Flex モバイルアプリケーションでストリーミング分析を使用して、毎月何百万ものパッケージを時間どおりに配信した方法を説明します。バッチ処理システムからリアルタイムシステムへの移行を可能にし、既存のバッチデータをストリーミングデータに移行するという課題を克服したアーキテクチャについて、およびリアルタイム分析を活用する方法について説明します。

セッションの録画を視聴する | プレゼンテーションをダウンロードする

Real-Time Streaming Applications on AWS: Use Cases and Patterns (ABD203)

市場で勝利し、差別化されたカスタマーエクスペリエンスを提供するには、企業はリアルタイムでライブデータを使用し、意思決定の迅速化を促進する必要があります。このセッションでは、一般的なストリーミングデータ処理のユースケースとアーキテクチャについて説明します。まず、ストリーミングデータと AWS のストリーミングデータ機能の概要について説明します。次に、幾つかのお客様の事例と、リアルタイムストリーミングアプリケーションを確認します。最後に、ストリーミングデータの主なユースケースにおける、一般的なアーキテクチャと設計パターンについて説明します。

セッションの録画を視聴する | プレゼンテーションをダウンロードする

主なソリューション

Amazon Kinesis 向け AWS ストリーミングデータソリューションは、データがプロデューサー、ストリーミングストレージ、コンシューマー、および宛先を通過する AWS CloudFormation テンプレートを提供します。さまざまなユースケースとビジネスニーズをサポートするために、このソリューションでは 4 つの AWS CloudFormation テンプレートが提供されています。テンプレートは、ダッシュボードとアラームを使用して機能を監視し、データを保護するためのベストプラクティスを適用するように構成されています。

Amazon Kinesis Data Streams の使用を開始

開発者ガイドをご覧ください

始める準備はできましたか?

サインアップ

ご不明な点がおありですか?

お問い合わせ