ストリーム処理 – Amazon Managed Service for Apache Flink の特徴

Amazon Managed Service for Apache Flink により、Apache Flink を使用してリアルタイムストリーム処理アプリケーションを簡単に構築して実行できます。Amazon Managed Service for Apache Flink は、Flink クラスターのプロビジョニングと設定を行い、Flink ジョブ管理を調整します。モニタリングとアラームを設定し、自動スケーリングを行い、高可用性 (アベイラビリティーゾーンのフェイルオーバーを含む) を実現するように設計されています。このサービスでは、Apache Flink の表現力豊かな API を利用できます。また、Amazon Managed Service for Apache Flink Studio を通じて、わずか数ステップでデータストリームをインタラクティブにクエリしたり、ステートフルアプリケーションを起動したりできます。このマネージドサービスを使用すると、Apache Flink を使い始め、データストリーム処理アプリケーションを迅速にデプロイして運用できます。

Amazon Managed Service for Apache Flink では、低レイテンシーで高スループットのデータ処理、1 回限りの処理、耐久性のあるアプリケーション状態など、Apache Flink の業界をリードするあらゆる機能にアクセスできます。Amazon Managed Service for Apache Flink を使用すると、安全で、規格に準拠した、可用性の高いアプリケーションをデプロイできます。Amazon Managed Service for Apache Flink は、複数のアベイラビリティーゾーン間でデータとワークロードを簡単にレプリケートできるため、パフォーマンスの中断がなく高い信頼性を確保でき、追加の容量にお金を払う必要もありません。

Amazon Managed Service for Apache Flink は、Flink の柔軟な API を Java、Scala、Python、SQL でサポートしているため、アプリケーションの開発が容易になります。Amazon Managed Service for Apache Flink は、Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose、Amazon Simple Storage Service (Amazon S3)、Amazon DynamoDB、JDBC コネクタ、カスタムコネクタなど、何百ものデータソースや送信先と統合されています。

Apache Flink を使用したストリーム処理アプリケーション

オープンソース

Amazon Managed Service for Apache Flink には、Apache Flink、Apache Beam、Apache Zeppelin、AWS SDK、AWS のサービス統合などのオープンソースライブラリが含まれています。Apache Flink は、高可用性で正確なストリーミングアプリケーションを構築するためのフレームワークおよびエンジンです。Apache Beam は、複数のランタイムエンジンで実行されるストリーミングおよびバッチデータ処理アプリケーションを定義するための統合モデルです。AWS SDK は、好みの言語で API を提供することで多くの AWS のサービスでのコーディングの複雑さを解消します。また、AWS ライブラリ、コードサンプル、ドキュメントなどを含んでいます。

柔軟な API

Amazon Managed Service for Apache Flink はステートフルなイベント処理、ストリーミング ETL (抽出、変換、ロード)、リアルタイム分析など、さまざまなユースケースに特化した Flink の柔軟な API を Java、Scala、Python、SQL でサポートしています。事前構築済みのオペレーターと分析機能により、Apache Flink ストリーミングアプリケーションを数か月ではなく数時間で構築できます。また、ライブラリは拡張可能なため、さまざまなユースケースでリアルタイム処理を実行できます。

AWS のサービスの統合

最小限のコードで、データソースまたは転送先を設定および統合できます。Amazon Managed Service for Apache Flink ライブラリを使用して、次の AWS サービスと統合できます。

高度な統合機能

AWS 統合に加えて、Amazon Managed Service for Apache Flink ライブラリには 40 以上の Apache Flink コネクタと、カスタム統合の構築機能が含まれています。ほんの数行のコードを追加することで、高度な機能によってそれぞれの統合の動作を変更できます。また、一連の Apache Flink のプリミティブタイプを使用して、カスタム統合を構築することもできます。これにより、インターネット経由でアクセスするファイル、ディレクトリ、ソケット、その他のソースとの間での読み書きできます。

正確に 1 回の処理

Amazon Managed Service for Apache Flink を使用すると、処理されたレコードが正確に 1 回だけ結果に影響を与え、正確に 1 回の処理と呼ばれるアプリケーションを構築することができます。内部のサービスメンテナンスやユーザーが開始したアプリケーションの更新のようなアプリケーションの中断の場合でも、サービスはすべてのデータが処理され、重複するデータが存在しないことを保証します。

ステートフル処理

このサービスは、実行中のアプリケーションストレージに、以前のまたは実行中の計算や状態を保存します。リアルタイムおよび過去の結果を任意の期間にわたって比較し、アプリケーション中断時に迅速なリカバリを実現します。状態は常に暗号化され、実行中のアプリケーションストレージに増分として保存されます。

耐久性のあるアプリケーションのバックアップ

簡単な API コールを使用して、耐久性のあるアプリケーションのバックアップを作成および削除します。中断後すぐに最新のバックアップからアプリケーションを復元したり、以前のバージョンにアプリケーションを復元することもできます。

ML 統合

Amazon Managed Service for Apache Flink は、機械学習 (ML) アルゴリズムをサポートしています。分類、クラスタリング、評価、機能エンジニアリングのレコメンデーション、リグレッション、統計のためのリアルタイムアプリケーションを作成できます。

AWS Glue スキーマレジストリの互換性

Amazon Managed Service for Apache Flink は、AWS Glue Schema Registry と互換性があります。スキーマレジストリは、ソースまたはシンクとして、Apache Kafka、Amazon MSK、または Amazon Kinesis Data Streams に接続された Amazon Managed Service for Apache Flink ワークロード上のスキーマの進化を管理する互換性チェックを使用し、データ品質を向上させ、予期しない変更から保護するのに役立ちます。

Amazon Kinesis Data Analytics Studio

ストリームの検査と可視化

Kinesis Data Analytics Studio は、組み込みの可視化機能を備え、1 秒未満のクエリをサポートしています。アドホックなクエリを実行して、データストリームをすばやく検査し、数秒で結果を表示することができます。

シンプルなビルドと実行の環境

Studio ノートブックは、コードの開発、デバッグ、およびストリーム処理アプリケーションの実行のための単一インターフェイスによる開発エクスペリエンス体験を提供します。

SQL、Python、Scala を使用した処理

Kinesis Data Analytics Studio は、同じ開発環境で SQL、Python、Scala をサポートします。構文の強調表示、検証、および状況依存の提案により、固有の Apache Flink 機能の組み込みサポートを利用して、ノートブック内でデータを操作できます。

迅速なサーバーレスストリーム処理アプリケーションの開発

サーバーをプロビジョン、管理、スケールする必要はありません。ただコードを書き、アプリケーションが消費するリソースに料金を支払います。ノートブック内のコードを、自動スケーリングと永続的な状態で継続的に実行されるストリーム処理アプリケーションに簡単にデプロイできます。

オープンソース

Kinesis Data Analytics Studio は、本番環境で使用される Apache Flink アプリケーション上で実行および生成されます。Apache Zeppelin ノートブックは、選択した言語でストリーミングアプリケーションを作成するための使い慣れた使いやすいエクスペリエンスを提供します。

AWS Glue データカタログの使用開始 (6:24)

AWS Glue データカタログは、テーブル定義を含む中央リポジトリとして機能する永続的なメタデータストアです。AWS の複数のデータセットで素早く検出および検索を行うには、AWS Glue データカタログを使用します。Kinesis Data Analytics Studio は、ソーステーブルと宛先テーブルのスキーマを定義できる AWS Glue データカタログと互換性があります。

Amazon Kinesis Data Analytics の使用を開始する

コストを計算

Amazon Kinesis Data Analytics の料金ページをご覧ください。

入門ガイドを見る

SQL および Apache Flink のステップバイステップガイドで Amazon Kinesis Data Analytics の使用方法を学習できます。

ストリーミングアプリケーションの構築を開始する

Amazon Kinesis Data Analytics コンソールを使用してストリーミングアプリケーションを構築します。

Amazon Managed Service for Apache Flink の特徴

Apache Flink を使用したストリーム処理アプリケーション

オープンソース

柔軟な API

AWS のサービスの統合

高度な統合機能

正確に 1 回の処理

ステートフル処理

耐久性のあるアプリケーションのバックアップ

ML 統合

AWS Glue スキーマレジストリの互換性

Amazon Kinesis Data Analytics Studio

ストリームの検査と可視化

シンプルなビルドと実行の環境

SQL、Python、Scala を使用した処理

迅速なサーバーレスストリーム処理アプリケーションの開発

オープンソース

AWS Glue データカタログの使用開始 (6:24)

Amazon Kinesis Data Analytics の使用を開始する

Internet Explorer のサポートの終了