ストリーミングデータを継続的に処理するための Amazon EMR Serverless ストリーミングジョブの紹介

投稿日: 2024年6月4日

Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、クラスターやサーバーの設定、管理、スケーリングを行う必要がありません。そのためデータエンジニアやデータサイエンティストは、オープンソースのビッグデータ分析フレームワークを簡単に実行できます。ストリーミングデータを継続的に分析および処理できる Amazon EMR Serverless の新しいストリーミングジョブモードを発表いたします。
ストリーミングは、企業がセンサー、IoT デバイス、Web ログなどのデータソースから継続的にインサイトを得るために不可欠になっています。ただし、高可用性、障害に対する耐障害性、ストリーミングサービスとの統合などの要件により、ストリーミングデータの処理は困難な場合があります。Amazon EMR Serverless ストリーミングジョブには、これらの課題に対処する機能が組み込まれています。正常な AZ に自動的にフェイルオーバーすることで、マルチAZ (アベイラビリティーゾーン) の耐障害性を通じて高可用性を実現します。また、障害時のジョブの自動再試行や、ログのローテーションや圧縮などのログ管理機能によって耐障害性が向上し、ジョブの障害につながる可能性のあるログファイルの蓄積を防ぐことができます。さらに、Amazon EMR Serverless ストリーミングジョブは、セルフマネージド Apache Kafka クラスターや Amazon Managed Streaming for Apache Kafka などのストリーミングサービスからのデータ処理をサポートしており、新たに組み込まれた Amazon Kinesis Data Streams コネクタを使用して Amazon Kinesis Data Streams と統合され、エンドツーエンドのストリーミングパイプラインを簡単に構築できるようになりました。

Amazon EMR Serverless ストリーミングジョブは、EMR リリースバージョン 7.1.0 以降において、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、欧州 (ストックホルム、パリ、フランクフルト、アイルランド、ロンドン)、南米 (サンパウロ)、アジアパシフィック (東京、ソウル、シンガポール、ムンバイ、シドニー) の AWS リージョンで一般提供されています。開始するには、Amazon EMR Serverless ユーザーガイドの Amazon EMR Serverless ストリーミングジョブのページを参照してください。