投稿日: Mar 7, 2023
AWS Glue は、AWS のデータ統合ワークロードを高速化する AWS Glue の新しいバージョンであるバージョン 4.0 でストリーミング ETL をサポートするようになりました。AWS Glue 4.0 は、Apache Spark 3.3.0 や Python 3.10 へのアップグレードを含め、データ統合エンジンをアップグレードします。
AWS Glue ストリーミング ETL ジョブは、ストリーミングソースからのデータを継続的に消費し、処理中のデータをクリーンアップして変換し、数秒で分析できるようにします。このリリースには、マイクロバッチにわたる効率的なストリーミングソリューションを構築するために最適化された状態管理ストアが含まれています。 これにより、ストリーム内の重複を削除したり、ストリームベースの集計を実行したりするのが簡単になります。また、対応するレコードがいつストリームで受信されたかを示す新しい列を追加して、データの観測性を高めることもできます。このバージョンは、Amazon Managed Streaming for Apache Kafka Serverless の IAM 認証もサポートしています。
AWS Glue 4.0 ストリーミング ETL は、中国と GovCloud を除き、AWS Glue と同じ AWS リージョンで利用できるようになりました。
詳細については、ドキュメントの「ストリーミング ETL ジョブ」をお読みください。