投稿日: Apr 27, 2020

AWS Glue は、サーバーレスストリーミング ETL ジョブのサポートを開始しました。この機能により、IoT イベントストリーム、クリックストリーム、ネットワークログなどのデータを準備する継続的な取り込みパイプラインを簡単にセットアップし、数秒で分析できるようになります。AWS Glue は、Amazon Kinesis や Apache Kafka などのストリーミングソースからのデータを使用し、転送中にそれをクリーンアップして変換し、結果を Amazon S3 のデータレイク、データウェアハウス、およびその他のデータストアに継続的にロードできます。AWS Glue ストリーミング ETL ジョブは Apache Spark Structured Streaming エンジン上で実行されるため、お客様はそれらを使用してデータを強化し、集約し、組み合わせることができるほか、さまざまな種類の複雑な分析や機械学習操作を実行できます。 

以前は、ストリーミングデータの取り込みパイプラインを構築するために、ストリーム処理システムとモニタリングシステムを手動で構築してつなぎ合わせる必要がありました。AWS Glue でのストリーミング ETL ジョブは、AWS Glue のサーバーレスインフラストラクチャを利用して、リソース管理を簡素化し、コストを最適化し、コードを記述せずに継続的な取り込みパイプラインをセットアップできるようにすることで、実装時間を数か月から数日に短縮します。 

この機能は、AWS Glue と同じ AWS リージョンで利用できるようになりました。 

この機能の詳細については、ドキュメントを参照してください。