投稿日: Jun 28, 2022
AWS Glue ストリーミング ETL (Extract Transform and Load) は、Amazon Kinesis、Amazon Managed Streaming for Apache Kafka (Amazon MSK)、セルフマネジード型 Apache Kafka からの圧縮されたデータストリーミングを検出できるようになりました。コードを書かずにこのデータを自動的に解凍できるため、開発時間を短縮できます。AWS Glue ストリーミング ETL ジョブは、ストリーミングソースからのデータを継続的に消費し、処理中のデータをクリーンアップして変換し、数秒で分析できるようにします。ストリーミングの前にデータを圧縮し、パフォーマンスを向上させて Amazon Kinesis と Amazon MSK によるスロットリングの制限を回避できます。この機能ができる前は、ストリームからデータを解凍するために、ユーザー定義の関数を記述する必要があり、時間がかかっていました。
この新機能により、AWS Glue ストリーミング ETL はコードを書かなくてもストリーム内でデータが圧縮されているかどうかを自動的に検出し、データを解凍します。AWS Glue ストリーミング ETL は、BZIP、GZIP、SNAPPY、XZ、ZSTD、DEFLATE の圧縮タイプの自動解凍をサポートし、AVRO、JSON、CSV などのファイル形式でサポートされています。詳細については、ドキュメントを参照してください。
本機能は AWS Glue を利用できる AWS リージョンと同じリージョンで利用可能です。