投稿日: Jul 26, 2019

本日より、Glue ETL ジョブで (Glue バージョン 1.0 を使用して) Parquet 形式と ORC 形式のジョブのブックマークを管理できるようになります。AWS Glue は、ジョブの実行による状態情報を保存することで ETL ジョブの以前の実行中に処理されたデータを追跡します。この保持された状態情報はジョブのブックマークと呼ばれます。ジョブのブックマークにより、AWS Glue は状態情報を維持し、古いデータの再処理を防ぐことができます。 

これまでは、JSON、CSV、Apache Avro、XML など、一般的な S3 ソース形式以外のブックマークはサポートされていませんでした。 

この機能は、AWS GovCloud (米国東部) および AWS GovCloud (米国西部) を除く、AWS Glue が利用可能なすべてのリージョンで利用できます。 

この機能の詳細については、こちらのドキュメントをご覧ください。