发布于: Jul 26, 2019
从现在开始,您可以在 Glue ETL 作业中针对 Parquet 和 ORC 格式维护作业书签(使用 Glue 版本 1.0)。AWS Glue 可存储来自作业运行的状态信息,从而跟踪上次 ETL 作业运行期间处理的数据。这种持久保存的状态信息称为“作业书签”。作业书签可帮助 AWS Glue 维护状态信息并防止再次处理旧信息。
之前,您只能为 JSON、CSV、Apache Avro 和 XML 等常见 S3 源格式添加书签。
除 AWS GovCloud(美国东部)和 AWS GovCloud(美国西部)以外,推出 AWS Glue 的所有区域均提供此功能。
要了解有关此功能的更多信息,请访问我们的文档。