发布于: Oct 15, 2021
AWS Glue 爬网程序可以扫描 Amazon S3 和关系数据库中的数据、提取其 Schema 并自动填充 AWS Glue 数据目录以确保元数据为最新,从而让用户能够更轻松地发现数据。该功能可通过您偏爱的分析和机器学习工具,快速将新摄取的数据提供给分析师,从而缩短获取洞察所需的时间。
在配置 AWS Glue 爬网程序以发现 Amazon S3 中的数据时,您可以选择完整扫描(每次爬网程序运行时都处理给定路径中的所有对象)或者递增扫描(仅处理新添加的文件夹中的对象)。完整扫描适合表中的更改不具有必然性并且可能会影响任何对象或分区的情形。递增爬网适合向表中添加新分区或新文件夹的情形。对于频繁更改的大型表,递增爬网模式可以减少爬网程序确定发生了更改的对象所需的时间,从而带来增强。
今天,我们宣布支持将 Amazon S3 事件通知作为源,以便 AWS Glue 爬网程序对 AWS Glue 数据目录的表进行递增更新。客户将能够配置要发送到某个 Amazon Simple Queue Service(SQS)队列的 Amazon S3 事件通知,然后爬网程序将该队列来识别新添加或删除的对象。每次爬网程序运行时,它都会检查该 SQS 队列以识别新事件,如果未找到任何新事件,则爬网程序会停止运行。如果在队列中找到事件,爬网程序将检查相应的文件夹并处理新的对象。这种新的模式减少了爬网程序更新频繁更改的大型表所需的成本和时间。