发布于: Jan 10, 2022
Amazon SageMaker 特征存放区宣布推出适用于 Apache Spark 的连接器,这种新的增强功能让客户能够更轻松地批量摄入数据。Amazon SageMaker 特征存放区是一个完全托管式的专用存储库,用于存储、更新、检索和共享机器学习(ML)模型特征。SageMaker 特征存放区支持多种数据摄入方式,包括使用 PutRecord API、SageMaker Python SDK 的 FeatureGroup.ingest 功能以及 SageMaker 处理任务。
通过批量摄入,客户可以从 Amazon EMR 和 处理任务等 Spark 源摄取数据。这要求通过 Spark 数据帧记录进行迭代并多次使用特征组和特征名称配置 PutRecord API,这可能会极为耗时。在发布此新功能后,客户可以使用适用于 Apache Spark 的 SageMaker 特征存放区连接器简化并自动执行这些步骤。此连接器支持所有的 Spark 库,客户可以通过向 Amazon EMR 上现有的特征工程管道添加简单的 API,从而轻松将数据批量摄入 SageMaker 特征存放区。此外,此连接器还允许直接将数据摄入 SageMaker 特征存放区的离线存放区,从而简化回填过程。
要了解详情,请参阅文档。要开始使用,请登录 Amazon SageMaker 控制台。