Amazon SageMaker Feature Store

适用于机器学习特征的完全托管的存储库

Amazon SageMaker Feature Store 是一个完全托管的专用存储库,用于存储、更新、检索和共享机器学习 (ML) 特征。

特征是指在训练和推断期间用来进行预测的属性或特性模型。例如,在推荐音乐播放列表的机器学习应用程序中,特征可能包括歌曲评分、播放历史以及播放时长。机器学习模型的精确度基于特征的精确集合和组成。通常,这些特征会被训练多个模型的多个团队重复使用。而且。用于训练模型的任何特征集都要可用于进行实时预测(推理)。在这些不同的访问模式中保持一个统一且最新的特征来源是一项挑战,因为大多数组织会保留两个不同的特征存储库,一个用于训练,另一个用于推理。

Amazon SageMaker Feature Store 是一个专门构建的存储库,您可以在其中存储和访问特征,以便更轻松地在各个团队中对其进行命名、整理和重复使用。SageMaker Feature Store 为训练和实时推理期间的特征提供一个统一的存储库,而无需编写额外代码或创建手动流程即可保持特征的一致性。SageMaker Feature Store 会跟踪存储特征的元数据(例如特征名称或版本号),以便您可以使用交互式查询服务 Amazon Athena 批量或实时查询特征的正确属性。SageMaker Feature Store 还会保持特征为最新状态,因为在推理过程中生成新数据时,这个存储库会进行更新,以便特征在训练和推理过程中始终可用。

Amazon SageMaker Feature Store:存储、发现和分享 ML 应用程序的功能 (29:42)

主要功能

提取多个来源的数据

有多种方法可以将特征提取到 Amazon SageMaker Feature Store 中。您可以使用流数据源,如 Amazon Kinesis Data Firehose。您还可以在数据准备工具中创建特征,如 Amazon SageMaker Data Wrangler,只需单击几下鼠标,即可将其直接存储到 SageMaker Feature Store 中。

搜索和发现

Amazon SageMaker Feature Store 为特征添加标签和索引,以便用户轻松通过 SageMaker Studio 中的可视化界面轻松发现这些标签和索引。浏览特征目录可让团队更好地了解特征,并确定某个特征是否对特定模型有用。

确保特征一致性

Amazon SageMaker Feature Store 可为训练和推理提供相同的特征,有助于确保模型做出准确的预测。训练和推理是截然不同的使用案例,各自的存储要求也不同。SageMaker Feature Store 能同时满足这两方的要求。在训练期间,模型使用完整的数据集,这通常需要数小时,而推理需要在数毫秒内完成,并且通常需要数据的子集。例如,在预测播放列表中下一首最佳歌曲的模型中,您将对数千首歌曲的模型进行训练,但在推理过程中,SageMaker Feature Store 仅访问最后三首歌曲来预测下一首歌曲。SageMaker Feature Store 允许模型访问用于训练运行(通常离线批量完成)和实时推理的相同特征集。

功能标准化

在一个企业中,类似的特征具有不同定义是很常见的现象。例如,“温度”可以用摄氏度或华氏度表示,“日期”可以用日-月-年或月-日-年表示。Amazon SageMaker Feature Store 通过将特征定义存储在单个存储库中来消除团队之间的混乱,从而使每个特征的定义都清晰明了。明确的特征定义可轻松地在不同的应用程序中重复使用特征。

与 Amazon SageMaker Pipelines 集成

Amazon SageMaker Feature Store 与 Amazon SageMaker Pipelines 集成,可创建、添加特征搜索和发现功能,并重复使用自动化机器学习工作流。因此,您可以轻松地将功能搜索、发现和重复使用添加到您的机器学习工作流中。

客户

Climate Corporation
“在 Climate,我们坚信自己能够为全世界的农民提供准确的信息,帮助他们做出数据驱动型决策,并最大限度地提高他们的每英亩土地回报率。为此,我们投资了机器学习工具等技术,使用称为特征的可测量实体来构建模型,如种植者的田间产量。借助 Amazon SageMaker Feature Store,我们可以通过一个集中的特征存储加快机器学习模型的开发,从而帮助多个团队轻松访问和重复使用特征。通过 SageMaker Feature Store,我们可以针对不同的使用案例,或使用在线存储库轻松地实时访问特征,或使用离线存储库按计划运行特征。有了 SageMaker Feature Store,我们可以更快地开发机器学习模型。”

Daniel McCaffrey,Climate 数据和分析副总裁

Intuit
“2017 年,我们选择在 AWS 上构建 Intuit 的新机器学习平台,将 Amazon SageMaker 在模型开发、训练和托管方面的强大功能与 Intuit 自己在编排和特征工程方面的功能相结合。如此一来,我们大大缩短了模型开发生命周期。过去需要整整六个月的时间,现在只需不到一周的时间,让我们能够以更快的速度将人工智能功能引入我们的 TurboTax、QuickBooks 和 Mint 产品中。在 Amazon SageMaker Feature Store 发布之前,我们就与 AWS 密切合作,而且我们对这个完全托管特征存储库的前景感到非常兴奋,因为有了它,我们不再需要在组织内维护多个特征存储库。我们的数据科学家将能够使用一个集中存储库中的现有功能,并推动跨团队和模型实现特征标准化和重复使用。”

Mammad Zadeh,Intuit 工程与数据平台部副总裁

Experian
“在 Experian,我们认为我们有责任让消费者了解和使用理财信贷,并协助贷款人管理信贷风险。随着我们继续实施最佳实践来构建财务模型,我们正在寻找利用机器学习加速产品生产的解决方案。Amazon SageMaker Feature Store 为我们提供了一种安全的方式,用来存储和重复使用我们的机器学习应用程序的特征。能够跨多个账户维持实时应用和批量应用的一致性是我们业务的一项关键要求。利用 Amazon SageMaker Feature Store 的新功能,我们可以帮助客户在新经济中控制信贷并降低成本。”

Geoff Dzhafarov,Experian Consumer Services 的首席企业架构师

“在 DeNA,我们的使命是利用互联网和 AI/ML 带来影响力和令客户满意。提供基于价值的服务是我们的主要目标,我们希望确保我们的业务和服务已准备好实现这一目标…我们希望在整个组织内发现和重复使用特征,而 Amazon SageMaker Feature Store 可帮助我们轻松高效地为不同的应用重复使用特征。Amazon SageMaker Feature Store 还帮助我们维护标准特征定义,并帮助我们在训练模型并将其部署到生产环境时采用一致的方法。借助 Amazon SageMaker 的这些新功能,我们可以更快地训练和部署机器学习模型,为客户提供最佳服务来让客户满意。”

Kenshin Yamada,DeNA 人工智能系统部总经理

Care.com
“供需平衡的强大护理行业对于从单个家庭到国家 GDP 的经济增长都至关重要。我们对 Amazon SageMaker Feature Store 的推出感到非常兴奋,因为我们相信,它将帮助我们使用一致的精选数据集在数据科学和开发团队中更好地实现扩展。借助最新公布的 Amazon SageMaker 功能,我们可以加快针对不同应用的机器学习模型的开发和部署,通过更快的实时推荐帮助客户作出更明智的决策。”

Clemens Tummeltshammer,Care.com 数据科学部经理

“通过使用机器学习,3M 正在改进久经考验的产品(如砂纸),并推动其他领域的创新,包括医疗保健。随着我们计划将机器学习扩展到 3M 的更多领域,我们看到数据和模型的数量正在快速增长 – 每年翻一番。我们热衷于新的 SageMaker 功能,因为它们将帮助我们实现扩展。Amazon SageMaker Data Wrangler 使准备模型训练数据变得更加容易,并且 Amazon SageMaker Feature Store 消除了重复创建相同模型功能的需要。最后,Amazon SageMaker Pipelines 将帮助我们自动准备数据、构建模型并将模型部署到端到端工作流程中,以便缩短模型的上市时间。我们的研究人员期待着利用 3M 的新科学速度。”

David Frazee,3M 公司系统研究实验室技术主管

开始使用 Amazon SageMaker Feature Store

AWS 机器学习博客

Using streaming ingestion with Amazon SageMaker Feature Store to make ML-backed decisions in near-real time

阅读博客 »

AWS 新闻博客

New – Store, Discover, and Share Machine Learning Features with Amazon SageMaker Feature Store

阅读博客 »