Amazon SageMaker Catalog 借助人工智能代理实现数据自动分类

发布于: 2025年11月30日

Amazon SageMaker Catalog 现已提供自动化数据分类功能,可在数据发布环节推荐业务术语表词汇,减少手动标记工作量,同时提升企业内部元数据的一致性。

该功能利用 Amazon Bedrock 的语言模型,通过分析表格元数据与架构信息,从组织的业务术语表中筛选并推荐相关术语。数据生产者会收到由人工智能生成的术语建议,其中包含功能性术语,以及个人身份信息 (PII) 和受保护健康信息 (PHI) 等敏感数据分类,使生产者能够轻松使用标准化词汇标记数据集。生产者可在发布前接受或修改这些建议,确保数据资产之间术语使用的一致性,并提升业务用户的数据检索效率。

自动化数据分类功能已在 Amazon SageMaker 服务覆盖的下述 AWS 区域上线:美国东部(弗吉尼亚州北部、俄亥俄州)、美国西部(俄勒冈州)、亚太地区(东京、首尔、新加坡、悉尼、孟买),以及
欧洲地区(法兰克福、爱尔兰、伦敦、巴黎)。

要开始使用,请前往 SageMaker 融通式合作开发工作室配置您的业务术语表,以生成业务术语推荐。您也可以借助 AWS 命令行界面 (CLI) 或 SDK,以编程方式管理术语表建议。
如需了解更多信息,请参阅 SageMaker Catalog 用户指南。