在本模块中,您将使用内置的 Amazon SageMaker 神经主题模型 (NTM) 算法训练主题模型。
Amazon SageMaker NTM 是一个无监督学习算法,可用于根据统计分布将文档语料库组织到包含词组的主题中。包含“自行车”、“汽车”、“火车”、“英里数”和“速度”等频繁出现的单词的文档可能会共享有关“交通”的主题。主题建模可用于根据检测到的主题分类或总结文档,或根据主题相似性检索信息或推荐内容。由于主题是从语料库中的观察单词分布中推断出的,NTM 学习的文档中的主题被描述为潜在表示。主题的语义通常通过检查其中包含的排名靠前的单词推断出。由于方法无监督,只会预先指定主题的数量而非主题本身。此外,不保证这些主题与人类对文档的自然分类方式一致。
在下面的步骤中,您将为训练作业指定 NTM 算法,为模型指定基础设施,设置超参数值来调整模型及运行模型。然后,您可以将模型部署到 Amazon SageMaker 管理的终端节点中,以进行预测。
完成模块所需时间:20 分钟
在本模块中,您从 Amazon ECR 中检索了 Amazon SageMaker 神经主题模型 (NTM) 算法。然后,您指定了算法特定的超参数,并提供了 Amazon S3 存储桶进行构件存储。接下来,您使用 Amazon SageMaker 托管服务或批量转换将模型部署到终端节点中。最后,您使用不同的主题数量值探索模型。
在下一个模块中,您将训练并部署内容推荐模型。