什么是特征工程?

模型特征是机器学习(ML)模型在训练和推断过程中用来进行预测的输入。机器学习模型的准确度取决于特征的精确集合和组成。例如,在推荐音乐播放列表的机器学习应用程序中,特征可能包括歌曲评分、播放历史以及播放时长。创建特征可能需要大量的工程工作。特征工程涉及从原始数据(例如价目表、产品说明和销售量)中提取和转换变量,以便您可以使用特征进行训练和预测。工程特征所需的步骤包括数据提取和清理,以及特征创建和存储。

特征工程的挑战有哪些?

特征工程具有挑战性,因为它结合了数据分析、业务领域知识和一些直觉。创建特征时,立即获取可用数据是很诱人的,但通常您应该通过与专家交谈、集思广益和进行第三方研究来考虑需要哪些数据。如果不做这个练习,您可能会错过重要的预测变量。

数据提取

收集数据是收集 ML 所需的所有数据的过程。数据收集可能很繁琐,因为数据驻留在许多数据来源中,包括笔记本电脑、数据仓库、云中、应用程序内部和设备上。寻找连接到不同数据来源的方法可能很有挑战性。数据量也呈指数级增长,因此需要搜索大量数据。此外,根据数据来源的不同,数据的格式和类型也有很大不同。例如,视频数据和表格数据不容易一起使用。

特征创建

数据标注过程用于识别原始数据(图片、文本文件、视频等)并添加一个或多个有意义的信息标签以提供上下文,从而使 ML 模型能够从它进行学习。例如,标签可指示照片是否包含鸟或汽车、录音中有哪些词发音,或者 X 影像是否发现了异常。各种使用案例都需要用到数据标注,包括计算机视觉、自然语言处理和语音识别。

特征存储

清洗和标注数据之后,ML 团队通常需要探索数据以确保数据正确并为 ML 做好准备。直方图、散点图、箱线图、折线图和条形图都是确认数据是否正确的有用工具。此外,可视化还有助于数据科学团队完成探索性数据分析。这个过程使用可视化来发现模式、识别异常、测试假说或检查假设。探索性数据分析不需要正式建模;相反,数据科学团队可以使用可视化来解读数据。 

AWS 如何帮助特征工程?

借助 Amazon SageMaker Data Wrangler,您可以使用单一可视化界面简化特征工程流程。使用 SageMaker Data Wrangler 的数据选择工具,您可以从各种数据来源中选择所需的原始数据,然后单击一下即可导入。SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速标准化、转换和组合各种特征。当数据准备就绪后,您可以使用 Amazon SageMaker Pipelines 构建全自动的 ML 工作流程,并将其保存在 Amazon SageMaker Feature Store 中以供重复使用。SageMaker Feature Store 是一个专门构建的存储库,您可以在其中存储和访问特征,以便更轻松地在各个团队中对其进行命名、整理和重复使用。SageMaker Feature Store 为训练和实时推理期间的特征提供一个统一的存储库,而无需编写额外代码或创建手动流程即可保持特征的一致性。

AWS 的后续步骤

查看其他与产品相关的资源
适用于特征工程的 AWS Support 
注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录