实验3 – 销售预测(零售)
前言:
在本教程中,您将扮演在某电子商务公司销售部门工作的业务分析师角色预测零售店的销售情况。本实验室使用了Standard Build(标准构建)选项,用时(大约3-4小时)显著长于其他实验室。内容包含:
- 概述
- 将数据集上传至S3存储桶
- 在Canvas中导入数据集
- 构建和训练ML模型
- 使用该模型生成预测结果
在开始本实验室之前,请确保您已经完成“手把手带你启动 Amazon SageMaker Canvas ”(先决条件)部分中描述的步骤。
关于本教程 | |
---|---|
时间 | 3-4 小时 |
费用 | 免费套餐 |
相关行业 | 通用 |
相关产品 | Amazon SageMaker Canvas |
受众 | 业务分析师 |
级别 | 初级 |
上次更新日期 | 2022年5月 |
-
模块一. 概述
在本实验室中,您将扮演在某电子商务公司销售部门工作的业务分析师角色。您将使用零售店的时间序列历史销售数据构建模型,该模型可用于预测特定零售店的销售情况。数据模式如下所示:
本实验可用两种方式运行:
- Amazon S3
- Amazon Redshift
如果您使用该选项,请下载CSV文件。
进入亚马逊云科技管理控制台,在控制台顶部的搜索框中搜索S3,然后转到S3服务控制台。
在S3控制台,点击sagemaker-studio-*存储桶。
sagemaker-studio-*桶是在您在“手把手带你启动Amazon SageMaker Canvas ”(先决条件)部分创建SageMakerStudio域时自动创建的。
点击Upload(上传)。
在上传页面,拖放您刚刚下载的store_daily_sales_reduced.csv文件,然后在页面底部点击Upload(上传)。上传完成后,点击右上方的Close(关闭)按钮。现在,您应该看到文件已经上传至您的存储桶中。
-
模块二. 在Canvas中导入数据集
转到在“手把手带你启动 SageMaker Canvas ”(先决条件)部分创建的 SageMaker Canvas 选项卡。在左边的菜单上,您可以点击第二个图标,进入数据集部分,然后点击Import(导入)按钮。
现在,选择我们之前上传数据集的存储桶,即sagemaker-studio-*存储桶。
现在您可以通过选择其左侧的复选框而选择之前上传的store_daily_sales_reduced.csv文件。在页面底部会弹出两个新的按钮:Preview all(预览全部)和 Import Data(导入数据)。我们选择第一个。
现在,您会看到将要导入的数据集100行预览。核对无误后,点击Import Data(导入数据)。
-
模块三 - 构建和训练ML模型
现在,数据集已经导入,您可以进入模型屏幕,点击+ New model(构建新模型)按钮构建新模型。
在弹出的Create new model(构建新模型)屏幕上,写入模型名称 - store_sales_forecast_model,然后点击(构建)按钮。
在Select dataset(选择数据集)屏幕上,选择store_sales_data作为数据集,并点击 Select dataset(选择数据集)按钮。
在接下来的屏幕上,您可以配置模型进行训练。您也可以通过选择列而查看每一列的统计数据。在 Target column(目标列)字段中选择“销售额“。Canvas会自动选择 Time series forecasting(时间序列预测)作为模型类型。点击 Configure(配置)链接。
在弹出的时间序列预测配置屏幕上,您需要提供一些信息:
- items field(项目字段):您如何在数据集中以独特方式识别您的项目;在该用例中,请选择商店,以便我们预测各门店的销售额
- group column(组别列):如果您对以上所选的项目已进行逻辑分组,则可以在此选择该特性;我们在该用例中未分组,但可以分为州、地区、国家等组别或其他商店分组
- time stamp field(时间戳字段):在此选择销售日期,其是包含时间戳信息的特性;Canvas所要求的数据时间戳格式为YYYY-MM-DD HH:mm:ss(例如:2022-01-01 01:00:00)
- 在number of Days(天数)字段中写入120。
最后,点击Save(保存)按钮。
现在,配置已经完成,我们准备训练该模型。在撰写本文时,SageMaker Canvas 尚不支持针对时间序列预测的快速构建,因此我们将选择 Standard Build(标准构建)选项,并开始训练模型。模型的训练用时约为3-4个小时。
-
模块四. 使用该模型生成预测结果
模型训练完成后,您将跳转至Analyze(分析)选项卡。您可以在此查看平均预测准确率,以及各列对预测结果的影响情况。点击Predict(预测)按钮,将会进入Predict(预测)选项卡。
为了创建预测,您必须首先提供可以进行预测的日期范围。然后,您可以针对数据集中的所有项目或某一特定项目生成预测结果。
在我们的研讨会中,我们选择Single item(单项)选项,并从项目下拉列表中选择任何一个项目。这里,我们选择第5个项目,Canvas随后为我们的项目生成预测结果,显示上限和下限的平均预测值。Canvas之所以提供这两种结果,是因为一般建议给出范围而非单一预测点,这样您就可以选择最适合您用例的结果:您可能想通过选择使用下限而减少资源浪费,或者您可能想选择使用上限而确保满足客户需求。
对于生成的预测结果,您可以点击Download(下载)下拉菜单按钮,下载图片形式的预测图或CSV文件形式的预测值。
-
模块五. 清理实验环境
实验结束时,别忘了删除在本实验开始时构建的Redshift集群 (如果您开启了Redshift集群)。请前往CloudFormation管理控制台页面,进行相关操作,并删除CanvasImmDayLab3堆栈。
1. 再次运行该实验室,但构建一个标准模型,查看其性能;
2. 登出(Account -> Log out)本次实验,选择运行另一个实验室。