感谢您的下载
- 数据准备:GPS 数据是高度敏感的信息,因为它可以用来跟踪移动出行。包括汽车驾驶 GPS 数据以及上次上下车信息。原始 GPS 数据中有噪声数据,包括数据湖中标记的一些上下车坐标点。您可以使用 Amazon SageMaker Data Wrangler简化数据预处理和特征工程的过程。
- 数据探索:为了更好地观察和分析模拟轨道数据,我们采用Amazon Location进行数据可视化。Amazon Location 为 Android、iOS 和 web 提供前端 SDK。
- 算法选择:K-means 是一种无监督学习算法,它能在数据中找到离散的分组。SageMaker 使用网络规模 k-means 聚类算法的修改版本。与算法的原始版本相比,SageMaker 使用的版本将更准确,可以扩展到大规模数据集并缩短训练时间。
- 训练模型:数据格式–支持 protobuf recordIO 和 CSV 格式进行训练。EC2 实例选择–建议在选择 k-means 算法时使用 Amazon EC2 CPU 实例,如 ml.c5.2xlarge。超参数–Hyperparameter 与数据集密切相关,客户可以根据实际情况进行调整,以获得最佳效果。
- 模型评估:聚类数(k)是 k-means 聚类中最重要的超参数。我们可以使用不同的模型评估方法来获得最佳k的最优值,然后可通过 Amazon Location 显示 k-means 聚类结果。下面左图可视化显示了我们的结果,共有10个簇;还需要考虑充电站的规模,我们将每个簇中心周围的点数除以一个系数(例如,系数值为100,这意味着每100辆车共享一个充电桩),下面右图可视化显示了充电站的范围。

