使用 Amazon SageMaker 降低机器学习的总体拥有成本并提高工作效率

Original URL：https://amazonaws-china.com/blogs/machine-learning/lowering-total-cost-of-ownership-for-machine-learning-and-increasing-productivity-with-amazon-sagemaker/

当您要选择一个平台，用来构建、训练和部署机器学习 (ML) 模型时，您有多种选项。为了从中做出选择，要在财务方面权衡不同的云解决方案，您需要对其进行详细的分析。您必须要考虑每个 ML 工作流步骤的基础设施、运营维护和安全成本，以及您的数据科学团队的规模和技术专长。

总体拥有成本 (TCO) 通常是您会用于估计与比较 ML 成本的财务指标。本文针对Amazon SageMaker （这是一个用来构建、训练与部署 ML 模型的全托管服务）做了TCO分析，结果表明，它的 TCO 在三年时间里比其他方式如自己通过 Amazon EC2 或 Amazon EKS来建设要低 54%。我们的分析范围涵盖了从只有五位数据科学家的小团队到由 250 位数据科学家组成的超大型团队，结论是 Amazon SageMaker 能为各种规模大小不同的团队都提供更出色的 TCO。

分析结果

下表对结果进行了总结。如需查看完整的 TCO 分析，见 Amazon SageMaker 的总体拥有成本。

整体概述		Amazon SageMaker 3 年 TCO 节省
整体概述		与 EC2 相比	与 EKS 相比
小型场景	5 位数据科学家	-90%	-90%
中型场景	15 位数据科学家	-87%	-85%
大型场景	50 位数据科学家	-79%	-65%
超大型场景	250 位数据科学家	-77%	-54%

通常来说，Amazon SageMaker 的 TCO 在第一年会比 EC2 或 EKS 选项要低，因为对于后两者，您需要在合规性和安全性投入更多的资金，而且 Amazon SageMaker 中，这些都是现成的。在长时间内，Amazon SageMaker 的 TCO 依然明显较低，因为 Amazon SageMaker 会自动优化基础设施的使用情况，而且不需要维护安全性与合规性功能。

此次TCO 分析评估了 ML 工作流中各步骤在基础设施（计算、存储和网络）、运营和安全方面的成本，以及公司规模（小型、中型、大型和超大型）。在构建 ML 模型的过程中，您要承担对数据进行探索、预处理、试验 ML 框架和算法的成本。在训练时，您要承担训练工具和流程，以及 ML 模型超参优化的成本。最后，在ML 模型部署后，模型要对“在训练过程中没见过的数据”做推理，这也会产生成本。此次分析会计算工作流里每一步中雇用工程师的成本。它还会评估涵盖 ML 工作流全部三个阶段的安全成本，其中包括保护 ML 工作负载、合乎法规标准，以及持续保持安全合规的成本。

选择的ML模型不同，成本就会不同。此次TCO 分析并非基于某个特定的 ML 框架、算法或模型，而是根据AWS 客户在生产环境中情况，将 ML 和深度学习模型混合在一起。

Amazon SageMaker 之所以有这么引人注目的 TCO ，原因之一在于它是一项全托管服务。用它来支持 ML，您就无需构建、管理或维护任何基础设施或工具。为了实现高性能和高可用，Amazon SageMaker可以在自动扩展、跨可用区的集群上运行您的模型。由于您只需要根据实际使用情况来支付存储和网络费用，因此成本可以得到有效控制。此外，Amazon SageMaker 对ML 工作负载有内置的安全性与合规性功能，您无需对额外的安全性进行投资。

使用自行管理的 ML 和 EC2，您要负责预置与管理 EC2 实例，包括实例故障恢复、打补丁、自动扩展，以及构建和维护所需的安全性与合规性。您可以使用预置了ML 框架和库的AWS Deep Learning AMI来构建，但您还需要对数据访问进行优化以获得高吞吐量，同时优化配置以便于扩展从而实现分布式训练。除此以外，您需要为您的 ML 工作负载构建与维护所需的安全性和合规性功能。

借助于 AWS 上托管的 Kubernetes，诸如 EKS 等服务可以简化在 EC2 上部署、管理和扩展容器化的工作负载。但是也会带来一些额外的开销，比如管理集群，根据内存、计算、网络对工作负载的性能和使用做调优。而且，您还需要为您的 ML 工作负载构建适当级别的安全性、合规性与可用性。

除了降低 TCO，Amazon SageMaker 的工作效率功能让您可以更快地把ML创意应用到生产中，并可将数据科学家的效率提升高达 10 倍。提高工作效率最重要的动力来源之一即为 Amazon SageMaker Studio。SageMaker Studio 提供一站式的基于 Web 的可视化界面，您可以在界面上执行所有的 ML 开发步骤。SageMaker Studio 还可以为您提供构建、训练和部署模型各步骤所需的完整访问权限、管控及可见性。您可以在同一个地方快速地上传数据、创建新的笔记本、训练与优化模型，在步骤之间切换以调整实验，比较结果，并将模型部署到生产中，从而使您变得更有效率。您可以在统一的 SageMaker Studio 可视化界面中开展所有的 ML 开发活动，包括笔记本、实验管理、自动模型创建、调试和分析，以及模型偏离检测。

客户案例

在以下若干案例中，Amazon SageMaker 客户享受到了工作效率的提升。

Coinbase 在 Amazon SageMaker 上使用 ML 模型来帮助预防欺诈、验证身份，以及实现大规模合规。通过使用 Amazon SageMaker，Coinbase 将模型训练时间从 20 个小时缩短到 10 分钟。

Intuit 开发的 ML 模型可以提取一整年的银行交易，以便为客户找到可扣除的营业开支。通过使用 Amazon SageMaker，Intuit 将 ML 部署时间从六个月缩短到一个星期，节省了 90% 的时间。

借助于 Amazon SageMaker，NuData Security 可以通过分析匿名用户数据检测反常活动，从而在欺诈交易发生前便检测到异常活动。NuData 通过使用 Amazon SageMaker 将 ML 开发时间缩短了 60%，ML 架构简化了 95%，并与一家大型银行合作，在银行消费者摩擦容忍度范围内被动拦截了几乎 100% 的试图欺诈流量。

通过使用 Amazon SageMaker，Voodoo 可以实时决定向其玩家展示哪些广告，而每天有超过 3000 万用户会调用其终端节点 1 亿次以上，亦即每天将近 10 亿次预测。借助于 AWS 机器学习，Voodoo 在一支小团队的支持下只用了不到一周时间就将准确的模型运用到生产中，并且随着他们的团队与业务的发展持续地对其进行扩建。

通过在 Amazon SageMaker 上使用 TensorFlow，Siemens Financial Services 开发了用于提取关键信息的 NLP 模型，以便加速投资尽职调查，将总结尽职调查文件的时间从 12 个小时缩短到 30 秒。

Celgene 在 Amazon SageMaker 上使用 Apache MXNet 进行毒理学预测，以虚拟方式分析潜在药物的生物学影响，从而避免让病患冒险试药。以前需要花上两个月训练的模型，现在需要四个小时就能完成。

ADP 使用 AWS ML（包括 Amazon SageMaker）快速识别劳动力模式，并在结果发生前进行预测，例如，员工流动或赔偿金增加的影响。ADP 将部署 ML 模型的时间从两个星期缩短到仅仅一天。

	Coinbase 在 Amazon SageMaker 上使用 ML 模型来帮助预防欺诈、验证身份，以及实现大规模合规。通过使用 Amazon SageMaker，Coinbase 将模型训练时间从 20 个小时缩短到 10 分钟。
	Intuit 开发的 ML 模型可以提取一整年的银行交易，以便为客户找到可扣除的营业开支。通过使用 Amazon SageMaker，Intuit 将 ML 部署时间从六个月缩短到一个星期，节省了 90% 的时间。
	借助于 Amazon SageMaker，NuData Security 可以通过分析匿名用户数据检测反常活动，从而在欺诈交易发生前便可将信用卡欺诈犯罪防范于未然。NuData 通过使用 Amazon SageMaker 将 ML 开发时间缩短了 60%，ML 架构简化了 95%，并与一家大型银行合作，在其消费者摩擦容忍度范围以内被动拦截了几乎 100% 的欺诈尝试流量。
	通过使用 Amazon SageMaker，Voodoo 可以实时决定向其玩家展示哪些广告，而每天有超过 3000 万用户会调用其终端节点 1 亿次以上，亦即每天将近 10 亿次预测。借助于 AWS 机器学习，Voodoo 在一支小团队的支持下只用了不到一周时间就将准确的模型运用到生产中，并且随着他们的团队与业务的发展持续地对其进行扩建。
	通过在 Amazon SageMaker 上使用 TensorFlow，Siemens Financial Services 开发了用于提取关键信息的 NLP 模型，以便加速投资尽职调查，将总结尽职调查文件的时间从 12 个小时缩短到 30 秒。
	Celgene 在 Amazon SageMaker 上使用 Apache MXNet 进行毒理学预测，以虚拟方式分析潜在药物的生物学影响，从而避免让病患冒险试药。以前需要花上两个月培训的模型，现在需要四个小时就能完成。
	ADP 使用 AWS ML（包括 Amazon SageMaker）快速识别劳动力模式，并在结果发生前进行预测，例如，员工流动或薪酬增加的影响。ADP 将部署 ML 模型的时间从两个星期缩短到仅仅一天。