AWS 机器学习基础设施

从财富 500 强公司到初创企业，各行各业的组织越来越多地在各种应用场景中采用机器学习（ML），包括自然语言处理（NLP）、计算机视觉、语音助手、欺诈检测和推荐引擎。此外，具有数千亿个参数的大型语言模型（LLM）正在开启新的生成式人工智能应用场景，例如图像和文本生成。随着机器学习应用程序的增长，计算、存储和联网资源的使用、管理和成本也随之增加。在机器学习模型的训练和部署到生产环境期间，识别和选择正确的计算基础设施对于减少高功耗、降低过高的成本以及避免复杂性至关重要。为了帮助您加速机器学习创新，AWS 提供了高性能、经济高效且节能的专用机器学习工具和加速器的理想组合，并针对机器学习应用程序进行了优化。

优势

易于使用

访问专用机器学习加速器（例如，AWS Trainium 和 AWS Inferentia），训练和部署根基模型（FM），并使用 Amazon SageMaker 和 Amazon Bedrock 等 AWS 托管服务将其集成到您的应用程序中。SageMaker 为数据科学家和机器学习开发人员提供预先训练的根基模型，这些模型可以针对您的特定应用场景和数据进行完全定制，并部署到生产中。Bedrock 为客户提供无服务器体验，让他们通过 API 使用 FM 构建生成式人工智能应用程序。

了解更多 »

高性能

您可以使用 AWS 提供的性能最高的机器学习基础设施来支持您的机器学习应用程序。Amazon EC2 P4d 和 Amazon EC2 Trn1 实例是高性能机器学习训练的理想选择。在推理方面，相比上一代基于 Inferentia 的实例，由第二代 Inferentia2 提供支持的 Amazon EC2 Inf2 实例吞吐量高达 4 倍，延迟最多可降低 10 倍。

了解更多 »

经济高效

通过广泛的基础设施服务选择，您可以根据自己的预算选择合适的基础设施。基于 AWS Trainium 的 Amazon EC2 Trn1 实例可节省 50% 的训练成本，而基于 AWS Inferentia2 的 Amazon EC2 Inf2 实例的性价比比同类的 Amazon EC2 实例高出 40%。您可以将这些节省的成本进行再投资，以加速创新并发展您的业务。

了解更多 »

可持续

AWS 致力于到 2040 年实现 Amazon 的净零碳目标。Amazon SageMaker 是一项完全托管的机器学习服务，在生产环境中训练和部署机器学习模型时，提供针对能效和降低功耗进行了优化的机器学习加速器。由机器学习加速器（例如，AWS Trainium 和 AWS Inferentia2）提供支持的 Amazon EC2 实例的性能功耗比其他同类 Amazon EC2 实例高出 50%。

了解更多 »

可扩展

AWS 客户可以访问几乎无限的计算、网络和存储，因此他们可以进行扩展。您可以根据需要从一个 GPU 或机器学习加速器扩展到数千个，也可以根据需要从 TB 级纵向扩展到 PB 级存储。使用云，您无需投资所有可能的基础设施。相反，您可以利用弹性计算、存储和联网。

了解更多 »

支持流行的机器学习框架

AWS 计算实例支持 TensorFlow 和 PyTorch 等主要的机器学习框架。它们还支持模型库和工具包，例如用于广泛的机器学习应用场景的 Hugging Face。AWS Deep Learning AMI（AWS DLAMI）和 AWS Deep Learning Containers（AWS DLC）预装了针对机器学习框架和工具包的优化，以加速云中的深度学习。

了解更多 »

成功案例

Pepperstone
Pepperstone 使用 AWS 机器学习基础设施，每月为超过 4 万名独特访客提供无缝的全球交易体验。他们使用 Amazon SageMaker 来自动创建和部署机器学习模型。通过改用 SageMaker，他们得以减少 DevOps 和数据科学团队之间的摩擦，并将机器学习模型的训练时间从 180 小时缩短到 4.3 小时。

阅读案例研究 »
Finch Computing
Finch Computing 在 AWS 上使用 AWS Inferentia 和 PyTorch 来构建机器学习模型，执行语言翻译和实体消歧等自然语言处理任务，因此，与 GPU 相比，他们的推理成本降低了 80% 以上。

阅读案例研究 »
Amazon Robotics
Amazon Robotics 使用 Amazon SageMaker 开发出一种高效的机器学习模型，取代了亚马逊运营中心的手动扫描。Amazon Robotics 使用 Amazon SageMaker 和 AWS Inferentia 将推理成本降低近 50%

阅读案例研究 »
Money Forward
Money Forward 在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务，相比于基于 GPU 的同类实例，推理延迟降低 97%，同时还降低了成本。在成功迁移到 Inf1 实例的基础上，他们还在评估基于 AWS Trainium 的 EC2 Trn1 实例，以提高端到端机器学习性能，并降低成本。

了解更多 »
Rad AI
Rad AI 使用 AI 来自动化放射学工作流程，并帮助简化放射学报告。借助新的 Amazon EC2 P4d 实例，Rad AI 可以实现更快的推理，并且能够以 2.4 倍的速度和更高的准确度训练模型。

阅读案例研究 »
Amazon Alexa
“Amazon Alexa 的 AI 和基于机器学习的智能技术由 Amazon Web Services 提供支持，目前已在 1 亿多台设备上可用。我们向客户承诺，Alexa 将始终致力于变得更智能、更对话化、更主动、更令人满意。实现这一承诺需要持续改进响应时间和机器学习基础设施成本，因此我们很高兴使用 Amazon EC2 Inf1 实例来降低 Alexa 文字转语音的推理延迟和每次推理成本。借助 Amazon EC2 Inf1 实例，我们将能够为每月使用 Alexa 的数千万客户提供更好的服务。”

Tom Taylor，Amazon Alexa Senior Vice President
Autodesk
“Autodesk 正在通过使用 Inferentia 来推进我们的人工智能虚拟助手——Autodesk 虚拟代理（AVA）的认知技术。AVA 通过应用自然语言理解（NLU）和深度学习技术来提取查询背后的上下文、意图和意义，每月解答超过 10 万个客户问题。试用 Inferentia 后，对于 NLU 模型，我们能够获得比 G4dn 高 4.9 倍的吞吐量，并期望在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。”

Binghui Ouyang，Autodesk Sr Data Scientist
Sprinklr
“Sprinklr 提供了一个统一的客户体验管理（Unified-CXM）平台，并结合了多个面向营销、广告、研究、客户服务、销售和社交媒体参与的应用程序。目标自始至终一直是降低延迟，这意味着能提供更好的客户体验。使用 Amazon EC2 Inf1 实例，我们将能够实现这一目标。”

Jamal Mazhar，Sprinkl Vice President of Infrastructure and DevOps

阅读案例研究 »