客户案例/电信/美国

2024 年
Cisco 徽标

与 Cisco 合作使用 Amazon SageMaker 加速 LLM

了解 Cisco 如何使用 Amazon SageMaker 和 NVIDIA Triton 推理服务器提高效率并优化推理成本。

改善了

开发和部署周期时间

简化了

工程设计和交付

减少了

成本

概述

为了跟上科技行业的快节奏发展,软硬件公司 Cisco 使用 Amazon Web Services (AWS) 来推动其创新。当其增长的人工智能 (AI) 和机器学习 (ML) 模型需要更多资源时,Cisco 开始将其模型托管在一个专门构建的托管 AWS 解决方案上,以将其模型与应用程序分开扩展。现在,Cisco 简化了其工程设计,提高了效率。

girl at night with phone

机会 | 使用 Amazon SageMaker 为 Cisco 优化资源

Cisco 成立于 1984 年,是一家全球硬件、软件和服务公司,致力于通过先进的技术和支持帮助企业、商业公司和消费者建立强大的联系。经过多年的发展,Cisco 的规模急剧扩张,其在全球雇用了超过 71,000 名员工。Cisco 实现发展的一种方式是收购其他公司,包括为网络会议和视频会议开发电信应用程序的 Webex。Cisco 的 Webex 团队已涉足自然语言人工智能领域,为多个用例(例如背景噪音消除、聊天机器人和语音识别)构建了一整套人工智能和机器学习功能。为了在 Webex 套件中构建新功能,Cisco 开始使用大型语言模型 (LLM),其中最多可包含数百千兆字节的数据。

Webex 团队运营着多个提供 AI 和 ML 功能的应用程序。其中大多数应用程序托管在 Amazon Elastic Kubernetes Service (Amazon EKS) 上,这是一项托管的 Kubernetes 服务,用于在 AWS 和本地数据中心启动、运行和扩展 Kubernetes。该团队将机器学习模型嵌入容器映像中,以供在 Amazon EKS 上运行的应用程序使用。但是,以这种方式通过应用程序操作机器学习模型需要大量资源。随着开发更大、更复杂的模型,团队开始遇到效率和成本问题。LLM 迟滞了分配资源和启动应用程序的过程。

2022 年,该团队开始寻找替代方法。团队决定开始将嵌入式机器学习模型与应用程序分离,并将模型迁移到 Amazon SageMaker,开发人员借此通过完全托管的基础架构、工具和工作流程,为几乎任何用例构建、训练和部署机器学习模型。这样,应用程序可以与模型分开扩展,从而提高速度并节省资源。

kr_quotemark

AWS 服务可靠且具有成本效益。我们有多种有效利用资源的选择。”

Travis Mehlinger
Cisco 首席工程师

解决方案 | 通过迁移到 Amazon SageMaker 来提高效率并降低成本

在多个环境中测试了 Amazon SageMaker 之后,Cisco 的 Webex 团队随即取得了成功。该团队迅速将其大型模型(横跨 3 个环境和 10 个不同的应用程序,需要至少 1 个模型)迁移到 Amazon SageMaker,同时继续将应用程序托管在 Amazon EKS 上。Cisco 在 Amazon SageMaker 端点上部署了数十种模型。该公司还使用了 NVIDIA 的 Triton 推理服务器,该服务器支持模型并发且可跨 AWS 数据中心在全球范围内进行扩展。

此次迁移使 Cisco 工程师更容易交付应用程序,在相对精益的应用程序与需要更多资源的底层 AI 和 ML 模型之间实现了完全的分离。Cisco 首席工程师 Travis Mehlinger 说道:“应用程序和模型的工作和扩展方式根本不同,成本考虑因素也完全不一样。”“我们将其分开而不是混为一谈,这样独立解决问题就容易得多了。”

通过将其模型迁移到 Amazon SageMaker,该团队还大幅缩短了开发和部署周期。借助于可使用 Amazon SageMaker 端点获得的模型,开发人员无需将模型保存在工作站内存中即可变更应用程序。这样,应用程序启动时间缩短了,实验速度也加快了。现在,团队拥有足够的资源,可以在开发、集成和生产环境中修复错误、执行测试以及向应用程序添加功能,而且所用时间也比以前少得多。Mehlinger 说道:“通过 AWS,我们有更多时间来规划应用程序的改进。”

Cisco 还通过迁移到 Amazon SageMaker 节约了成本。例如,为保证可靠性和速度,Cisco 的应用程序即使在非高峰时段也需要运行,但模型不必一直可用。使用 Amazon SageMaker 端点,Cisco 可以使用异步推理来降低成本。团队可以将端点配置为在推理请求出现时进行扩展以满足需求,然后在工作完成后缩减到零,所有这些都不会影响应用程序。通过在不需要时将资源下线,Cisco 可以在不牺牲速度或可用性的情况下节省资金。

此外,由于 Amazon SageMaker 是一项托管服务,因此 Cisco 团队不必在基础设施、托管或扩展方面进行投资。Mehlinger 说道:“在 AWS 上,我们可以专注于集成工作。”“我们可以把重点放在擅长的工作上,而不是专家已经解决的问题。”

2023 年 11 月,Cisco 采用了 Amazon SageMaker 推理功能,这使得在单个端点后面部署多个模型成为可能。采用这种功能进一步提高了 Cisco 大规模计算资源进行近实时推理的效率,从而加快了扩展速度,缩短了响应时间,节省了额外的成本。

成果 | 为 Cisco 构建新的 AI 和 ML 功能

Cisco 通过迁移到 Amazon SageMaker 带来了一系列好处,但它并没有放慢前进的步伐。在继续迁移的过程中,Cisco 的 Webex 团队积极开发利用人工智能、机器学习和大型语言模型的多项功能。运行这些庞大的模型需要更复杂的解决方案。因此,作为其战略的下一部分,该团队正在研究 Amazon Bedrock,这是一项完全托管的服务,可以为构建生成式人工智能应用程序提供可选的高性能基础模型。团队还在评估多模型端点,以进一步提高性价比。

Mehlinger 说道:“AWS 服务可靠且具有成本效益。”“我们有多种有效利用资源的选择。此外,我们获得了大量的支持,这使我们能够轻松了解和解决问题,然后修复问题并继续处理下一个问题。”

关于 Cisco

Cisco 成立于 1984 年,是一家专门开发网络技术的硬件和软件公司。它为企业、公司和消费者提供一系列技术以及技术支持和其他高级服务。

使用的 AWS 服务

Amazon SageMaker

Amazon SageMaker 是一项完全托管的服务,它汇集了大量工具,可为任何使用案例提供高性能、低成本的机器学习(ML)。

了解更多 »

Amazon Bedrock

Amazon Bedrock 是一项完全托管的服务,通过单个 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等领先人工智能公司的高性能基础模型(FM),以及通过安全、隐私、负责任的人工智能构建生成式人工智能应用程序所需的一系列广泛功能。

了解更多 »

Amazon EKS

Amazon Elastic Kubernetes Service(Amazon EKS)是一项托管 Kubernetes 服务,用于在 AWS Cloud 和本地数据中心上运行 Kubernetes。

了解更多 »

更多电信行业客户案例

未找到任何项目 

1

行动起来

无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。