优势
30 个并发请求时的延迟
每分钟处理的请求数
概述
为提高地址匹配的速度、成本效益和控制力,印度物流供应商 Delhivery 转向采用生成式人工智能。该公司在 Amazon Web Services(AWS)上实施了一个经过微调的大语言模型(LLM),以支持其运营中的大批量地理编码。该系统现在每分钟处理多达 8000 个请求,延迟仅为 160 毫秒,符合内部实时性能基准。最终,Delhivery 将模型服务成本降低了约 80%,并将原型开发周期从两天加速到六小时以内。
关于 Delhivery
Delhivery 是印度一家技术驱动型物流和供应链服务提供商,为全国各地的企业提供运输、仓储、货运和配送解决方案。
商机 | 使用生成式人工智能实现高精度地理编码
Delhivery 运营着印度最大的物流网络之一,通过其广泛的本地快递网络帮助客户在全国范围内运输货物。其运营的一个关键部分是专有导航技术栈,负责为取件和送达地址提供高精度地理编码,最大限度地减小位置误差,并确保最后一公里配送快速且精准。Delhivery 的高级数据科学家 Shyam Mukherjee 表示:“实现最小误差半径的地理编码是我们业务的核心。我们的目标是精确绘制位置地图,以便将货物毫不延误地送到正确地点。”
为了增强地址匹配,Delhivery 团队最初测试了第三方提供商提供的无服务器 LLM。但是这些服务存在局限性,速率上限仅为每分钟 2000 个请求,或者超出实际使用需求的预置访问费用更高。“我们需要一个能够每分钟处理多达 8000 个请求,同时还能控制成本的解决方案,”Mukherjee 解释道。此外,传统的机器学习模型缺乏上下文理解能力,并且需要较长的训练周期,拖慢了实验速度。这些挑战使得高效扩展变得困难,尤其是在需求激增期间。Delhivery 需要一个更快、更灵活且更具成本效益的解决方案来支持大批量推理并加速其整个物流技术栈的原型开发。
解决方案 | 使用 Amazon EKS 扩展经过微调的 LLM
在遇到基于第三方 API 服务的速率限制和高成本后,Delhivery 开始探索自定义 LLM。为了解决这些局限性,该团队评估了可以提供更大灵活性和更高性能的自托管模型的可行性。在测试了各种 LLM 之后,Delhivery 选择了一个能提供所需性能的开源 Llama 3.2 1B 模型版本。该团队在外部对该模型进行了微调,并开始设计一个针对其大批量地址匹配使用案例量身定制的解决方案。
为了加快生产部署,Delhivery 聘请了 AWS Prototyping and Cloud Engineering(PACE)团队,该团队使用不同的推理优化技术为实验提供了支持。这包括确定合适的实例类型、使用 NVIDIA Triton 推理服务器优化模型服务,以及为 Delhivery 技术栈中已有的 Amazon Elastic Kubernetes Service(Amazon EKS)打包部署方案。Mukherjee 表示:“我们从基本的基准测试开始,最终得到了一个可以插入现有技术栈的完整部署包。这使向生产过渡的速度大大加快。”
为了支持生产部署,该团队使用了 Amazon EKS,并以 G5 Xlarge 实例作为集群节点。选择这些配备 NVIDIA A10G GPU 的实例是为了使用 vLLM 框架实现快速的推理响应时间。通过实施自动扩缩,Amazon EKS 集群可以根据需求无缝地扩展或收缩部署。
成果 | 以 80% 的成本节省加速规模化人工智能创新
在成功过渡到生产环境后,Delhivery 在其运营环境中验证了其经过微调的 LLM 设置的性能。该部署持续满足内部设定的响应能力和规模目标,在并发数量为 30 时实现了 160 毫秒的延迟。该系统支持高达每分钟 8000 个请求,为 Delhivery 的大批量地理编码工作负载提供了所需的速度和吞吐量。此外,通过优化 GPU 利用率并消除第三方 API 预置的开销,Delhivery 将其月度模型服务成本降低了约 80%。“通过最大限度地提高每个节点的吞吐量,我们显著降低了基础设施成本。”Mukherjee 解释道。
与 AWS PACE 团队的合作帮助 Delhivery 将早期原型转变为可扩展的生产级部署,从而释放出其自定义模型架构的全部潜力。除了性能和成本改进,该部署还加速了创新。曾经需要两天的原型开发周期现在可以在六小时内完成。生成式人工智能现在支持 Delhivery 的大部分内部服务,并且该团队正在构建一个能够处理多模态输入(包括文本、图像和视频)的统一模型。Mukherjee 表示:“这次部署为我们在整个运营过程中运行生成式人工智能提供了一种经济高效的方式,并且可以随需求增长而灵活发展,”他认为这项工作是将他的公司转变为人工智能优先的物流组织的基础步骤。
这次部署为我们在整个运营过程中运行生成式人工智能提供了一个经济高效的替代方案,并且可以随需求增长而灵活发展。
Shyam Mukherjee
Delhivery 高级数据科学家开始使用
无论行业无论规模,每天都有各种组织在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量