

Amazon 的 Just Walk Out 技术自 2018 年推出以来,彻底颠覆了购物体验。顾客进入商店,选取商品后直接离开,省去了排队结账的繁琐过程。目前,这项无人收银技术已在全球超过 180 个第三方场所成功落地,涵盖旅行零售商、体育场馆、娱乐场所、会议中心、主题公园、便利店、医院和大学校园。Just Walk Out 技术采用了端到端系统,能够精确追踪并记录每位顾客所选商品,自动生成电子结算单,免去繁琐的排队收银。
本文将展示由多模态基础模型 (FM) 驱动的新一代 Amazon Just Walk Out 技术应用。这一专为实体店环境设计的多模态基础模型采用了 Transformer 架构,这与当前许多生成式 AI 应用程序所使用的技术相似。该模型能够根据来自多种数据源的数据,包括安装在天花板上的摄像机网络、货架上的专用重量传感器、店铺的数字平面图和产品目录图像,帮助零售店生成精确的购物结算单。简而言之,多模态模型能够利用多种类型的输入数据生成购物结算单。
我们在最先进的多模态基础模型研发上进行了大量投入,使得 Just Walk Out 系统能够以更高的准确率应对各种复杂的购物场景,同时降低了部署和运营成本。类似于用于生成文本的大语言模型 (LLM),新一代 Just Walk Out 系统用于实时生成每位顾客的精确购物结算单。
挑战:处理复杂的长尾购物场景
Just Walk Out 商店的无人收银创新理念,虽然为顾客带来了便利,但同时也为技术团队提出了一项独特的挑战。零售商、消费者和 Amazon 对系统具有极高要求——即便在最复杂的购物场景中,也必须保持近 100% 的结账准确率。这些复杂场景常常涉及非常规的购物行为,可能产生一系列长且复杂的活动链,而准确解读这些购物行为需要系统进行深度分析。
早期的 Just Walk Out 系统采用了模块化的架构设计。这种方法将复杂的购物过程拆解为一系列独立的子任务,包括顾客行为检测、商品追踪、产品识别以及数量统计。这些独立的功能模块随后被整合到一个串行管道,形成一个完整的系统功能链。这种模块化方法虽然能够生成高度精确的购物结算单,但在面对非预设的新场景或极其复杂的购物行为时,往往需要投入大量的工程资源来进行调整和优化。这种局限性严重制约了系统的可扩展性。
解决方案:Just Walk Out 多模态 AI
为应对这些挑战,我们推出了一个新的多模态基础模型,专门为零售店环境设计。该多模态基础模型使得 Just Walk Out 技术能够处理现实世界中各种复杂的购物场景。这款新的多模态基础模型具备出色的泛化能力,能够高效适应新的店铺布局、产品种类和顾客行为,进一步增强 Just Walk Out 系统的能力。这对于 Just Walk Out 技术的大规模推广和应用至关重要。
引入了一种持续学习机制,使模型能够自主训练适应新场景,并从新出现的复杂场景中不断学习。这种自我改进能力有助于确保系统在变化无常的购物环境中始终保持高效运行。
通过融合端到端学习和增强的泛化能力,Just Walk Out 系统现在能够应对各种复杂多变的零售场景。零售商现在可以完全信任地采用这项技术,因为这能为顾客带来流畅的免结账购物体验。
以下视频将为您展示我们的系统架构是如何在实际环境中运作的。
Just Walk Out 多模态 AI 模型的关键要素包括:
- 全方位数据采集:追踪顾客与商品及店内设施(如货架、冰箱)的每一次互动。系统主要依赖多角度的视频数据输入,辅以重量传感器来追踪体积较小的商品。模型能够跟踪店铺的数字 3D 表征,并能访问完整的商品目录图库。这样,即便顾客将商品随意放回货架,系统也能准确识别和定位每一件商品。
- 顾客的购物轨迹映射为多模态 AI token:系统采用编码器将多模态数据输入转化为经过压缩的 Transformer token,生成结算模块的基本输入单元。这种设计使模型能够解读顾客的手部动作,区分不同商品,并以极高的速度和准确度计算顾客拿取或归还的商品数量。
- 动态更新结算单:系统根据 token 实时生成每位顾客的电子结算单。该模型能够区分不同的消费者会话,并根据顾客的每一次拿取或归还动作即时更新相应的电子结算单。
训练 Just Walk Out 基础模型
通过向 Just Walk Out 基础模型输入海量的多模态数据进行训练,我们发现模型能够持续生成——或者从技术角度来说“预测”——准确的顾客购物结算单。为提高准确率,我们设计了 10 多个辅助任务,包括对象检测、动态跟踪、图像分割、模型接地(将抽象概念与实物关联)以及行为识别等。这些辅助任务全部在同一个模型中进行学习,增强了模型应对全新店铺布局、新商品类型和意料之外的顾客行为的能力。这对于在各种新环境中部署 Just Walk Out 技术至关重要。
AI 模型训练是一个重要的过程,需要精心挑选训练数据集和算法。这个过程使系统能够不断自我优化,最终形成能产生高度准确结果的能力。我们很快发现,通过使用数据飞轮不断挖掘和标记高质量数据实现模型的自我强化循环,可以加速模型的训练。该系统的设计目的是以最少的人工干预来集成这些渐进式改进。以下的示意图中展示了这个过程。

为了高效训练这种基础模型,我们投资建设了一套强大的计算基础设施。这套系统能够处理海量数据,为模拟人类决策的高容量神经网络训练提供强大的支持。我们利用多个 Amazon Web Services (AWS) 服务构建了 Just Walk Out 模型的基础设施,包括用于数据存储的 Amazon Simple Storage Service (Amazon S3) 和用于训练的 Amazon SageMaker。
以下是我们训练基础模型的一些关键步骤:
- 精选高难度训练数据 – 在训练 Just Walk Out 技术的 AI 模型时,我们特意选取了极具挑战性的购物场景数据,用于测试模型能力的极限。这些复杂场景虽然在日常购物中较为少见,但它们对模型的进步至关重要,通过极限测试来帮助模型从错误中学习。
- 利用自动标注:为了提升数据处理效率,我们开发了一套自动标注系统。这个系统包含了专门的算法和模型,能够为海量数据自动添加有意义的标签。我们的自动标注算法不仅用于“预测”购物结算单,还能处理各种辅助任务的数据标注。这种标注策略确保了模型能够建立起强大的多模态理解和推理能力。
- 预训练模型:我们的基础模型经过了海量多模态数据的预训练,涵盖各种复杂任务,使模型具备了出色的泛化能力,能够快速适应全新的店铺布局。
- 微调模型:最后,在预训练的基础上,继续进行有针对性的模型微调,并运用先进的量化技术,将模型压缩成更小、更高效的版本。这使得模型能够在边缘计算设备上运行。
随着数据飞轮不断运转,系统持续从实际运行中识别出更多高质量、高难度场景,进一步测试模型。这些新发现的高难度场景数据随后会被纳入到模型训练数据集中,进一步提高模型在新的实体店环境中的准确率和适用性。
总结
本文详细介绍了多模态 AI 系统在 Just Walk Out 技术中的革命性应用,进而开辟了广阔前景。这一创新摆脱了传统依赖人工定义子组件和接口的模块化设计,转向操作更简单、更具扩展性的端到端训练的 AI 系统。尽管我们在多模态 AI 领域的探索才刚刚起步,但它已经显著提升了我们原有收银系统的准确率,使 Just Walk Out 技术能够在全球范围内更广泛地应用,改善顾客在实体店的购物体验。
如需了解更多细节,请访问 About Amazon 页面查看关于新的多模态 AI 系统的官方公告,以及 Just Walk Out 技术的最新进展。
若想亲身体验 Just Walk Out 技术,可访问 Just Walk Out 技术应用地图,找到离你最近的体验店。如果您有兴趣将 Just Walk Out 技术应用到自己的商店或场地,请访问我们的 Just Walk Out 技术产品页面。
如需了解如何利用 AWS 强大的 AI 和机器学习服务来推动您的业务创新,请参阅在 AWS 上构建和扩展下一波人工智能创新应用程序。
免责声明:前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。
更多教程
快速搭建容量高达 35GB 的免费个人网盘
本教程将介绍如何搭建一个没有使用限制的免费私人网盘。
构建企业专属智能客服机器人
本文将演示如何结合多种服务,打造企业专属的智能客服。
使用生成式 AI 构建多语言问答知识库
使用多种服务,构建可汇总搜索结果的多语言知识库。
免费套餐
AWS 海外区域
拓展海外业务或个人体验
免费使用 100 余种云产品或服务, 长达 12 个月
AWS 中国区域
发展中国业务
免费使用 40 余种核心云服务产品,长达 12 个月