亚马逊AWS官方博客

《针对智能摄像头与智能家居厂商的视频分析》之典型应用场景和核心特性

背景

随着人工智能技术的快速发展,视频分析在智能摄像头和智能家居等领域得到了广泛应用。在过去,视频分析通常依赖于传统的计算机视觉算法和机器学习模型,这些方法需要依赖训练数据集或者手工设计特征提取器和分类器。这种方法存在一些固有的缺陷和局限性:

  1. 依赖训练数据集。对于传统机器学习模型,需要一定量的数据去学习特定的分类或目标位置信息,构建足量的训练数据集是一个耗时的过程,且在一些场景中,数据也难以收集。
  2. 特征工程繁琐且高度依赖领域知识。传统模型需要人工设计和提取视频中的特征,如颜色、纹理、形状等,这是一个复杂且耗时的过程,需要大量的领域专业知识。
  3. 泛化能力有限。传统模型往往只能处理特定类型的视频数据,一旦遇到新的场景或数据分布,模型的性能就会显著下降。
  4. 无法充分利用多模态信息。视频不仅包含视觉信息,还包含音频和文本信息。传统模型难以同时处理和融合这些不同模态的信息。
  5. 缺乏上下文理解能力。传统模型无法很好地捕捉视频中的上下文信息,如物体之间的关系、动作的语义等,这些对于准确理解视频内容至关重要。

相比之下,像 Claude 3 这样的大型多模态模型具有显著的优势:

  1. 无需手工特征工程。这些模型能够自动从原始数据中学习特征表示,无需人工设计特征提取器。
  2. 强大的泛化能力。通过在大规模多样化数据上进行预训练,这些模型能够学习到通用的表示,从而在新的场景和数据分布上表现出色。
  3. 多模态融合。Claude 3 等模型能够同时处理视觉、语音和文本信息,并将它们融合到统一的表示中,从而提高了对视频内容的理解能力。
  4. 上下文建模能力。这些模型具有强大的上下文建模能力,能够捕捉视频中物体之间的关系、动作的语义等丰富的上下文信息。

总的来说,基于大模型可以在特定的业务场景进行快速试错和验证。与传统模型相比,大型多模态模型无需经历繁琐的数据收集、标注和训练测试环节,即可通过 prompt engineering 快速验证某个业务场景的可行性,大大降低了开发和试错的成本。

适用用户场景

1、To C 视频安防与看护类监控场景

消费级别的家用摄像头大量用于安防用途,其中包括了:家用摄像头、庭院摄像头、智能猫眼、智能可视门铃等。这些摄像头广泛用于监控人、物、车等安防类事件,例如:监控家门口出现的人员是否可疑,是否有入侵行为;家门口的包裹、外卖等是否被偷窃;停在庭院里/外的自家车辆出入事件统计,以及分析家门停留的陌生车辆。

在看护类场景中,消费级摄像头用于对婴儿、老人、宠物、野生动物等目标活动的分析与总结。例如:针对婴儿的看护摄像头用于监控婴儿睡眠时是否有遮面,是否翻身;老人在家中是否有跌倒;宠物每日的进食、进水等活动分析与总结;庭院中的观鸟以及鸟类活动 Vlog(Video Log)生成。

近些年已经出现了使用人工智能技术应用于消费级摄像头,例如使用深度学习模型去检测场景中是否出现火焰、是否出现鸟类等,但是目前大多数方法都是基于监督学习算法,要完成对视频的分析与理解存在着一些难点:

  • 监督学习需要使用到大量的训练数据集。这些数据集要包括检测对象的各种分布。但是收集这些数据不仅需要较长的周期,而且收集这些数据在消费级场景中还面临着合规风险。
  • 无法直接输出视频分析。目前深度学习模型中,分类模型的输出是标签,目标检测\分割模型的输出是目标的标签以及坐标信息。若要进行视频的理解分析,要依赖人工进行规则制定。

在实际的用户场景中,采用大语言模型+机器学习模型的综合方法,既可以降低视频分析的难度,又可以有效平衡视频分析的效果与成本。利用部署在云侧/边缘侧的计算机视觉算法(例如:帧差法)以及机器学习算法(例如:分类、目标检测)进行原始视频的筛选,将有效的事件视频片段进行截取后,进行抽帧,用于大语言模型进行分析推理,可以有效降低大语言模型的推理次数,降低场景中的视频分析成本。

用户收益:

  • 视频事件分析

最终用户可以按需通过大语言模型分析视频中的事件,判断事件的发生以及获取事件的描述。

  • 警报以及消息推送

最终用户可以自定义触发警报的条件,可以自定义消息或者警报推送的目的地,例如:手机短信、APP 消息推送、邮件或者边缘端报警消息。

  • 视频总结与 Vlog 生成

最终用户可以利用大语言模型对周期发生的事件进行总结,或生成 Vlog,无需花时间检查原视频即可获取到关键事件信息。

  • 基于视频内容的问答

最终用户可以利用大语言模型,对视频的内容进行自定义问答,例如:询问家中的宠物活动情况,是否有进食进水

  • 降低研发成本,缩短新功能上线周期

对于摄像头厂商,利用大语言模型进行视频分析,无需收集大量的场景训练数据集,无需制定大量的规则判定事件,可以有效降低研发成本,缩短新功能上线的周期。

2、To C 智能家居场景

智能家居场景中,包含着大量的智能设备,这些智能设备给消费者带来便捷的生活体验,但是在使用上存在着一定的门槛。在电商网站上,智能家居产品收到投诉有两个主要的来源:

  • 复杂的设备配置步骤

智能设备产品会利用多种协议加入家庭网络,设备配置对一些最终用户来说较为繁杂,容易出错,当使用设备说明书时,无法直观、快速的定位问题与解决问题。最终导致设备无法入网使用,产生用户投诉。利用大语言模型的多模态能力,可以利用视频说明与图文说明构建产品的说明知识库,快速定位用户问题,解决配置错误。

  • 无法进行故障排查

当智能家居设备发生故障,且最终用户无从下手时,以往的做法是通过消费者与售后人员进行交流,甚至对于部分设备来说,派出售后人员前往最终用户现场进行排障,这些方法都要消耗大量的人力资源。利用大语言模型的多模态能力,最终用户可以拍摄设备故障视频,利用视频分析(例如:分析设备的指示灯等视觉特征),进行故障排查与问答。

用户收益:

  • 产品智能配置交互

最终用户与产品配置知识库直接进行问答交互,快速、直观地解决最终用户在智能产品配置、入网时的问题。

  • 故障自动排查

最终用户可以利用拍摄的设备故障视频,利用大语言模型进行设备故障分析与排查,有效提升用户自排障能力,降低售后压力与用户投诉。

3、To B 视频安全监控场景:

每家公司都会部署大量的摄像头进行特定区域或者场景的监控,以保证生产和工作的安全,这也是保障高质量 EHS 中很重要的一个手段。传统的方式通过人工或者 AI 对特定的目标进行识别,并结合姿态(如摔倒),多目标(如人+安全背心)去判断场景是否符合要求。这种方式随着 AI 的普及已经得到了较为广泛的使用,但是依然有一些缺点:

  • 需要反复调优:需要进行特定场景的模型预训练,每个工序、场景、工况的变化,模型就面临着调优。
  • 模型通用度低:生产场所,尤其工厂等生产场所中,专用设备多,通用的模型适用度低,训练的模型为了达到更优的准确率,会牺牲通用性
  • 人员能力要求高:传统模型训练,即使最简单的打标签工作,想实现较高的质量,普通的产线员工都很难胜任。更别谈模型的训练,部署,运维等工作都需要高水平 IT 的深度参与,这在传统的工厂中是不现实的。

采用大模型进行视频的判断,或者大模型+传统小模型(如 Yolo)结合的方式,可以利用小模型速度快,成本低,通用性高的特点,结合多模态大模型 Claude 3,进行场景的抽帧和识别,同时,更可以一次上传多帧截图至 Claude 3 以判断特定目标的行为。结合 LLM Agent,可以轻松自定义监控场景,触发对应的操作,与现实世界进行交互。增强一套方案通用性的基础上,保留了足够的精度,同时降低了使用门槛。

用户收益:

  • 实时报警和快速响应

大语言模型可以按需实时分析视频内容,识别出异常或危险的行为,并快速生成警报。这样,平台管理员或监控系统操作员可以及时收到警报,并快速采取行动,如通知相关人员、调度安保人员或紧急处理事件,以保障平台或区域的安全。

  • 视频内容分析和快速定位

通过利用大语言模型,平台能够自动分析视频内容,识别出违规事件,如暴力行为、危险操作等。并能够帮助安全人员快速定位内容,生成摘要等。

4、To B 工业设计中资产标签生成场景:

在工业设计领域,设计师、制造商或产品管理人员通常需要对大量的设计资产进行管理和分类,如产品模型、图纸、材料等。为了提高资产管理的效率和准确性,他们需要为这些资产生成准确的标签,以便快速搜索、识别和分类。传统的方式采用目标识别或手工打标的模式,错误率高,标签种类有限(如无法生成场景、氛围、行为类标签)。采用多模态大模型 Claude 3,可以一揽子进行视频,图片,文字,PPT 等多种媒体格式的统一管理,按客户需要自动进行风格化标签生成,简化了资产复用,降低搜索难度,提升搜索准确率。

用户收益:

  • 自动化标签生成

通过利用大语言模型,设计师或管理人员可以将设计资产输入到模型中,自动生成相应的标签。例如,模型可以识别出产品的类型、颜色、材质、功能、氛围等关键信息,并为其生成准确的标签。这样,用户可以节省时间和精力,而且标签生成也更准确和一致,提高了资产管理的效率。

  • 快速搜索和分类

准确的资产标签可以帮助设计师或管理人员快速搜索和分类设计资产。他们可以使用标签进行关键字搜索,快速找到特定类型的设计资产。此外,标签还可以用于将资产分类,建立起有效的资产管理系统,提高团队协作和设计生产效率。

方案介绍

  1. 用户在网站上获取数据、编辑提示、执行分析和设置后处理操作,该网站托管在 Amazon Amplify 上。
  2. 整体架构采用前后端分离的设计,前端网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。
  3. API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 AWS IoT Greengrass 管理边缘端的机器学习模型。
  4. API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和模型库,可处理请求并将语言模型的结果返回给 API Gateway。
  5. 如果用户通过输入自然语言设置了事后处理操作,LLM 代理将通过多个 Amazon Lambda 函数执行该操作,如向移动客户端发送短信或向边缘设备发送通知。
  6. 用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上微调提示。
  7. 用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。

核心功能

 1、数据源接入模块及其 demo 效果

设计功能中数据的来源会包括固定视频文件的分析和特定视频源的分析。固定视频文件是来自于 S3 bucket 中。可以通过网页交互界面上传视频文件,然后保存到 S3,触发后续分析流程。

除了固定的视频源之外,数据的来源也可以从亚马逊的云服务 Kinesis Video Streams 中获取。Kinesis Video Streams 不仅可以存储视频数据,还可以用它来实时监视视频流。

通过在需求场景部署摄像头,并在摄像头上运行 KVS Producer 连接到亚马逊的 Kinesis Video Streams 云服务,实现获取稳定视频流并存储的功能,同时可将其作为视频源输入到后端进行 Claude 3 分析。下面是一张 KVS 视频流的一张截图,作为视频源输入后,得到的 Claude 3 的一些分析文本如下所示:

这张图片显示了一个办公空间的内部。主要包括以下几个元素:

1)天花板上悬挂着多个白色的筒灯,为空间提供照明。
2)墙壁上装饰有几何图案的装饰板,营造出现代化的办公环境。
3)右侧有一排灰色的文件柜,用于存放文件和资料。
4)前方有一个黄色的长方形桌子,上面摆放着一些绿色的植物。
5)桌子旁边有一张黑色的椅子。
6)墙上有一个标识牌,指示“Conference 300,302 Open Office 260”的方向。

总的来说,这是一个整洁有序、布置简约的现代化办公空间,营造出一种专业、高效的工作氛围。

2、边缘端事件筛选与 Greengrass ML 模型管理

AWS IoT Greengrass 是一款开源物联网(IoT)边缘运行时和云服务,可在设备上构建、部署和管理物联网应用程序。可以使用 AWS IoT Greengrass 来构建或部署软件,使设备能够根据其生成的数据进行本地操作、基于机器学习模型运行预测以及筛选和聚合设备数据。

Greengrass 提供了以下机器学习组件,可以将这些组件部署到支持的设备上,以便使用在 Amazon 中训练的模型 SageMaker 或存储在 Amazon S3 中自定义的预训练模型来执行机器学习推理。

AWS 提供以下类别的机器学习组件。

模型组件-包含作为 Greengrass 工件的机器学习模型,部分组件简要介绍如下:

  • DLR image classification model store:DLR 图像分类模型存储库是一个机器学习模型组件,其中包含预训练的 ResNet -50 个模型作为 Greengrass 工件。DLR 图像分类推理组件使用此组件作为模型源的依赖项。
  • DLR object detection model store:DLR 对象检测模型存储库是一个机器学习模型组件,其中包含作为 Greengrass 工件的预训练的 YOLOv3 模型。DLR 对象检测推理组件使用此组件作为模型源的依赖项。

运行时组件-包含用于在 Greengrass 核心设备上安装机器学习框架及其依赖关系的脚本,部分组件简要介绍如下:

  • Deep Learning Runtime(DLR):DLR 运行时组件包含一个脚本,用于在设备上的虚拟环境中安装深度学习运行时(DLR)及其依赖关系。DLR 图像分类和 DLR 物体检测组件使用此组件作为安装的依赖项。

推理组件-包含推理代码并包括组件依赖项,用于安装机器学习框架和下载预训练的机器学习模型,部分组件简要介绍如下:

  • DLR object detection:包含示例推理代码,用于使用深度学习运行时和样本预训练模型执行对象检测推理。
  • DLR image classification:包含示例推理代码,用于使用深度学习运行时和 resnet-50 模型执行图像分类推理。

可以使用 AWS 提供的机器学习组件中的示例推理代码和预训练模型,使用 DLR 和 Lite 执行图像分类和目标检测。

在设备上搭建好 Greengrass 后,就可以通过亚马逊的 IoT Greengrass 服务进行组件的筛选和部署;对于设备保有量较多的场合,Greengrass 的优势更加突出,通过使用亚马逊云服务平台创建 device group,将设备进行分类和组合,快速完成筛选动作,进而对不同组别的设备进行特定的组件部署,即可快速完成所有设备的部署工作。

3、视频分析及其场景 demo 效果

来自于摄像头的拍摄视频会按照时间维度,如实记录发生的所有信息,好的一面是事无巨细皆包罗其中,麻烦的一面是有效信息会混杂在诸多重复的无效信息中,造成使用时的一筹莫展。同时哪怕是那些有效信息,真正要使用起来也免不了额外的提炼、归纳以及创造工作。警匪片中警察对着监控镜头几个小时,大海捞针最终定位嫌疑犯的镜头大家想必都不陌生。而在今天,事情会变得简单很多。

宠物在今天进入了越来越多的家庭中,不少宠物也享受着全天候的“在线关注服务”。如果想知道在你上班的时间段里,小猫小狗度过了怎样的一天,可以用到内容提炼的功能,将小家伙的高光时刻一览无余。

如果想看的更细一点,可以按照时间段进行分隔,从而理清小家伙一天的来龙去脉。比如图里的小猫是如何同狐狸邂逅的。

(宠物场景视频来源:https://www.youtube.com/watch?v=K9Mk2Aqk9Mw

而有时候我们不单单需要在事后回顾,也希望在特定事情发生时可以迅速知晓并且采取措施。这些场景往往涉及到人身安全。比如看护婴儿的摄像头,在婴儿一步步走进床沿时就要识别出危险;或者是家门的猫眼,对于门外出现鬼鬼祟祟的逗留人员,需要及时提醒户主。下图显示了从猫眼摄像头获得门外人员的身型体貌特征,有着这些特征后便可方便地进行后续动作的处理。

(门铃场景视频来源:https://www.youtube.com/watch?v=FPzQipCKTD0

4、消息推送与 LLM Agent 及其 demo 效果

在利用大语言模型对视频内容进行分析之后,大多数时候需要针对视频分析的结果进行判定,当满足场景中用户设定的条件之后,需要进一步进行各种类型的消息推送。例如:最终用户可能会说:“当发现我的院子里有狐狸时,请向我的手机发送一条短信”,或者“当有嫌疑人闯入我的房屋时,请马上发消息给家中报警器”。

此时,面临着以下挑战:

  1. 视频分析的结果需要实时或定时进行警报触发判定。
  2. 条件达成则需要进行警报推送 触发警报的条件应最终用户来说各不相同,实际场景难以满足用户个性化需求。
  3. 触发警报后消息后处理的业务流有多种形式,需要大量的研发资源投入到工作流开发中。

针对以上多样的个性化场景以及丰富的消息推送工作流,可以采用基于大语言模型的 Agent 进行处理。利用大语言模型的 Agent,使其自动化编排工作流,在不投入大量开发资源的情况下,满足最终用户各种各样的个性化需求。

通常,大语言模型 Agent 需要与其他软件、数据库或 API 交互才能完成复杂任务。例如:一个用于安排会议的管理聊天机器人 Agent 需要访问员工的日历和电子邮件,通过访问工具,LLM Agent 可以变得更加强大。

大型语言模型(LLM)Agent是扩展了独立 LLM 功能的程序,具有:

  1. 访问外部工具(API、函数、Webhook、插件等)的能力。
  2. 自主规划和执行任务的能力。

采用基于 Amazon Bedrock Claude 3 模型,构建基于 LangChain 的大语言模型 XML Agent,可以快速完成上述功能。

LangChain 是一个基于大型语言模型(LLMs)开发应用程序的框架,为 AI 开发者提供了连接语言模型和各种外部数据源的工具。

基于 LangChain XML Agent,使 Claude3 模型发挥出强大的能力。

以下展示了对第 3 节中,宠物视频分析结果的后处理消息推送,当最终用户用自然语言输入“If any fox is detected in the video, send me an email”后,大语言模型自行进行判断与 Email 工具使用,向目标邮箱发送了主题为“Fox Detected in Video”的邮件,邮件内容完全由大语言模型自动生成。

5、视频内容 VQA 及其 demo 效果

在将视频数据进行分析和存储之后,我们就可以利用回溯查询的功能,针对用户感兴趣的特定事件进行检索、查询、问答和总结。举个例子,如果我们对家中的宠物进行了持续的视频监控,那么当用户想要了解某个特定时间段内宠物的活动情况时,就可以通过回溯查询的方式,快速找到相关的视频片段,并对其中一些有趣的细节进行回放、查看和总结。

通过这种先进的视频分析和智能检索技术,用户无需再耗费大量时间和精力去逐一浏览冗长的监控视频,而是可以准确高效地锁定关注点,从海量视频数据中提取出真正有价值的信息。这不仅节省了时间,也让用户能够充分利用视频数据的价值,满足各种查询和分析需求。

除了家庭监控场景之外,这一技术在安防监控、交通监测、工业质检等众多领域也有着广泛的应用前景。只要对视频数据进行良好的分析和存储,并提供高效的回溯查询功能,就能为用户带来极大的便利,助力各行各业的智能化发展。

下面列举的是对上述宠物监控视频的回溯查询总结的例子。

我们可以首先简单地对猫咪状态进行总结:

在上面的描述中,我们发现猫咪似乎跟其他的动物(例如狐狸)有过一些互动,因此我们可以进一步询问猫咪遇到狐狸的时候发生了什么事情,结果如下:

总结

以上,我们介绍了针对智能摄像头与智能家居厂商的视频分析之典型应用场景和核心特性。具体来说,我们首先阐述了视频分析在智能摄像头和智能家居领域的重要性和广泛应用前景。接着,我们详细列举了几个典型的应用场景,包括婴儿监护,宠物监控,可疑人员监控。对于每一个场景,我们都介绍了如何利用 Claude 3 来解决的关键问题。同时,我们也给出了针对这些核心特性的演示案例,以便大家能够更加直观地理解和掌握。在下一篇博客中,我们将重点介绍实现这些视频分析功能的技术细节,包括算法原理、模型训练、系统集成等多个方面的内容,为大家提供更加深入的技术指导。

本篇作者

王子鹏

亚马逊云科技行业解决方案架构师,负责 Generative AI 与 AI/ML 在行业侧的解决方案设计和构建,拥有丰富的 Generative AI、计算机视觉、数据分析在制造行业的售前咨询、方案设计、落地经验。曾就职于比特大陆、西门子,负责AI/ML相关工作。

赵鹏程

亚马逊云科技制造业高级解决方案架构师,香港城市大学计算机科学硕士。曾就职于联想,西门子及微软,拥有多年云解决方案架构师及工业物联网解决方案架构师背景,尤其擅长利用混合云架构,物联网,数字孪生知识图谱和人工智能等技术切入并优化制造业的应用负载。参与编写《中国工业物联网白皮书》和《中国智慧办公建筑标准》,并在中国核心期刊《新型工业化》发表论文《工业元宇宙实践与思考》。

熊俊峰

亚马逊云科技行业解决方案架构师,主要领域包括 AI/ML,制造业和医疗健康。曾就职于腾讯三年,负责国家医学影像云平台的产品架构设计和图像处理算法的开发工作。研究方向包括大语言模型和计算机视觉等,以第一作者发表 SCI 和国际会议论文 13 篇,以第一发明人申请发明专利 11 项。

鲁梨

亚马逊云科技行业解决方案架构师,专注于数字化技术在传统行业的应用,现负责行业解决方案的设计、开发与推广。

方泽彬

亚马逊云科技软件开发工程师,专注于嵌入式软件架构设计与开发,有多年的无人机/机器人开发经验,致力于推进云计算设备和应用的部署与开发。

邓锐

亚马逊云科技软件开发工程师,专注后端架构设计与开发,致力于推进云端高质量设计、研发、运维标准化流程。

吴彬彬

亚马逊云科技软件开发工程师,专注大前端架构设计与开发,参与并领导过多个复杂项目的 web 端和手机端等前端开发工作,致力于交付一致且高质量的用户体验和产品。