亚马逊AWS官方博客
使用Amazon Nova Lite实现多快好省的智能视频审核
在短视频平台蓬勃发展的时代,用户生成内容(UGC)的爆发式增长给平台的内容审核带来了巨大挑战。作为一个视频分享平台,我们不仅需要为用户提供流畅的分享体验,更要确保平台内容的安全性和合规性,维护品牌声誉。本文将分享我们在实际案例中利用亚马逊在re:Invent 2024刚刚推出新一代自研大模型Amazon Nova Lite构建视频分享平台的智能审核方案。
我们在实际项目中遇到了哪些挑战?我们的选择背后有着怎样的考量?Amazon Nova Lite在视频审核方面又有哪些优势?下面让我们分别从审核的准确性、处理速度、运营成本等维度深入探讨这个话题。
该项目中对视频审核的关键诉求有如下三个方面:
- 图片理解能力:
待审核的内容为全球用户上传的vlog,不同文化背景下审核的标准会有差异。能否准确识别上传内容,根据不同地域要求调整审核规则,并保证审核透明度是重点考核的因素 - 图片处理速度:
用户上传的视频时长较长,往往会超过1小时。为保证用户使用体验,项目希望视频上传后能在1~2分钟完成内容审核并成功发布。由于平台视频采用专有格式,不适合直接使用视频理解模型来进行审核。项目采用每10s截帧的方式进行图片审核。这就要求图片的处理速度能达到为6张/s以上 - 运营成本:
该项目的视频分享平台面向全球用户,用户量大、分享视频数量多、审核任务重。审核成本低廉是长期运营的必要条件。
亚马逊自研大模型Nova系列,从Model card分析,其在多模态图片、视频理解方面表现突出,而且在响应延时和价格方面同样较同等级模型具有明显优势,因此本次我们对Nova模型,尤其是Nova lite进行了详细的测试和分析。
1. 图片理解能力考察
首先,模型的图像理解能力是视频审核方案选型时的核心要素。基于Amazon Nova系列模型的技术报告和模型卡片,Nova Lite与Nova Pro在图片理解上都具有优异的表现。以下是Nova和Gemini在VATEX和EgoSchema上的对比表格,参考链接
模型 | VATEX (CIDEr) | EgoSchema (accuracy) |
Amazon Nova Pro | 77.8 | 72.1 ±5.4 |
Amazon Nova Lite | 77.8 | 71.4 ±5.4 |
Gemini 1.5 Pro (001) | 64.6ᴬ | 72.2 ±5.4 |
Gemini 1.5 Flash (001) | 57.1 | 65.7 ±5.7 |
Gemini 1.5 Flash 8B (001) | 53.2ᴬ | – |
注:ᴬ表示4-shot评估(是指Genmini1.5在进行模型评估时使用了4个examples或prompts的测试方式)
VATEX:是一个视频描述基准测试,涵盖了多样化的人类活动。是在包含约10秒长度视频的公开测试集上进行评估。评估使用 CIDEr分数作为指标。
EgoSchema:是基于长视频进行的问答基准测试,该测试的特点是要要基于较长时间的观看(即ertificate length)才能给出答案。这些视频涵盖了广泛的自然人类活动,并配有人工策划的多项选择题问答对。
从表格可以看出,Nova系列模型在广泛人类活动的视频理解上都具有更优于Gemini1.5的能力。
2. 图片审核成本考察
Nova的理解类模型对图片处理依然依据Token的数量收费模式,图片分辨率与预估token的关系如下:
![]() |
基于以上的数值,我们可以看到图片分辨率与预估的token数量之间存在线性关系。具体的数值关系可用以下线性回归公式表示:
![]() |
即:Token Count=0.001351×Resolution pixels +244.11
基于2024年12月发布的Nova系列模型的价格,我们对不同分辨率的图片分别计算了处理100万张图片时所需的成本。同时与Amazon的Rekognition在处理相同数量的图片时的价格做了对比:
Model/Service | 720p(1280*720) | 480p(720*480) | 240p(426*240) |
Sonnet 3.5 v2 | 3686.4 | 1382.4 | 408.96 |
Haiku 3 | 307.2 | 115.2 | 34.08 |
Nova Pro | 1191.26528 | 568.7 | 305.7 |
Nova Lite | 89.344896 | 42.6 | 22.9 |
Rekognition | 1000 | 1000 | 1000 |
以Nova Lite处理分辨率为426*240的图片为例,计算方式如下:
一百万张图片的处理成本 =( 每张图片Token数目 x token单价)x一百万张 = (0.001351426240+244)X(0.06/1000000)*1000000 = $22.9
Rekognition处理一百万张图片价格 = $0.001/张 * 1百万 = $1000
可以看到Nova Lite在图片处理成本上具有绝对优势。
3. 图片处理速度考察
在确定了处理能力和价格优势后,我们着重对Haiku3,Nova Lite和Rekognition的处理速度进行了对比。
Model (每张处理速度s) | Image 280p | Image 480p | Image 720p |
Nova lite | 2.29 | 2.19 | 2.14 |
Claude 3 Haiku | 2.35 | 2.46 | 2.87 |
Rekognition | 0.22 | 0.27 | 0.29 |
可以看到同一模型对不同分辨率图片的处理性能基本一致,并没有因为图片分辨率变大处理速度有明显变慢的情况;同时大模型的处理速度(2~3s/张)以单并发的处理性能看,还难以满足对该审核场景对性能的要求。接下来,我们在并发情况下对性能做进一步测试。如下测试结果显示的是,不同并发数下,每个并发处理10张图片的平均单张处理时间(秒)。可以看到,并发数为30时,单张图片的处理性能仍能保持在2~3秒,并发处理能力可达10张/s,完全满足性能要求。
![]() |
4.实际测试能力展示
4.1 基于当地文化传统的内容审核
这里模拟一个印度区域的内容审核专家,根据当地的文化传统和礼仪进行审核。
系统提示词:
4. 输入输出示例
输入:{“name”:””,”bio”:””,pic:[{“pid”:1}]}
输出:{“name”:{“flag”:1,”reason”:””,”tag”:[“”]}}”””
使用如上提示词对如下图片进行审核
![]() |
可以得到如下的审核内容:
可以看到,对以上图片可以正确的标记为“997:特殊文化背景的限制下存在的冒犯内容”
但上述图片如果使用Rekognition缺省的未经客户化的模型进行审核则是完全合规的。
4.2 输出内容的标准化
LLM输出的内容通常格式难以规范化,对上面的输出我们使用tool use的方式抽取flag和reason进行精确的json格式输出。如下代码为基于bedrock converse API通过tool use进行格式化输出的代码示例:
经过tool use方式格式化输出后,可以得到固定的json格式如下:
总结:
由以上的测试和分析可以看到,Nova Lite在多方面的优势使其成为构建智能视频审核系统的理想选择。
首先,Nova Lite在图片理解能力上表现出色,能够准确识别图片中的人物、服饰、场景等元素,并可以通过Prompt根据不同文化背景调整审核规则。这一能力在处理全球用户上传的视频内容时尤为重要。相比之下,Rekognition则难以适应多元文化背景下的复杂审核需求,需要客户化的再次训练才能满足要求。
其次,Nova Lite在处理速度方面可以满足需求。Nova Lite能够在高并发情况下保持稳定的处理速度,满足了高效审核的需求。
此外,Nova Lite在图片处理成本上的优势也不容忽视。测算表明Nova Lite在处理大量图片时的成本远低于Rekognition。这一成本优势使得Nova Lite在大规模视频审核任务中具有更高的经济效益。
综上所述,Nova Lite在图片理解能力、处理速度、成本和文化特征识别方面均表现出色,使其成为构建智能视频审核系统的理想选择。通过Nova Lite,视频分享平台可以实现多快好省的智能视频审核,提升用户体验和平台安全性。