亚马逊AWS官方博客
JoyCastle 素材资产智能化之路:基于 Amazon Nova Multimodal Embeddings 的广告素材管理实践
摘要:随着业务的全球化扩展,JoyCastle 面临一个共性挑战:如何高效管理和检索海量广告素材,让创意团队从重复劳动中解放出来,聚焦于真正的创意产出。 在与亚马逊云科技游戏行业解决方案团队的深度合作中,JoyCastle 基于 Amazon Nova Multimodal Embeddings 构建了智能化的素材资产管理系统,实现了从传统人工标签到 AI 语义搜索的跨越。
目录
1. 关于 JoyCastle
JoyCastle(乐堡互娱)是一家专注于全球化移动游戏研发与发行的公司,致力于打造被全球玩家喜爱和铭记的精品游戏。凭借持续的产品创新和全球化运营能力,JoyCastle 已在全球市场积累了亮眼的成绩:
- 1,000,000+ 每日下载量
- 20+ 获得平台编辑推荐
- 100,000,000+ 全球玩家
- 200+ 研发团队成员
随着业务的全球化扩展,JoyCastle 面临一个共性挑战:如何高效管理和检索海量广告素材,让创意团队从重复劳动中解放出来,聚焦于真正的创意产出。 在与亚马逊云科技游戏行业解决方案团队的深度合作中,JoyCastle 基于 Amazon Nova Multimodal Embeddings 构建了智能化的素材资产管理系统,实现了从传统人工标签到 AI 语义搜索的跨越。
2. 前言
游戏行业的广告投放竞争日趋白热化。一家中大型游戏公司通常需要维护数万甚至超过十万条广告视频素材,且每月以数千条的速度增长。这些素材是用户获取(UA)的核心资产——找到合适的创意素材,往往决定了一次投放活动的成败。
然而,传统的素材管理方式已经难以跟上创意生产的节奏。JoyCastle 的数据产品经理对此深有体会:随着素材库规模的指数级增长,创意团队在”找素材”上消耗的时间越来越多,真正用于创作的时间反而在被压缩。
3. 业务挑战:当素材库变成”素材沼泽”
JoyCastle 的广告素材生产链路涵盖了从创意生成、素材拍摄制作、后期切片拼接到变体生产(如换脸、多语言翻译)的完整流程。在这条链路中,素材的高效检索和复用是提升整体生产效率的关键环节。
传统素材管理的核心痛点:
- 人工标签成本高、一致性差:每条素材需人工标注关键词标签,标注标准因人而异,且无法覆盖所有可能的搜索场景
- 关键词搜索缺乏语义理解:搜索”角色被手指弹飞”这类自然语言描述时,关键词系统几乎无能为力
- 跨模态检索困难:创意人员想用一张参考图找到风格类似的视频片段,传统系统无法支持
- 素材复用率低:大量优质素材沉没在文件夹层级中,创意团队倾向于重新制作而非检索复用
这些问题叠加起来,意味着创意团队要么花费大量时间翻找素材,要么重复制作已有的内容——两者都在消耗宝贵的创意产能。
4. 解决方案:Amazon Nova Multimodal Embeddings 统一向量搜索
在与亚马逊云科技游戏行业解决方案团队的交流中,JoyCastle 关注到了基于 Amazon Nova Multimodal Embeddings 的多模态素材搜索方案。这一方案的核心理念是:将文本、图片、视频、音频统一映射到同一个语义向量空间,实现真正的跨模态语义搜索。
4.1 为什么选择 Nova Multimodal Embeddings?
与 LLM 自动打标签等替代方案相比,Nova Multimodal Embeddings 在创意素材搜索场景中具有独特优势:
| 对比维度 | 人工标签 + 关键词搜索 | LLM 自动打标签 | Nova Multimodal Embeddings |
| 标注成本 | 高(纯人工) | 中(需定义 Prompt) | 低(无需标注) |
| 搜索灵活性 | 受限于预定义标签 | 受限于预定义 Prompt | 支持任意自然语言查询 |
| 跨模态搜索 | 不支持 | 不支持 | 原生支持文本↔图片↔视频↔音频 |
| 实时性 | 依赖标签完整性 | 批处理,延迟高 | 毫秒级向量检索 |
| 可扩展性 | 线性增长 | 推理成本高 | 一次 Embedding,长期复用 |
关键技术优势:Nova Multimodal Embeddings 可直接对视频进行语义分段(Segmented Embedding),将长视频自动切分为 1-30 秒的片段并生成各片段的向量表示,无需任何中间转换步骤。这与广告素材的管理需求天然契合——创意团队需要的往往不是一整条完整视频,而是其中某个特定的精彩片段。
4.2 系统架构
JoyCastle 基于亚马逊云科技提供的 GMM(Gaming Material Manager)方案进行测试,整体架构包含两条核心工作流:
素材入库流程:
[图1] |
素材检索流程:
[图2] |
核心服务组件:
- Amazon Bedrock:提供 Nova Multimodal Embeddings 模型访问,支持同步和异步调用
- Amazon OpenSearch Service:作为向量数据库,支持 HNSW 索引和毫秒级 KNN 检索
- Amazon Lambda:无服务器计算,处理 Embedding 生成和搜索请求
- Amazon S3:存储原始素材文件和处理结果
- Amazon SQS + DynamoDB:异步任务编排与状态追踪
GMM方案架构:
[图3] |
4.3 方案核心能力
基于 Nova Multimodal Embeddings 和亚马逊云科技的服务组件,该方案为创意团队提供了以下核心能力:
多模态输入与跨模态检索
方案支持多种输入方式和跨模态检索组合,创意人员可以灵活选择最自然的搜索方式:
- 文本搜索视频/图片/音频:用自然语言描述想要的内容,如”角色被手指弹飞的画面”,系统理解语义而非简单匹配关键词
- 以图搜图/视频:上传一张参考图,找到视觉风格相似的图片或视频片段
- 以视频搜视频:上传一段视频片段,发现内容或风格相近的其他素材
- 以音频搜索:通过音频内容检索包含相似声音特征的素材
所有模态的内容都被映射到同一个统一向量空间中——这意味着”赛车”这个文本描述会在语义空间中与包含赛车画面的视频和图片自然靠近,实现真正直觉化的跨模态搜索。
视频智能分段与精准定位
Nova Multimodal Embeddings 对视频内容提供了精细的分段理解能力:
- 自动将长视频切分为 1-30 秒的语义片段,每个片段独立生成向量表示
- 搜索结果精准到视频片段级别,返回具体的时间戳(起止时间)和相似度评分
- 支持 AUDIO_VIDEO_COMBINED 模式,同时理解视频的画面内容和音频信息
这种分段能力与广告素材的实际使用方式高度契合——创意团队日常需要的往往是一段 5 秒的精彩片段,而非完整的长视频。
灵活的向量维度选择
Nova Multimodal Embeddings 基于 Matryoshka Representation Learning(MRL)训练,提供四种向量维度选项,适应不同业务场景的精度与成本平衡:
- 3072 维:最高精度(英文 89.3 / 中文 78.2),适用于对检索质量要求极高的核心场景
- 1024 维:均衡选择(英文 85.7 / 中文 68.3),推荐大多数业务场景使用
- 384 / 256 维:成本优化选项,适用于大规模部署、对延迟敏感的场景
同步与异步双模式处理
方案同时支持实时处理和异步批量处理,覆盖不同使用场景:
- 同步模式:适用于文本查询、小文件的实时 Embedding 生成,毫秒级响应
- 异步模式:适用于大文件(长视频)的 Embedding 生成,通过 SQS 队列和 DynamoDB 状态追踪实现任务编排,避免超时问题
这种双模式设计使系统既能满足创意人员的即时搜索需求,也能高效处理大批量素材入库的后台任务。
5. 落地实践:从方案验证到平台集成
JoyCastle 与亚马逊云科技的合作历程体现了一种高效的联合创新模式。
5.1 合作历程
[图4] |
整个过程中,亚马逊云科技游戏行业解决方案团队承担了方案适配、效果验证和部署支持的工作,JoyCastle 则专注于业务需求定义和最终的平台集成——双方各自发挥所长,快速推进落地。
5.2 JoyCastle 的素材资产库 AI 升级实践
JoyCastle 将 Nova Multimodal Embeddings 方案融入了完整的素材生产链路,实现了多个环节的智能化升级:
| 环节 | AI 升级内容 |
| 智能标签生成 | 从人工标注标签库升级为 AI 智能标签发现,自动识别素材中的场景、动作、物体等语义信息 |
| 素材切片 | 引入亚马逊云科技方案,利用 Nova Multimodal Embeddings 的视频分段能力,自动将长视频切分为可管理的语义片段 |
| 素材拼接 | 基于语义搜索快速找到所需片段,支持素材资产的积累循环和高效复用 |
| 变体生产 | 结合换脸、多语言翻译等能力,在语义检索的基础上快速生成素材变体 |
5.3 效果验证
在基于 170 个游戏广告素材(130 条视频 + 40 张图片)的测试中,Nova Multimodal Embeddings 展现了出色的检索能力:
- 96.7% 召回成功率——目标内容被成功检索到
- 73.3% 高精度召回——目标出现在 Top 2 结果中
- 跨语言能力——中文查询得分 78.2,英文查询得分 89.3(3072 维度)
实践建议: 对于广告素材场景,推荐使用 SEGMENTED_EMBEDDING 模式并设置 5 秒的视频分段长度。这一参数与广告素材的典型生产需求高度匹配——创意团队通常需要管理和检索的正是这种粒度的视频片段。1024 维度的 Embedding 在大多数场景下能提供精度与成本的最优平衡。
6. 共创未来:从搜索到全链路智能化
JoyCastle 与亚马逊云科技的合作并未止步于素材搜索。双方正在联合探索素材管理全链路的智能化升级:
6.1 更智能的素材切分
基于投放后的效果反馈数据(转化率、点击率等),自动识别高效素材片段,实现:
- 高转化率/点击率片段的集中管理和优先复用
- 价值要素的自动提炼
- 基于效果数据驱动的自动拼接
6.2 素材自动化拼接
利用多模态理解能力,通过自然语言描述直接生成素材拼接方案。例如,创意人员可以用一句 Prompt 描述需求:
“帮我找几段视频:建造埃及金字塔的场景、游戏中出现大量开心表情的画面、老人数钱的视频,分析后选出最合适的三段拼接成新视频。”
系统将自动完成语义检索、内容分析、去重和拼接的完整流程。
6.3 自动投放测试
打通广告创编模块,实现基于规则的自动化投放测试,形成”素材检索 → 自动拼接 → 投放测试 → 效果反馈 → 优化迭代”的完整闭环。
7. 快速上手
如果您的团队也面临类似的素材管理挑战,可以快速体验 Nova Multimodal Embeddings 的多模态搜索能力。完整的源码和部署脚本已在 GitHub 开源:





