亚马逊AWS官方博客
AI智能体赋能广告行业:创意素材生成解决方案实践
1.引言
广告行业正在面临一场激动人心的变革,AI智能体工具将彻底重塑营销活动创建、数字广告制作和营销资产本地化的流程。虽然这些创新能为企业带来巨大的运营效率提升,但技术发展日新月异,许多企业仍在探索应该采纳哪些AI工具、如何有效地将它们整合到现有流程中。
传统的展示广告和视频广告素材开发流程通常需要数周或数月时间来制作不同格式和尺寸的多个变体来适配不同的投放位置。素材创建的速度会影响营销活动启动的速度,广告主也需要能更快地响应市场的能力。现在的Agentic AI(智能体)技术可以大大加快这个素材制作流程,也意味着广告从业者需要尽早开始探索和试验这些新技术,才能充分驾驭它们,赶上AI技术发展的红利。
当企业拥有大量AI生成的素材后,完整的智能广告投放闭环还需要两个关键环节的支持:一是广告智能投放助手,负责将素材精准分发到各个投放渠道;二是动态创意优化助手,实时监测素材表现并持续优化投放效果。只有将素材生成、广告投放、效果优化这三个环节有机串联,才能在每个节点充分发挥AI的提效价值,真正实现全流程的智能化广告投放体系。
本文聚焦于AI智能体驱动的广告素材生成环节,将深入探讨如何利用AI智能体技术简化创意制作流程。我们将通过实际案例和示例代码,详细展示如何搭建一个功能完善的创意设计智能体。对于希望快速部署并验证解决方案的企业,我们也提供完整的源代码支持,欢迎联系我们获取。
2.AI智能体在广告和营销行业的主要使用场景
根据广告营销的全新价值链(图1),我们总结了以下AI智能体使用场景,比如:
![]() |
图 1 智能体驱动的全新价值链
广告活动创意概念和概要开发。广告代理商的创意部门希望利用AI智能体来增强和加速创意开发流程。借助多模态的LLM(比如Amazon Nova Pro),创意团队可以快速从公司的品牌手册、产品描述、过往广告营销活动和现有营销材料中检索出洞察,进而在几分钟而非几周内生成营销活动的概要(Brief)。大模型多模态能力支持将文本、图像和视频作为输入,可以用于处理过往创意(文案)、广告素材、关键词、营销活动结果和品牌属性等内容,最后模型可以输出更加个性化、符合品牌安全规范的广告创意文案、素材艺术风格和调性指导等内容,交付给素材制作团队。
展示广告和视频广告生成。为了创建展示广告和视频广告营销活动,使用传统手段需要大量且昂贵的资源,素材制作团队需要制作同一广告的不同变种,这一过程通常需要数周,而且还需要和广告主沟通,存在反复改方案这一不确定因素,最终可能会导致制作成本提升、交付延迟的后果。如果换成基于AI智能体的手段来制作素材,则可以结合LLM、生图和生视频模型来以更低成本,更快的速度进行素材制作,同时广告内容也更加引人入胜,这是一个既经济又高效的解决方案。但是不可忽略的一点是如何选择合适的模型来完成不同的任务,这对AI工具使用者带来了新的挑战,而我们会通过引入智能体来规避它。
广告智能投放。 当创意素材准备就绪后,如何将合适的广告投放到正确的渠道、在最佳时机触达目标受众,是决定营销活动成败的关键环节。传统的广告投放依赖人工经验判断,需要投放专员根据历史数据手动设置投放参数、选择投放渠道、调整出价策略,这一过程不仅耗时且难以实时响应市场变化。生成式AI结合智能体技术可以构建广告智能投放助手,通过分析历史投放数据、用户行为模式、竞品投放策略等多维度信息,自动生成投放计划建议,包括渠道选择、受众定向、预算分配、出价策略等。智能体还可以实时监控投放进程,根据初期数据表现动态调整投放策略,实现从”经验驱动”到”数据+AI驱动”的转变,大幅提升投放效率和ROI。
广告投放效果分析与优化。 广告投放后的效果监测和持续优化是营销闭环中最具挑战性的环节。传统方式需要数据分析师定期拉取各平台数据、制作报表、人工分析转化漏斗,再提出优化建议,整个周期可能需要数天甚至数周。而市场瞬息万变,延迟的优化意味着预算的浪费。借助AI智能体构建的动态创意优化助手,可以实时汇聚来自不同投放平台的数据(曝光、点击、转化等指标),利用LLM的推理能力自动识别表现优异和不佳的素材及其特征,生成可解释的分析报告。更进一步,智能体可以基于效果数据自动触发素材迭代流程——例如识别出某个视频广告的前3秒留存率低,就自动调用素材生成模块重新生成开头部分,或者发现某类文案转化率高就生成更多类似变体进行A/B测试。这种”投放-分析-优化-再投放”的自动化闭环,能够将优化周期从周级缩短到小时级,让广告投放真正实现智能化和自适应。
本文会聚焦于视频广告的创意开发和素材生成。
3.广告素材生成工具的发展趋势
3.1从工具分散到一体化的演进需求
基于前述两个主要应用场景,目前市场上虽然存在众多专业工具来完成特定任务——例如利用聊天机器人结合精准提示词开发广告创意,通过Stable Diffusion或Flux模型生成图像,借助快手可灵模型制作视频,最后使用Photoshop或视频剪辑软件进行后期处理。然而,能够熟练掌握如此多样化工具链的用户寥寥无几。这自然引发了一个关键问题:是否存在一种解决方案能够将所有功能无缝整合?
为了回答这个问题,让我们先回顾AI生图工具的发展历程。
![]() |
图 2:创意素材生成的技术迭代
3.2 AI生图工具的发展历程
第一阶段:技术门槛期(2023年及更早)
早期的AI生图主要依赖Stable Diffusion模型配合各种LORA模型,用户需要在SD-WebUI界面上进行复杂操作。这种表单式交互方式包含大量可配置参数,用户为了理解各参数的含义和差异,往往需要投入大量时间进行学习和测试。
第二阶段:专业化发展期(2024年)
ComfyUI开始流行,开源模型演进至Flux系列,同时商业模型也崭露头角。通过构建复杂工作流,用户可以实现令人惊艳的生图效果,部分作品已达到真假难辨的水准。然而,工具的用户群体依然局限于AI爱好者和技术极客,未能实现大众化普及。市场迫切需要一款更加易用的工具来扩大受众范围。
第三阶段:AI智能体革命期(2025年)
2025年标志着一个重要转折点。Manus的发布让大众认识了智能体的概念,随后Lovart设计智能体工具的推出在创意设计社区引起了广泛关注。Lovart带来了革命性的对话式智能体交互模式:用户只需描述需求并上传相关图片,系统便能根据输入生成各类图像或视频内容——无论是宣传海报、产品元素素材,还是具有完整故事线的视频。这种创新大幅降低了AI工具的使用门槛,为企业内部采纳和推广此类工具创造了有利条件。
作为开发者,您可能希望构建私有化的类似解决方案供企业内部使用,或者对智能体的实现机制感兴趣。接下来,我们将详细介绍如何利用Strands Agents SDK快速构建创意素材生成智能体系统。
4.基于Strands Agents快速构建创意素材生成智能体
4.1 Strands Agents介绍
Strands Agents是一个开源的轻量级Agent开发SDK,采用模型驱动的方法来构建和运行智能体。它让开发者只需几行代码就能创建具备自主规划、推理和工具选择能力的智能体,无需复杂的脚手架代码。Strands的核心理念是极简主义——只需要一个大语言模型(LLM)和工具集即可开始构建。该框架具有模型无关性,支持Amazon Bedrock、LiteLLM等多种LLM提供商,也支持本地模型。Strands既适用于简单的单一智能体场景,也能扩展到复杂的多智能体协作系统,并内置了安全防护、提示词安全和性能监控等生产级特性,使其能够从本地开发无缝过渡到生产环境部署。关于Strands Agents SDK的基本用法可以参考这篇文章。
4.2整体架构设计思路
采用Strands分层协作的Multi-Agent架构,其理念是指将复杂的创意生成任务分解为独立Sub Agent模块,每个Sub Agent专注于自己的任务领域。主要的架构设计原则有:
- 职责分离: 文案写作、图像生成和视频生成三个独立模块。
- 可扩展性: 采用”Agents as Tools“模式,未来可轻松添加新的专业Agent。
- 容错性: 主Agent负责任务编排和错误处理,单个Sub Agent或工具的调用失败不会导致整个流程崩溃,允许主Agent进行重试,提升任务完成率。
- 灵活性: 允许用户通过提示词,主Agent智能判断调用哪些Sub Agent及调用顺序。
4.3工作流程设计
工作流程分为以下几个阶段:
- 需求理解阶段: Ads Agent分析用户输入,识别关键信息(产品类型、风格偏好、输出格式等)。
- 任务规划阶段: 生成结构化的执行计划,明确各子任务的依赖关系。
- 并行执行阶段: 对于无依赖关系的任务(如多张图片的生成,多个分镜视频的生成),可以并行调用提升效率。
![]() |
图 3:Multi-Agent架构图
我们采用Multi-Agent的架构,首先由主Agent也就是图3中的Ads Agent接受用户的请求,然后会分析用户的需求,再将任务分派到不同的Sub Agent:Copywriter Agent(文案写作Agent)、Image Generator Agent(图像生成Agent)和Video Generator Agent(视频生成Agent)。
完整的逻辑架构如图4:
![]() |
图 4:广告视频生成逻辑架构
4.4技术实现演示
先构建Ads Agent
| Ads Agent System Prompt |
你是广告智能体,一位广告设计总监,帮助用户为特定行业、产品或概念创建广告素材(包括文案、图片和视频)。 你的职责: • 理解用户需求和目标并执行任务 使用与用户相同的语言交流。 专家团队: ✏️ 文案撰写师:创作有说服力的广告文案和图片/视频生成提示词 🎨 图片生成师:使用AI生成图片 🎬 视频生成师:用首帧图制作视频 核心工作流程: 理解意图:分析用户想要创建或实现的目标 制定完整计划:设计包含所有任务和依赖关系的执行方案 逐步执行:按顺序执行任务,每步完成后标记进度 更新计划状态:展示进度并更新任务状态 交付成果:确保输出符合专业标准… |
这里系统提示词需要明确定义好:有哪些Sub Agent可以调度,包括每个Sub Agent的能力范围。还有任务调度的工作流程也需要明确定义。
接下来我们利用Multi-agent的Agents as Tools这个设计模式来实现3个Sub Agent.
第一步是图像生成Agent的定义:
这里我们在代码里用<标签>来表示对应的文本内容,具体文本定义在下面的表格中。其中,Agent Description是给Ads Agent提供关于子Agent的能力描述(提供如何选择Sub Agent的参考),而Agent System Prompt是对于子Agent自己的详细角色说明(提供Sub Agent如何完成任务的说明),这两者的目的是不同的,需要注意区分。
| Agent Description |
图片生成与编辑智能体 使用AI模型根据提示词生成图片或执行图片编辑操作。 核心能力: • 文本生成图片 • 图片编辑与处理 • 物体替换和移除 • 背景操作(移除、替换、扩展) |
| Agent System Prompt |
图片生成助手 使用AI工具创建、编辑和处理图片的专业智能体。 任务类型: 文本生成图片(TEXT_TO_IMAGE) • 触发条件:用户需要根据文本提示词生成多张图片 • 使用工具:text_to_image(支持批量生成) 重要约束 • 响应中必须包含生成图片的S3路径 • 确保生成的图片中不出现任何文字 |
| Agent User Prompt | 请协助处理此图片生成或编辑请求,提供详细指导并执行必要操作:{query} |
| Tools | Text_to_image |
对于图像生成Agent的系统提示词,主要是说明支持文生图这个任务并通过对应的工具来实现,后续也可以扩展到图像编辑任务,以及对于生成好的图片要使用S3路径来传递给主Agent。
第二步定义文案写作Agent,代码结构和图像生成 Agent一致,这里只用表格展示提示词部分的内容:
| Agent Description | 广告文案专家智能体,专注于创作广告文案、图片生成提示词和视频生成提示词。 |
| Agent System Prompt |
资深广告文案撰写师 根据用户提供的信息(文本描述、产品图片或图文组合)分析意图,围绕特色产品完成以下任务: 核心能力 • 基于文本输入或图片描述生成广告文案及图片/视频生成提示词 任务要求 广告文案创作:生成温馨且具有传播力的广告内容,以JSON格式输出。 要求: • 突出产品亮点,传递温暖正面的氛围 • 仅输出JSON格式,确保格式正确以供下游应用使用 |
| Agent User Prompt | 请协助处理此文案撰写请求,提供指导并根据需要执行生成:{query} |
| Tools | 无 |
文案写作Agent的系统提示词,主要是说明文案要根据用户输入的产品亮点来编写,最后会同时输出文生图和图生视频的提示词。
第三步定义视频生成Agent:
| Agent Description |
视频生成专家智能体 使用AI模型处理和响应视频生成请求。 核心能力: • 图片生成视频(Amazon Nova Reel) • 视频提示词优化与增强 • 多镜头视频创作 |
| Agent System Prompt |
使用AI从文本描述和图片创建视频的专业智能体。 核心能力 • 图片生成视频:基于文本描述为静态图片添加动态效果 • 优化提示词以提升视频生成效果 任务要求 始终创建详细的电影级提示词,描述: • 视觉元素(物体、角色、环境) • 镜头运动(缩放、平移、推拉、跟踪镜头) • 光线与氛围 图片生成视频任务: • 建议与静态图片相匹配的自然动态效果 |
| Agent User Prompt | 请协助处理此视频生成请求,提供指导并根据需要执行生成:{query} |
| Tools | video_generate |
视频生成Agent的系统提示词主要是定义文生视频和图生视频两种任务的要求。对于视频来说,关键是要定义好运镜的方式,还包括主体会做出怎样的交互,背景和环境如何变化等等要素。
3个Sub Agent定义之后,还需要定义2个工具:text_to_image和video_generate。
这里我们使用了Amazon Nova Canvas来生成图片。这是一个适合电商场景的在Amazon Bedrock上开箱即用的生图模型。
这里我们使用了Amazon Nova Reel来生成视频。这也是一个Amazon Bedrock上开箱即用的生视频模型。在行业方案中,会对接更多的生成视频的模型,比如快手的可灵模型。工具输入参数Prompt和Input Image都选择了数组结构,因为工具的实现中需要并行生成多个分镜对应的视频。
最后调用Ads Agent来完成生成一段广告视频的任务.
这里的one shot(分镜)也可以省略,省略的话就是生成3 shots的视频,最后剪辑拼接在一起。
执行以上Python代码,执行结果如下:
完整的Demo代码可以在github仓库里获取。
5.广告创意素材生成行业解决方案
以上只是一个简化版的设计智能体的Demo,如果需要可以部署的完整版的行业解决方案,也可以联系亚马逊云科技行业解决方案团队获取方案的源代码。
5.1企业实际应用效果
基于该解决方案的实际应用数据显示:
- 效率提升显著– 将广告素材制作时间平均缩短85%,每月素材产出量提高了5倍,成本只有实拍的1/5
- 转化率优势明显– AI生成的广告视频比没用AI的视频实现了3倍点击率的增长,提升了21%的ROAS(Return on ad spend),为广告主带来更好的营销投资回报 (数据参考)
这些数据充分证明了AI驱动的创意生成平台不仅能够大幅降低制作成本和时间,还能通过数据驱动的优化提升广告效果,为企业创造实实在在的商业价值。
5.2企业级功能特性
行业解决方案可以支持多种生图和生视频模型,比如Flux、快手可灵和生数Vidu等等。方案还支持项目管理(图5)、素材管理和多用户登录等功能。
![]() |
图 5:方案的项目管理功能
![]() |
图 6:方案的智能体对话交互及画布界面
5.3方案技术架构
最后是该方案的架构图:
![]() |
图 7:解决方案参考架构图
方案会部署在Amazon ECS容器服务里,然后通过Application Load Balancer(ALB)对外提供访问,用户使用过程中生成的画布定义和各种图片、视频素材会存放在Amazon S3上,项目的定义会存放在Amazon DynamoDB数据库中,最后用户登录是通过Amazon Cognito来实现的。
参考架构图7中每一步的具体内容如下:
- 用户在前端输入文字需求和上传参考图片。
- 前端部署在Amazon ECS上,通过ALB供用户访问。
- 前端会基于Amazon Cognito做用户认证。
- 前端会调用部署在Amazon ECS上的后端API。
- 后端会基于Amazon Cognito做用户授权。
- 后端API被调用后,会使用用户输入的信息去调用Strands Agents。
- Image Tools会调用Amazon Nova Canvas生图模型,所有Agents都会调用Amazon Bedrock上的LLM。
- 模型生成的图片和视频会存放到Amazon S3,然后通过Amazon CloudFront加速读取的访问。
如果在中国区部署,会把用户认证改成用户名密码认证,同时LLM模型会通过硅基流动平台来调用。
5.4方案核心优势
- 多模型支持– 灵活集成多种主流生成模型,根据不同场景选择最优方案。
- 完整的项目管理– 从创意构思到素材交付的全流程管理。
- 企业级安全– 基于亚马逊云服务的安全认证和权限管理体系。
- 简单易用– 基于对话式的交互方式,0门槛上手。(图6)
- 可扩展架构– 支持高并发访问和大规模素材生成需求。
- 成本可控– 按需使用云服务资源,避免传统方案的高额固定成本。
6.方案效果展示
Demo1: 生成衍生图片素材,用于生成视频
原图片:
![]() |
输入提示词:请根据这张图生成3张类似的图,用于一个Music App的广告视频的封面。
![]() |
![]() |
![]() |
Demo2: 利用AI生成技术复刻真实拍摄的广告视频
- 先用文生图模型生成主角图像
Prompt: 生成图片, cinematic, 拉丁美洲年轻女性,充满活力的表情,灿烂的笑容,中等身材,穿着棕色上衣和白色裙子,头发在舞蹈中飞扬,双臂优雅地伸展,身体呈现动感的舞蹈姿态,自信而自由的气质
![]() |
- 再用图像编辑模型,比如Flux Kontext生成各种场景下的主角图片。(由于篇幅有限,省略了中间镜头)
Prompt 1: 生成新图片:电影质感,中景镜头,年轻女性穿着棕色上衣和白色裙子站在街道上,双手轻柔地调整耳机,然后低头看向手机屏幕。
![]() |
Prompt 2: Edit Image: 年轻女性在欧式街道上开始充满活力地跳舞,穿着棕色上衣和白色裙子,双臂rhythmically摆动,身体跟随音乐节拍
![]() |
Prompt 3: Edit Image: 女子刚停下舞蹈,莞尔一笑,带上耳机,准备向前走, 脸上露出自信而自由的笑容
![]() |
- 有了分镜图之后,可以再通过图生视频模型,比如可灵,转换成视频。
Prompt 1: animate this image: 年轻女性穿着棕色上衣和白色裙子站在街道上,缓慢向前走,双手轻柔地调整耳机,然后低头看向手机屏幕,中景镜头跟随她。
Prompt 2: animate this image: 年轻女性在欧式街道上开始充满活力地跳舞,穿着棕色上衣和白色裙子,双臂rhythmically摆动,身体跟随音乐节拍,固定镜头
Prompt 3: animate this image:女子停下舞蹈,莞尔一笑,带上耳机,向前走, 脸上露出自信而自由的笑容, 消失在人群中,镜头跟随她移动。
最后的成片如下:
![]() |
7.总结
AI智能体正在重塑广告营销行业的创意制作流程,从传统的数周制作周期缩短到几分钟完成素材生成。通过智能体架构,我们可以将复杂的AI工具整合成易用的对话式界面,让更多企业能够快速采纳这些前沿技术。本文展示的方案只是一个起点,真正的行业级解决方案需要考虑更多的生产环境需求,包括模型选择、素材管理、用户权限和系统稳定性等方面。
随着AI技术的快速发展,未来的创意生成平台将具备:
- 更强的多模态理解能力– 同时处理文本、图像、视频、音频的复杂需求
- 实时协作能力– 支持多人同时编辑和反馈
- 智能化的创意建议– 基于历史数据和市场趋势主动推荐创意方向
- 端到端的营销自动化– 从创意生成到投放优化的全链路智能化
如果您对构建企业级的AI智能体驱动创意生成平台感兴趣,或希望了解更多关于智能体在广告营销领域的应用案例,欢迎联系我们行业解决方案架构师团队。我们可以为您提供:
- 完整的技术方案咨询和架构设计
- 可直接部署的源代码和部署脚本
- 指导定制化开发和集成服务
- 技术培训和最佳实践分享
AI智能体早期采纳者将获得显著的竞争优势。让我们一起探索AI创意生成的新时代,为您的企业开启智能营销的新篇章。
*前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。
本篇作者
AWS 架构师中心: 云端创新的引领者探索 AWS 架构师中心,获取经实战验证的最佳实践与架构指南,助您高效构建安全、可靠的云上应用 |
![]() |

















