- AWS›
- 客户案例
Reli 基于 Amazon Bedrock 推出 “筑巢日记”,一键生成观鸟 Vlog
了解 Reli 如何基于亚马逊云科技的生成式 AI 服务和 IoT 能力等,开发 “筑巢日记 “功能,帮助全球爱鸟人士提升观鸟体验。
优势
概述
机会 | 利用生成式 AI 提升用户观鸟体验
一个可能鲜为人知的事实是,根据美国鱼类和野生生物管理局的统计,美国 3.3 亿人口中的 20% 是观鸟爱好者,而这 4,500 万观鸟者中的 3,900 万人会选择在家或邻近区域赏鸟。Reli 的业务起步于美国,并在 Kickstarter 上众筹了一款智能鸟窝,并成为该类目最受欢迎的产品之一。此后,Reli 相继推出智能喂鸟器、智能鸟浴等针对爱鸟人士的智能硬件产品,持续提升在野生动物爱好者中的影响力。但在实际应用中,无论是家庭安防摄像头还是观鸟类摄像头,用户都需要观看完整个视频才能获取到视频记录了什么样的内容;但观察并记录鸟儿的视频时间跨度可能长达数月,而大部分画面是无意义或重复的,因此用户获取有效画面的效率较低。生成式 AI 问世以来,借助 LLM(Large Language Model,大语言模型)自动识别、抓取视频画面,并高效生成精彩时刻视频,通过更好的交互性和趣味性提升用户体验、增强用户粘性,成为 Reli 的关键诉求之一。
然而,在利用 LLM 生成精彩时刻视频过程中,Reli 发现视频画面和字幕配音的对齐匹配存在挑战,比如 Reli 记录的画面中第 15 秒发生某瞬时事件,但生成的字幕配音需要 5 秒才能讲述完成,导致字幕配音与实际画面无法匹配,非但不能给视频添光加彩,反而给用户带来困扰。所以,如何利用 LLM 生成带有字幕和配音的 Vlog,并解决字幕、配音与视频画面对齐问题成为 Reli 面临的首要挑战。
凭借亚马逊云科技在云计算和人工智能及生成式 AI 的领先优势,Reli 期望与亚马逊云科技合作,共同探索生成式 AI 在多模态领域的应用,为全球用户打造领先的 AIoT 产品,重新定义人与自然的互动。
客户证言
”从最初的产品设想到‘筑巢日记’功能的落地,亚马逊云科技与 Reli 通力合作,从业务逻辑理解、产品功能定义、技术架构设计到反复调试优化;通过 Amazon Bedrock 调用 LLM,运用多模态能力进行视频识别、分析、生成字幕和音频并合成视频集锦,最终让创新灵感落地,帮助 Reli 抢占海外市场先机。”
Bob Huang
Reli CEO
解决方案
基于 Amazon Bedrock 调用 LLM 推出“筑巢日记”,自动生成精彩时刻视频集锦
- 视频画面的识别:借助生成式 AI 可以帮助 Reli 识别更多种类鸟儿,不再需要人工肉眼逐帧识别,大大提高识别的准确度和识别效率,降低成本;
- 视频分析与抽帧:借助大模型的多模态能力,快速理解摄像头记录的长达 60 余天孵蛋周期的整条视频内容,识别筛选出诸如鸟类筑巢的精彩瞬间画面,由 AI Agent 自动抽帧;
- 生成故事:画面生成对应的文字信息:对筛选处理的关键画面,利用 LLM 分析抽帧图片自动生成字幕文本,并将时间节点信息写入故事线中,基于 AWS Lambda 和 Amazon S3 开发全托管无服务架构的 AI Agent 让字幕与视频匹配;
- 视频配音:字幕转化为音频:利用 Amazon Polly 将生成配音文字高效转换成音频文件,确保音频时长与画面时长对齐。
此前,Reli 已经上市了多款观鸟、喂鸟类产品,为了帮助爱鸟人士更贴近自然,以更直观的方式观察和关爱野生动物,Reli 受苹果相册启发,想要打造一款类似苹果相册的 “回忆 “功能的应用,可以根据画面生成相应的字幕、配音并合成 Vlog。因此,Reli 计划利用生成式 AI,自动对摄像头记录和存储的鸟儿筑巢,生蛋,孵蛋,喂食等画面进行识别、筛选,生成字幕,并配音合成后生成视频集锦。Reli 针对其海外业务基于亚马逊云科技 Amazon Bedrock 等服务解决了以下关键问题:
最终,Reli 将不同的视频画面合成到一起,为用户生成了一段栩栩如生的 Vlog。
Reli 的产品刚上线就受到用户的追捧,目前已有大量的用户购买和使用 Reli 公司推出观察野生鸟类的相关智能 IoT 设备 ,这些设备 7*24 小时持续产生视频数据,且每月的数据规模还在以翻番的速度增长。为保障用户随时随地获取流畅的体验,Reli 始终高度关注设备的安全稳定连接,视频数据的可靠存储以及用户的便捷访问。
Amazon IoT Core 可支持数十亿台设备连接以及数万亿条消息传送,每分钟同时在线数设备数高达 3 亿台。借助 Amazon IoT Core,Reli 可以让所有设备在低功耗状态下实时安全连接,远程唤醒设备。
作为亚马逊云科技的推出的第一个云服务,Amazon S3 目前已经为全球数百万来自各行各业的客户存储了超过 350 万亿个对象,平均每秒处理超过 1 亿次请求。Reli 将用户的摄像头全天记录的视频数据全部存储在 Amazon S3 上,可靠、便捷的云存储让用户可以随时在线实时观看或回看鸟儿视频。
- 解决 Vlog 的前置输入条件,包括定义鸟儿种类、标记鸟儿活动阶段、设定 Vlog 参数如时长等,制定为 LLM 提供这些输入的接口字段和格式;
- 开发图像采样算法,自动精简抽帧图片数量,从每日视频中平均筛选 3 张图片,减少 LLM 调用不必要的 token 数量;
- 开发基于 Serverless 架构的 AI agent,通过多线程并行处理推理任务,实现 AI agent 兼具推理速度、低成本和鲁棒性;
- 进行 PE(Prompt Engineering,提示词工程)优化;
- 迭代优化多媒体处理工具 FFmpeg 的参数,提升最终 Vlog 中视频、字幕和音频的合成效果。
在 Reli 将生成式 AI 部署到自身业务中,亚马逊云科技携手合作伙伴 Ultrapower (Singapore) Pte. Ltd.(以下简称 “Ultrapower”),共同帮助 Reli 将生成式 AI 应用工程化落地:
Reli 基于亚马逊云科技的产品架构示意图
业务成果
生成式 AI 应用提升用户观鸟体验,研发周期缩短一半,人力投入节省 50%
-
Reli 原来预计自身开发生成式 AI 应用需要 2 到 3 个月才能完成,在亚马逊云科技和 Ultrapower 的助力下,双方为 Reli 提供了从功能设计、框架设计到 Demo 验证等全面的技术支持,同时应用生成式 AI 赋能下的视觉分析解决方案指南让 Reli 可以基于历史积累素材进行训练、调优,无需从零搭建技术架构。最终 “筑巢日记“功能的研发周期缩短了 1 到 2 个月,人力投入节省超过 50%,让 Reli 工程师更多聚焦在业务创新上。
以前 Reli 通过通过公开数据集自行训练的模型,仅能识别约 400 种鸟儿,且容易产生幻觉,如将松鼠识别成鸟类等。通过 Amazon Bedrock 采用 Claude 3.5 Sonnet 后,Reli 可以为其海外用户识别超过 1000 种鸟儿,而且识别精度大大提升。
此外,Reli 的竞品大多只能提供每天的源视频,用户想要精华视频只能自己二次剪辑处理。但 Reli 的 “筑巢日记” 功能推出后,用户可以在 Reli App 上对长达 60 天的源视频一键进行筛选、剪辑、字幕生成并合成,轻松观看鸟儿的筑巢、孵化等精彩时刻,并分享到社交媒体上,创新体验大大提升用户粘性。
借助亚马逊云科技遍布全球的基础设施,帮助 Reli 在北美、欧洲等区域高效部署业务并安全运营。此前,欧洲用户反馈 Reli App 响应有时延,打开 App 并加载首页的时间需要 5 秒。亚马逊云科技迅速响应,借助其在欧洲的基础设施帮助欧洲用户访问加速,优化之后,用户访问 Reli App 并加载首页的时间控制在 1 秒以内。亚马逊云科技的多区域部署让 Reli 的业务更靠近用户,降低延迟的同时确保本地的安全合规要求。
目前,Reli 和亚马逊云科技的合作还在加强。一方面,Reli 正在积极扩大产品范围,比如开发喂鸟器、为家养鸟开发智能鸟笼等,利用生成式 AI 来分析鸟儿的习性,为用户提供相关推荐。另一方面,Reli 还在北美之外的更多区域拓展业务,借助亚马逊云集遍布全球的基础设施,面向更多用户提供高效、稳定的服务。
关于 Reli
关于 Ultrapower
行动起来
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。
免责声明:前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。