亚马逊AWS官方博客

Amazon Nova 助力咖咪咔嘶:数字人交互提速 129%,打造极致的用户体验

关于咖咪咔嘶

咖咪咔嘶是一家专注于 AIGC 的科技公司,由资深影视制作人顾星、资深人工智能专家陈平及其他创业团队成员于 2022 年 7 月创立。公司专注于 AI 视觉图像和专业影视内容制作,获得魔珐科技战略投资,并与太仓中科信息技术研究院建立产学研合作。公司获得了 12 项知识产权,包括 2 项发明专利、9 项实用型专利和 1 项软件著作权,以及 4 项影视剧著作权。团队掌握 AI 全栈核心技术,能够实现 AI 数字人生成、语音驱动和直播互动等场景。主营业务包括 AIGC 的 IP 作品及数字人偶像艺人孵化,同时为企业和个人提供数字人创设、应用和运营服务。目标是在三年内成为国内有自主知识产权的基于人工智能技术的影视科技公司。

关于 Amazon Nova

亚马逊云科技在 2024 re:Invent 全球大会上推出新一代基础模型 Amazon Nova,包括超快速文本生成模型 Amazon Nova Micro,以及能够处理文本、图像和视频并生成文本的多模态模型 Amazon Nova Lite、Amazon Nova Pro。此外,亚马逊云科技还推出了两个全新模型——用于生成高质量图像的 Amazon Nova Canvas 和用于生成高质量视频的 Amazon Nova Reel。

其中,Amazon Nova Micro、Lite 和 Pro 支持 200 多种语言。Amazon Nova Micro 支持 128K 的上下文窗口,而 Amazon Nova Lite 和 Pro 的上下文窗口可达 300K。

使用场景

在选择 Amazon Nova之前,咖咪咔嘶正寻求两个方面的技术突破:

在成本效益方面,公司期望通过新一代 AI 技术优化运营成本结构,希望实现更高效的资源利用,从而加速业务扩张步伐;

在技术创新层面,公司致力于打造更优质的用户体验,期望将数字人生成和实时互动的响应速度提升到新的高度,并计划扩展多语言服务能力,更好地服务全球用户,同时着力提升长文本处理的效率,实现更智能的内容理解。这些技术升级将为产品带来更强的市场竞争优势,为用户创造更大价值。

咖咪咔嘶有两个关键的产品:

1. 智能工具平台

这是一个面向企业和个人用户的综合 AI 服务平台,提供办公辅助、AI 对话、语音克隆和 AI 人物定制等功能。

2. Hi 咖咪 APP

这是一款创新型移动应用,集成了 3D 智能助手,支持自然对话、动作模仿和情绪识别等高级功能。

通过引入 Amazon Nova,咖咪咔嘶希望在保持服务质量的同时,显著提升系统性能并降低运营成本。

  • 采用 Nova 处理日常对话和翻译任务,实现 100+ 每秒的 token 输出能力来保证体验。
  • 利用 Nova Lite 300K 上下文窗口,实现超长对话的记忆能力。
  • 结合 RAG 技术和 Nova Lite,实现智能数字人的实时对话场景下,性能、准确率和成本三要素的最佳平衡。
  • 将来会进一步利用 Nova Lite 的多模态能力,支持情绪识别和动作模仿。

效果评估

通过与目前使用的模型的对比测试,Nova 在关键指标上表现优异:

推理性能

使用 https://github.com/tsaol/bedrock-nova/blob/main/text/nova_text_generation_streaming.py 直接进行相关推理测试:

运行结果显示, 首字节的响应时间是 0.3807 秒,且结果和第三方评测结果保持一致。

结合公开数据,和原来使用的其他模型的首字节响应对比, 用时减少了 0.17 秒,速度提升了 30.91%。

在输出方面,Nova Lite 每秒高达 147 个 Token 的输出,相比原先模型每秒 64 个 Token 的输出,速度提升了 129%。

推理成本

Nova 的推理成本显著降低,input token 的价格是0.06/M token,output token 的价格是 0.4/M token。

架构设计

在亚马逊云科技,咖咪咔嘶采用了如下的架构来实现数字人的相关交互方案:

  • 采用基于 LangChain 开发的 Application Cluster 处理用户请求
  • 采用 RDS 用于存储数据以及 Chroma 用于向量存储
  • 由 Amazon Nova 提供大语言模型的能力
  • 采用亚马逊云科技可伸缩的 G6 实例推理集群,用于数字人熏染
  • 由 Amazon CloudWatch、KMS 和 SNS 服务对系统进行监控和安全保障

整个架构在 AWS Region 内运行,同时支持本地 Training GPU 的对接,构成了一个完整的云上数字人解决方案。

在实际应用中,Nova 在各项关键指标上都展现出了显著优势:

性能提升

  • 首字节响应时间降至 0.38 秒,响应速度提升了 30%
  • 实现每秒 147 tokens 的稳定输出,输出速度提升了 129%

成本优化

  • Input token 成本降低了 75%($0.06 / 百万 token)
  • Output token 成本降低了 68%($0.4 / 百万 token)
  • 整体成本较原来节省了约 70%

Amazon Nova 模型首字节的响应和每秒 Token 输出能力的增强改善了交互体验,从而提升了咖咪咔嘶 APP 的整体运行效率与用户满意度。

总结

Amazon Nova 的引入不仅显著提升了咖咪咔嘶产品的性能表现,还实现了成本的大幅优化。通过合理的架构设计和精细的场景应用,咖咪咔嘶成功实现了技术升级的预期目标。这次升级为公司未来的业务扩展奠定了坚实的技术基础,也为行业内其他企业提供了有价值的实践参考。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

参考链接

https://www.amazon.science/publications/the-amazon-nova-family-of-models-technical-report-and-model-card

https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html

https://github.com/tsaol/bedrock-nova

https://artificialanalysis.ai

本篇作者

顾星

咖咪咔嘶科技创始人,姑苏创新创业领军人才,上海交通大学电子工程本科、上海交大安泰管理学院 MBA,资深影视制作人,原综艺节目《喜剧总动员》《欢乐喜剧人》总统筹。

赵世亭

咖咪咔嘶科技算法专家,10 年的研发经验,擅长基于自然语言处理、图像处理的大模型及其应用;研究并使用该领域前沿技术、创新等;参与并推进大模型在输入法、短视频生成等领域的落地。

曹镏

亚马逊云科技解决方案架构师,拥有 16 年企业级架构设计经验。作为生成式 AI 落地实践的专家,专注企业数字化咨询与架构设计,已成功帮助 50+ 家企业完成 AI 转型,涵盖零售、制造、金融、教育等核心行业。主导构建百卡规模的企业级 AI 基础设施,开源多个企业级 AI 项目,累计获得 1000+ Stars。目前专注于大模型在企业场景的创新应用,包括 AI 治理平台、Agentic AI、智能硬件等关键领域以及相关解决方案。热衷技术创新与分享,追求卓越工程品质,在生活中享受美食和旅行。