亚马逊AWS官方博客

莉莉丝《远光 84》项目组在大模型多模态上的实践

关于莉莉丝

莉莉丝游戏是中国中生代游戏公司代表,在中国游戏市场保持领先地位。莉莉丝游戏自主研发运营多款精品游戏,包括《远光 84》、《战火勋章》、《剑与远征》、《万国觉醒》、《剑与家园》、《艾彼》等。2020 年 4 月,根据第三方统计机构 AppAnnie 、SensorTower 发布的数据,莉莉丝游戏在“中国游戏公司收入榜”中位列第三。同年 1 月 – 4 月,莉莉丝在“中国游戏公司出海收入榜”排行榜稳居冠军宝座。2022 年 4 月 25 日,莉莉丝游戏宣布,在新加坡成立发行公司 Farlight Games,总部设于新加坡,为莉莉丝游戏的全球发行提供支持和服务。

莉莉丝官网

关于《远光 84》

《远光 84》是一款多端互通的大逃杀英雄射击游戏。相较于传统吃鸡游戏,Farlight 84 会通过其独特的喷气背包、英雄技能、武装载具、局内成长系统和多次复活机会,为大家带来上手更快、节奏更紧凑、更加“横冲直撞”的对局体验——在这里,相比于“苟”在角落里,你将看到更多激情“刚枪”的身影。Your Farlight, Your Highlight!

远光 84 官网

远光 84 项目组在大模型多模态上的实践

远光 84 项目组运用 AWS Bedrock + Claude2 的方案,迅速落地了多个 GenAI 应用场景,但主要的技术栈则只聚焦在 LLM 大模型对文本的处理,有一定的局限性,也限制了 GenAI 应用在项目组内的进一步拓展。除了文本之外,图片也广泛应用在各个业务系统中,对图片的智能处理,就成了下一阶段的探索方向。与此同时,Anthropic 也适时地推出了多模态大模型 Claude3。项目组利用 Claude3 对图片的强大处理能力,快速在多个业务场景实现了 GenAI 落地,并实现了生产效率的显著提升。

Anthropic 推出的新一代大模型 Claude3 具有以下主要特点:

  1. 针对不同使用场景进行了优化,推出了三种变体:Haiku(快速且高性价比)、Sonnet(平衡智能和速度)和 Opus(最先进和强大)。
  2. 在数学、编程和科学推理等基准测试中表现优异,超越了现有模型。
  3. 具备强大的视觉理解能力,可以处理图像、图表等多模态数据,有助于跨领域问题解决。
  4. 采用新技术显著减少了幻觉现象,使输出更加准确可靠,适合企业级应用。
  5. 通过 Amazon Bedrock 服务,可提供性能显著提升、准确性提高 2 倍、简单定制等优势。

总的来说,Claude3 模型系列在性能、准确性、多模态理解和企业级应用适用性等方面都有很大提升,是新一代生成式 AI 的代表作。

GenAI 在运维检测场景的技术实现

项目组基于 Prometheus 和 Grafana,搭建了一套完整的运维监控系统,包括产品、业务、网络等指标。在日常工作中,除了依靠在 Prometheus 上定义的监控告警外,还需要依赖人力做定期巡检,以期望发现系统潜在风险。而这类定期巡检操作,即简单又复杂。所谓简单,是仅需要工程师对各类图表进行查看;所谓复杂,则是图表内包含的丰富数据信息,以及个人对“潜在风险”的不同理解。随着业务规模不断扩大,这类巡检工作也会产生较大人力成本。为了降低此类人力成本,项目组利用 Claude3 对图片的处理能力,落地了基于 GenAI 的智能运维检测场景。

技术实现

该场景的主要技术实现,主要分为以下几个步骤:

  1. 通过 Text2API 技术,实现从自然语言到 API 调用的转换

对于巡检的内容和巡检目的,项目组利用 Text2API 技术(技术细节,请参考此篇博客),将自然语言转化为 API 调用。在该 API 调用中,会根据巡检内容组装出要访问的 Grafana Http URL。

  1. 利用 chromedp 组件,对该检查项进行截图操作

chromedp 是一套基于 go 语言的用于操作浏览器(支持 Chrome 开发者工具协议)的工具。该工具可以对浏览器进行点击、下载、仿真、截图、远程控制等操作。项目组则利用该工具对 Grafana Http URL 进行访问和截图。

截图代码示例:

  1. 调用 LLM 大模型,完成巡检工作

将 chromedp 生成的图片与巡检内容作为提示词,传递给大模型;大模型理解图片内容,并给出巡检结果。

主要问题

Claude3 对图片的处理能力比较强大,可以迅速阅读图片并形成反馈。但在具体业务场景中,我们也发现了两类比较明显的问题:

  1. 图片复杂度

图片的清晰度、复杂度直接影响了大模型对图片内容的理解。为了提高准确率,建议在图片清晰度上要保持较高水平,同时也尽量控制图片的复杂度。针对特别复杂的场景,可以对图片进行一定切割,大模型对切割后的图片逐张进行处理。

  1. 图片中的数学处理

在运维场景中,图片大都包含数字信息,也需要对数据信息进行计算。我们发现直接让大模型对图片信息进行数学处理,会有一定的幻觉现象,示例如下:

巡检内容:

Human: 你是一个专业严谨的监控系统巡检员,负责对监控图表数据进行全面分析。

本次的分析任务是"图表中的单位是毫秒(ms),检查 DocumentDB 的每个实例的主从延迟是否正常?",标准是:

每个实例的最大值不能大于 50.0ms

请根据图表和标准分析出结论,结论包括:通过/不通过和结论依据,结论依据必须按照图表中的数据来判定!!!

最终结果只输出可格式化的 JSON 字符串内容!!!无需输出其他内容!!!JSON字符串格式必须为: {"pass":true,"reason":"xxxx"}。

Assistant:

巡检图片:

大模型返回结果:

{"pass":false,"reason":"根据图表数据显示,实例 xxxxxx -mongodb-global2 的最大主从延迟值为 36.0ms,大于标准值 50.0ms,因此判定不通过。"}

尽管大模型已经读取到最大延迟为 36ms,但还是进行了错误判断,认为大于标准值 50ms,出现模型幻觉。

优化方案

项目组经过多种方式调试后,最终的优化方案为:两次调用大模型。

第一次调用,将图片传给大模型,但不指派巡检任务,只让大模型将图片中的数字信息提取出来。

第二次调用,将提取的数字信息和巡检任务,一起提交给大模型;凭借大模型的记忆能力,综合图片信息、数字信息和巡检任务,进行数学处理后,输出结果。

通过这种优化,对需要进行数字信息提取并处理,再进行逻辑思考的场景,我们得到了比较高的准确率,效果如下:

业务场景优势与拓展

随着我们对运维巡检场景的优化,项目组迅速将每周人力巡检任务升级为每天的智能巡检,目前一共有 50 多个任务,涵盖了产品、业务、网络等全系统核心指标。由大模型替代人力巡检,人力成本的节省是显而易见的。除了节省人力,智能巡检还在以下 4 个方面有突出优势:

  1. 提高巡检频次,降低系统潜在风险

将每周人力巡检任务升级为每天的智能巡检,甚至可以在更短周期内进行巡检,提高了发现潜在风险的概率,让整个系统运行更趋稳定。

  1. 巡检标准统一,消除个体差异

因为整个巡检任务涉及底层资源、各类产品、各细分业务以及玩家网络状态,以往都是安排多位工程师完成这几类检查,但检查标准就因人而异,得到的结果也就会有所差别。现在智能巡检的方式,通过巡检脚本将检查标准固定,由大模型统一执行,使得巡检标准统一,消除个体差异,确保巡检结果的质量。

  1. 摆脱对特定工具告警功能的依赖

对于 Prometheus 和 Grafana 都有自带的告警功能,当某个指标超过阀值后,即自动触发告警并进行后续动作。但在实际业务中,项目组也广泛应用了其他的图表工具,而这些工具往往都不具备报警功能,限制了某些业务场景的自动告警。随着 GenAI 智能巡检的落地,就可以让大模型对这些图表进行理解,并根据提示词告知的巡检目的,进行告警判断。通过大模型的多模态特性,给传统图表工具附加了智能告警功能。

  1. 降低告警门槛

对于 Prometheus 和 Grafana 的告警功能,其实都有一定的学习门槛,需要占用很多时间进行参数与公式的配置;特别是在对接多家云厂商之后,各家云厂商各类指标的差异性,又带来了更多的学习成本。采用 GenAI 智能巡检后,可以通过提示词工程进行告警配置,降低了告警门槛。

业务场景持续拓展

完成运维系统智能巡检业务落地后,项目组对大模型的多模态特性有了进一步的理解,很快又在压测场景,进行了业务落地。

项目组每周会对游戏新版本进行压测,以确保新版本上线后运行稳定。对于本周内的代码改动,项目组会通过对比本次压测与上一次压测的结果,来判断新代码对业务的影响。以往都是通过人力去进行比对,往往耗时耗力,而且需要工程师有极大的耐心与细心。项目组利用大模型的多模态特性,将两次压测的结果都传给大模型,并让大模型对两张图片的差异进行对比分析,然后输出对比结果。整体效果如下:

通过大模型的多模态特性,我们非常迅速地升级了压测分析业务,从人力节省到分析精准度两方面,都获得了项目组的广泛好评。

经验总结

大语言模型的发展日新月异,我们必须秉承积极好奇的心态,才能不断探索出新的 GenAI 业务落地场景。利用 Claude3 大模型多模态的特性,项目组迅速落地了多个业务场景,实现了业务优化。

《远光 84》主程张星评语:“Claude3 带领我们开启了崭新的领域,为人力减负迈出了重要一步。就像 Claude2 曾在解决阅读理解方面给予我们帮助一样,这一次 Claude3 则解决了视觉理解的难题。通过将两者结合运用,我们成功地利用 AI 取代了实际工作中繁琐的视觉处理任务。这种方法不仅速度更快,而且准确性更高,为我们带来了巨大的效益!”

本篇作者

张星

莉莉丝游戏 Farlight84 项目服务器主程。拥有十多年的互联网游戏项目开发经验,参与并上线了多款成功游戏。专注于游戏服务器分布式系统和容器相关技术栈,并具备丰富的多云架构实战经验。

付小飞

AWS 资深解决方案架构师,负责基于 AWS 的云计算方案的咨询与架构设计。专注于游戏行业,帮助客户利用 AWS 全球基础设施与强大的技术能力打造爆款游戏,降低游戏运行成本。