莉莉丝《远光 84》项目组在大模型多模态上的实践

关于莉莉丝

莉莉丝游戏是中国中生代游戏公司代表，在中国游戏市场保持领先地位。莉莉丝游戏自主研发运营多款精品游戏，包括《远光 84》、《战火勋章》、《剑与远征》、《万国觉醒》、《剑与家园》、《艾彼》等。2020 年 4 月，根据第三方统计机构 AppAnnie 、SensorTower 发布的数据，莉莉丝游戏在“中国游戏公司收入榜”中位列第三。同年 1 月 – 4 月，莉莉丝在“中国游戏公司出海收入榜”排行榜稳居冠军宝座。2022 年 4 月 25 日，莉莉丝游戏宣布，在新加坡成立发行公司 Farlight Games，总部设于新加坡，为莉莉丝游戏的全球发行提供支持和服务。

莉莉丝官网

关于《远光 84》

《远光 84》是一款多端互通的大逃杀英雄射击游戏。相较于传统吃鸡游戏，Farlight 84 会通过其独特的喷气背包、英雄技能、武装载具、局内成长系统和多次复活机会，为大家带来上手更快、节奏更紧凑、更加“横冲直撞”的对局体验——在这里，相比于“苟”在角落里，你将看到更多激情“刚枪”的身影。Your Farlight, Your Highlight！

远光 84 官网

远光 84 项目组在大模型多模态上的实践

远光 84 项目组运用 AWS Bedrock + Claude2 的方案，迅速落地了多个 GenAI 应用场景，但主要的技术栈则只聚焦在 LLM 大模型对文本的处理，有一定的局限性，也限制了 GenAI 应用在项目组内的进一步拓展。除了文本之外，图片也广泛应用在各个业务系统中，对图片的智能处理，就成了下一阶段的探索方向。与此同时，Anthropic 也适时地推出了多模态大模型 Claude3。项目组利用 Claude3 对图片的强大处理能力，快速在多个业务场景实现了 GenAI 落地，并实现了生产效率的显著提升。

Anthropic 推出的新一代大模型 Claude3 具有以下主要特点：

针对不同使用场景进行了优化，推出了三种变体：Haiku（快速且高性价比）、Sonnet（平衡智能和速度）和 Opus（最先进和强大）。
在数学、编程和科学推理等基准测试中表现优异，超越了现有模型。
具备强大的视觉理解能力，可以处理图像、图表等多模态数据，有助于跨领域问题解决。
采用新技术显著减少了幻觉现象，使输出更加准确可靠，适合企业级应用。
通过 Amazon Bedrock 服务，可提供性能显著提升、准确性提高 2 倍、简单定制等优势。

总的来说，Claude3 模型系列在性能、准确性、多模态理解和企业级应用适用性等方面都有很大提升，是新一代生成式 AI 的代表作。

GenAI 在运维检测场景的技术实现

项目组基于 Prometheus 和 Grafana，搭建了一套完整的运维监控系统，包括产品、业务、网络等指标。在日常工作中，除了依靠在 Prometheus 上定义的监控告警外，还需要依赖人力做定期巡检，以期望发现系统潜在风险。而这类定期巡检操作，即简单又复杂。所谓简单，是仅需要工程师对各类图表进行查看；所谓复杂，则是图表内包含的丰富数据信息，以及个人对“潜在风险”的不同理解。随着业务规模不断扩大，这类巡检工作也会产生较大人力成本。为了降低此类人力成本，项目组利用 Claude3 对图片的处理能力，落地了基于 GenAI 的智能运维检测场景。

技术实现

该场景的主要技术实现，主要分为以下几个步骤：

通过 Text2API 技术，实现从自然语言到 API 调用的转换

对于巡检的内容和巡检目的，项目组利用 Text2API 技术（技术细节，请参考此篇博客），将自然语言转化为 API 调用。在该 API 调用中，会根据巡检内容组装出要访问的 Grafana Http URL。

利用 chromedp 组件，对该检查项进行截图操作

chromedp 是一套基于 go 语言的用于操作浏览器（支持 Chrome 开发者工具协议）的工具。该工具可以对浏览器进行点击、下载、仿真、截图、远程控制等操作。项目组则利用该工具对 Grafana Http URL 进行访问和截图。

截图代码示例：

调用 LLM 大模型，完成巡检工作

将 chromedp 生成的图片与巡检内容作为提示词，传递给大模型；大模型理解图片内容，并给出巡检结果。

主要问题

Claude3 对图片的处理能力比较强大，可以迅速阅读图片并形成反馈。但在具体业务场景中，我们也发现了两类比较明显的问题：

图片复杂度

图片的清晰度、复杂度直接影响了大模型对图片内容的理解。为了提高准确率，建议在图片清晰度上要保持较高水平，同时也尽量控制图片的复杂度。针对特别复杂的场景，可以对图片进行一定切割，大模型对切割后的图片逐张进行处理。

图片中的数学处理

在运维场景中，图片大都包含数字信息，也需要对数据信息进行计算。我们发现直接让大模型对图片信息进行数学处理，会有一定的幻觉现象，示例如下：

巡检内容：

Human: 你是一个专业严谨的监控系统巡检员，负责对监控图表数据进行全面分析。

本次的分析任务是"图表中的单位是毫秒（ms），检查 DocumentDB 的每个实例的主从延迟是否正常？"，标准是：

每个实例的最大值不能大于 50.0ms

请根据图表和标准分析出结论，结论包括：通过/不通过和结论依据，结论依据必须按照图表中的数据来判定！！！

最终结果只输出可格式化的 JSON 字符串内容！！！无需输出其他内容！！！JSON字符串格式必须为: {"pass":true,"reason":"xxxx"}。

Assistant:

巡检图片：

大模型返回结果：

{"pass":false,"reason":"根据图表数据显示，实例 xxxxxx -mongodb-global2 的最大主从延迟值为 36.0ms，大于标准值 50.0ms，因此判定不通过。"}

尽管大模型已经读取到最大延迟为 36ms，但还是进行了错误判断，认为大于标准值 50ms，出现模型幻觉。

优化方案

项目组经过多种方式调试后，最终的优化方案为：两次调用大模型。

第一次调用，将图片传给大模型，但不指派巡检任务，只让大模型将图片中的数字信息提取出来。

第二次调用，将提取的数字信息和巡检任务，一起提交给大模型；凭借大模型的记忆能力，综合图片信息、数字信息和巡检任务，进行数学处理后，输出结果。

通过这种优化，对需要进行数字信息提取并处理，再进行逻辑思考的场景，我们得到了比较高的准确率，效果如下：

业务场景优势与拓展

随着我们对运维巡检场景的优化，项目组迅速将每周人力巡检任务升级为每天的智能巡检，目前一共有 50 多个任务，涵盖了产品、业务、网络等全系统核心指标。由大模型替代人力巡检，人力成本的节省是显而易见的。除了节省人力，智能巡检还在以下 4 个方面有突出优势：

提高巡检频次，降低系统潜在风险

将每周人力巡检任务升级为每天的智能巡检,甚至可以在更短周期内进行巡检，提高了发现潜在风险的概率，让整个系统运行更趋稳定。

巡检标准统一，消除个体差异

因为整个巡检任务涉及底层资源、各类产品、各细分业务以及玩家网络状态，以往都是安排多位工程师完成这几类检查，但检查标准就因人而异，得到的结果也就会有所差别。现在智能巡检的方式，通过巡检脚本将检查标准固定，由大模型统一执行，使得巡检标准统一，消除个体差异，确保巡检结果的质量。

摆脱对特定工具告警功能的依赖

对于 Prometheus 和 Grafana 都有自带的告警功能，当某个指标超过阀值后，即自动触发告警并进行后续动作。但在实际业务中，项目组也广泛应用了其他的图表工具，而这些工具往往都不具备报警功能，限制了某些业务场景的自动告警。随着 GenAI 智能巡检的落地，就可以让大模型对这些图表进行理解，并根据提示词告知的巡检目的，进行告警判断。通过大模型的多模态特性，给传统图表工具附加了智能告警功能。

降低告警门槛

对于 Prometheus 和 Grafana 的告警功能，其实都有一定的学习门槛，需要占用很多时间进行参数与公式的配置；特别是在对接多家云厂商之后，各家云厂商各类指标的差异性，又带来了更多的学习成本。采用 GenAI 智能巡检后，可以通过提示词工程进行告警配置，降低了告警门槛。

业务场景持续拓展

完成运维系统智能巡检业务落地后，项目组对大模型的多模态特性有了进一步的理解，很快又在压测场景，进行了业务落地。

项目组每周会对游戏新版本进行压测，以确保新版本上线后运行稳定。对于本周内的代码改动，项目组会通过对比本次压测与上一次压测的结果，来判断新代码对业务的影响。以往都是通过人力去进行比对，往往耗时耗力，而且需要工程师有极大的耐心与细心。项目组利用大模型的多模态特性，将两次压测的结果都传给大模型，并让大模型对两张图片的差异进行对比分析，然后输出对比结果。整体效果如下：

通过大模型的多模态特性，我们非常迅速地升级了压测分析业务，从人力节省到分析精准度两方面，都获得了项目组的广泛好评。

经验总结

大语言模型的发展日新月异，我们必须秉承积极好奇的心态，才能不断探索出新的 GenAI 业务落地场景。利用 Claude3 大模型多模态的特性，项目组迅速落地了多个业务场景，实现了业务优化。

《远光 84》主程张星评语：“Claude3 带领我们开启了崭新的领域，为人力减负迈出了重要一步。就像 Claude2 曾在解决阅读理解方面给予我们帮助一样，这一次 Claude3 则解决了视觉理解的难题。通过将两者结合运用，我们成功地利用 AI 取代了实际工作中繁琐的视觉处理任务。这种方法不仅速度更快，而且准确性更高，为我们带来了巨大的效益！”

亚马逊AWS官方博客