亚马逊AWS官方博客

活用 CloudWatch 创建监控、告警为业务保驾护航

当谈及业务连续性时,监控与告警功能在云计算环境中扮演着不可或缺的角色。随着企业在云端部署的增加,对于系统和应用程序的稳定性、性能以及安全性的需求也变得日益重要。监控的核心在于实时追踪和评估系统的健康状态和运行情况,这对于识别潜在问题、预测性能瓶颈以及防范可能的故障至关重要。而告警则是监控的补充,它通过设定阈值或规则,一旦系统状态异常或超出预期范围,即时通知相关人员或团队,使其能够及时采取行动以避免或最小化潜在的影响。

使用 AWS Trainium 加速芯片进行 Llama 2 继续预训练

本文介绍了如何使用亚马逊云科技的 Trainium 芯片对 Llama 2 大型语言模型进行继续预训练。通过与亚马逊云科技合作,通联数据在自有数据上对 Llama2 进行了预训练,取得了良好效果。本文详细描述了使用 AWS ParallelCluster 集群进行训练的步骤,包括集群准备、模型转换、数据处理、训练脚本修改和任务提交等。同时,提供了训练过程中可能遇到问题的定位方法。

基于大语言模型知识问答应用落地实践 – 使用 TruLens 做自动化 RAG 项目评估测试

我们 【基于大语言模型知识问答应用落地实践】 系列博客前 4 篇已经介绍了知识库构建和召回调优方面的实践经验,随着 RAG 项目的逐渐丰富和成熟,越来越多的工作会深入到各种细节的打磨,例如 Prompt 模板调优,更换更新的模型,各类阈值或者参数的调整等。 本篇将介绍如何用 TruLens 框架,一种简单的,系统化的方法来评估 LLM 应用的衡量性能和质量指标,做自动化 RAG 项目评估测试,以及跟踪每次迭代后指标的改善情况。