跳至主要内容
2025 年

WRITER 使用 Amazon SageMaker HyperPod 扩展分布式人工智能模型训练

了解生成式人工智能公司 WRITER 如何使用 AWS 专用基础设施加速基础模型开发。

优势

3 倍

将模型迭代周期缩短了

90%

将训练管道故障减少了

0

工作负载分配手动干预为

概览

WRITER 提供一体化解决方案,可帮助企业将生成式人工智能整合到其工作流程中。该公司的基础模型(FM)变得越来越复杂,计算要求也越来越高。因此亟需一种解决方案,既能大规模处理分布式训练,又无需让研究团队担负基础设施管理。
使用 Amazon Web Services(AWS)基础设施,WRITER 转变了其训练大语言模型(LLM)的方法。该公司迁移到了支持无缝多节点分布式训练的 AWS 托管解决方案。此次迁移使 WRITER 的研究团队能够专注于模型开发,同时提升行业基准的性能。

关于 WRITER

WRITER 是一家一体化生成式人工智能公司,致力于为企业客户开发最先进的基础模型。其产品包括通用模型(例如 Palmyra X5)和特定于领域的模型,用于金融、医疗保健和创意用途。

商机 | 在企业级别扩展分布式训练

WRITER 成立于 2020 年,是一家生成式人工智能公司,自主研发并维护名为 Palmyra 系列的基础模型。该公司拥有一系列企业级模型,包括最新推出的 Palmyra X5 模型。该模型提供巨大的上下文大小,可以在大约 20 秒内处理 100 万个令牌。WRITER 还提供三个特定于领域的模型:Palmyra Med(适用于医疗保健)、Palmyra Fin(适用于金融服务)和 Palmyra Creative(适用于需要多样化响应的创意专业人士)。

随着其基础模型规模和复杂性的增加,WRITER 面临多重挑战。现代大语言模型已超出单节点承载能力,需要先进的功能来进行具有高性能 GPU 间通信的多节点分布式训练。此外,在大规模训练操作中硬件故障不可避免,WRITER 的研究团队将宝贵的时间花费在管理基础设施问题上,而不是专注于模型开发和创新。

为了克服这些限制,WRITER 使用了Amazon SageMaker HyperPod,可省去构建生成式人工智能模型所涉及的千篇一律的繁重工作。该服务针对分布式训练的托管方法鼓励 WRITER 最大限度地降低基础设施管理开销,同时受益于自动恢复功能和强大的多节点通信功能。

解决方案 | 使用 Amazon SageMaker HyperPod 简化模型训练

WRITER 从以前的基础设施迁移到了基于 SageMaker HyperPod 的托管解决方案,为大规模训练日益复杂的 Palmyra 模型奠定了基础。该实施以 Amazon Elastic Compute Cloud(Amazon EC2)P5 实例为中心,特别是 P5en 实例,这是基于 GPU 的高性能实例,用于深度学习和高性能计算(HPC)应用程序。这些实例支持通过 Elastic Fabric Adapter(EFA,用于大规模运行 HPC 和机器学习应用程序)促进分布式训练必不可少的高性能节点间通信。

WRITER 的联合创始人兼首席技术官 Waseem Alshikh 表示:“我们广泛依赖 SageMaker HyperPod 集群来训练我们的 Palmyra 模型和开展大规模的分布式训练作业。”“事实证明,该基础设施展现出卓越的弹性和高性能,尤其是配备 NVIDIA H200 GPU 的集群 P5en 实例,显著加速了我们的多节点训练工作流程。”

该团队使用 SageMaker HyperPod 中基于 Slurm 的作业调度系统来管理训练工作负载,同时将基于 PyTorch 的现有训练管道整合到 DeepSpeed 等开源库中。WRITER 还将 SageMaker HyperPod 与适用于 Lustre 的 Amazon FSx 配对使用,后者是一项完全托管的服务,可提供高性能、经济高效且可扩展的存储。通过这种方式,该公司实现了大规模训练数据集所需要的高吞吐量文件 I/O 性能。

事实证明,SageMaker HyperPod 的托管性质转变了 WRITER 的运营模式,减轻了以前耗费研究团队时间的基础设施管理负担。发生硬件故障时,SageMaker HyperPod 中的自动恢复系统无需手动干预即可维持训练连续性。

Alshikh 表示:“当我们遇到基础设施挑战时,SageMaker HyperPod 团队就会迅速响应并提供必要的支持,确保我们的项目按计划推进。”“SageMaker HyperPod 的功能,例如强大的编排、自动化运行状况检查和无缝的作业恢复,使我们能够专注于推进模型开发,而无需担忧集群管理。”

成果 | 通过强大的人工智能基础设施加速创新

在此实施后,WRITER 将其模型迭代周期缩短了三倍,将训练管道故障减少了 90%,并且消除了工作负载分配中的手动干预。该公司的研究团队从 6 人增加到 15 人,现在可以将其专业知识完全用于模型创新,而不是基础设施故障排除。借助由 EFA 提供支持的实例实现的可靠多节点通信增强了分布式训练的性能。这些优势使 WRITER 能够保持其在基础模型开发领域的领先地位,并保持其 Palmyra 模型在行业基准和排行榜上的优异表现。

 

WRITER 继续使用其新基础设施来突破企业人工智能的可能性界限。该公司与 AWS 的技术团队保持密切合作,得以快速采用新兴技术和硬件升级。WRITER 还与 AWS 团队达成新合作,现在通过 Amazon Bedrock 提供 Palmyra 模型,Amazon Bedrock 是一项完全托管的服务,提供来自领先人工智能公司的高性能基础模型选项。在此基础上,WRITER 可以专注于自己最擅长的事情:构建可转变企业运营方式的突破性人工智能解决方案。

Missing alt text value
SageMaker HyperPod 的功能,例如强大的编排、自动化运行状况检查和无缝的作业恢复,使我们能够专注于推进模型开发,而无需担忧集群管理。

Waseem Alshikh

WRITER 的联合创始人兼首席技术官

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。