Amazon SageMaker HyperPod 客户
各种规模的顶级人工智能初创企业和组织都在 SageMaker HyperPod 上大规模训练和部署基础模型
Hugging Face
Hugging Face 利用 SageMaker HyperPod 创建了诸如 StarCoder、IDEFICS 和 Zephyr 等新型开源基础模型。SageMaker HyperPod 专门构建的弹性和性能功能使他们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。
Perplexity AI
Perplexity 构建并微调了为其对话式回答引擎提供支持的大型语言模型,该引擎在回答问题时会附上以引用形式提供的参考资料。借助 SageMaker HyperPod,它们能够将模型训练速度提高 40%,并且实验运行速度也提升了一倍。
Coastal Carbon
EvolutionaryScale
Writer
Writer 正在开创大型语言模型发展的新纪元。他们利用 HyperPod 对其行业领先的模型进行了训练,从而实现了更快的模型训练速度、更低的延迟以及经过优化的人工智能性能。
Hugging Face
Hugging Face 一直在使用 SageMaker HyperPod 创建重要的新型开放基础模型,例如 StarCoder、IDEFICS 和 Zephyr,这些模型的下载量已达数百万次。SageMaker HyperPod 专门构建的弹性和性能功能使我们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。我们特别喜欢 SageMaker HyperPod 的一点是,它能够检测机器学习硬件故障,并不中断正在进行的模型训练的情况下快速更换有故障的硬件。由于我们的团队需要快速创新,因此自动化作业恢复功能帮助我们最大限度地减少了基础模型训练过程中的中断,让我们在短短一年内节省了数百小时的训练时间。
Hugging Face 的产品主管 Jeff Boudier

Perplexity AI
我们一直在寻找合适的机器学习基础设施来提高生产力和降低成本,以便构建高性能的大型语言模型。在进行了几次成功的实验后,我们从其他云提供商转向 AWS,以便使用 Amazon SageMaker HyperPod。在过去的四个月里,我们一直在使用 HyperPod 构建和微调 LLM,为 Perplexity 对话式问答引擎 — 一个可以回答问题并以引文形式提供参考文献的引擎提供支持。由于 SageMaker HyperPod 会自动监控集群运行状况并修复 GPU 故障,因此我们的开发人员能够专注于模型构建,而不需要花时间管理和优化底层基础设施。SageMaker HyperPod 内置的数据和模型并行库帮助我们优化了 GPU 训练时间,并将训练吞吐量提高了一倍。因此,我们的训练实验现在可以以两倍的速度运行,这意味着我们的开发人员可以更快地进行迭代,从而加速为客户开发新的生成式人工智能体验。
Perplexity AI 的联合创始人兼首席执行官 Aravind Srinivas

Articul8 AI
Amazon SageMaker HyperPod 为我们提供了极大的帮助,让我们能够更高效地管理和运营计算资源,同时尽可能地减少停机时间。我们是基于 Slurm 的 HyperPod 服务的早期采用者,并受益于其易用性和弹性特性,使生产力提高了 35%,并快速扩大了我们的生成式人工智能运营规模。作为一家以 Kubernetes 为核心的公司,我们很高兴地宣布,Amazon EKS 现已支持 SageMaker HyperPod。这对我们来说是一项颠覆性的技术,因为它与我们现有的训练流程无缝集成,使我们更容易管理和操作我们的大规模 Kubernetes 集群。此外,这也对我们的最终客户有帮助,因为我们现在能够将此功能打包并产品化到我们的生成式人工智能平台中,使我们的客户能够以更简化的方式运行自己的训练和微调工作负载。
Articul8 AI 的创始人兼首席执行官 Arun Subramaniyan

Thomson Reuters
30 多年来,Thomson Reuters 一直站在人工智能开发的最前沿,我们致力于提供有意义的解决方案,帮助我们的客户更快地交付结果,更好地获取可信信息。为了加速我们在生成式人工智能方面的创新,除了与 LLM 提供商合作外,我们还在探索如何利用我们独特的专有内容和人类专业知识来更高效地训练自定义模型。SageMaker HyperPod 的分布式训练库能帮助我们提高大规模模型训练的性能,而且它的弹性功能可以帮助我们节省在基础设施监控和管理上花费的时间。在 SageMaker HyperPod 上训练我们的基础模型将加快我们的上市速度,并帮助我们快速为客户提供优质的解决方案。
Thomson Reuters 的人工智能和实验室负责人 Joel Hron 和 Thomson Reuters Labs 的杰出工程师 John Duprey

Stability AI
作为领先的开源生成式人工智能公司,我们的目标是最大限度地提高现代人工智能的可访问性。我们正在构建具有数百亿个参数的基础模型,而这需要能够扩展优化训练性能的基础设施。借助 SageMaker HyperPod 的托管基础设施和优化库,我们可以将训练时间和成本减少 50% 以上。它使我们的模型训练更具弹性和性能,可以更快地构建最先进的模型。
Stability AI 的创始人兼首席执行官 Emad Mostaque

Recursal AI
整个过程得到了简化。通过使用 SageMaker HyperPod,我们可以利用集群弹性功能,在硬件出现故障时识别问题并自动从上次保存的检查点恢复训练作业。我们以 Kubernetes 为共同主线运行非常多样化的工作负载,包括应用程序、推理和训练。对于我们来说,带有 SageMaker HyperPod 的 Amazon EKS 非常有效:节点会进入我们的集群。
Recursal 的基础设施/数据主管 Nathan Wilce

Hippocratic AI
Hippocratic AI 是一家人工智能公司,开发了医疗保健行业首个以安全为重点的大型语言模型(LLM)。为了训练主要的 LLM 和监管模型,Hippocratic AI 需要强大的计算资源。然而,这种资源的需求量本就很大,难以获得。Amazon SageMaker HyperPod 灵活的训练计划让该公司能够更轻松地访问 Amazon Elastic Compute Cloud(Amazon EC2)P5 实例。Hippocratic AI 还利用 Grafana 等 AWS 服务来跟踪重要的 GPU 利用率指标。使用 Amazon EC2 P5 实例,Hippocratic AI 将模型训练速度提高了四倍,并扩展了他们的解决方案,以便满足数百个使用案例的需求。该实例帮助他们获得所需的计算资源并快速训练模型。

NinjaTech
NinjaTech AI 是一家生成式人工智能公司,提供一体化的 SuperAgent 来实现无限的生产力。SuperAgent 使用 Amazon SageMaker HyperPod 灵活的训练计划来加速包括 Llama 3.1 405B 模型在内的多种内部模型的微调工作,降低了模型训练成本,也实现了流程自动化。该公司旨在为想要使用由其 SuperAgent 技术支持的各种人工智能座席的用户提供无缝体验。为了实现这一目标,他们需要一个能够自动预测用户意图并判断最适合意图的人工智能座席的模型。这种机制需要通过反复整合客户反馈和新功能来频繁更新模型,每轮 LoRA 微调时都涉及 1000 万至 1 亿个令牌。对于一家初创企业来说,获取和运营高性能计算资源具有挑战性,因为它面临高昂的成本和严峻的带宽问题。在涉及快速网络和快速存储以及加速计算的多节点集群中,这种情况更加严重。此外,训练过程非常耗时,涉及了模型下载、分布式训练、检查点、监控、自动修复、合并和量化等步骤。HyperPod 灵活的训练计划在训练开展之前为该公司提供了可靠且实惠的计算资源,既满足了公司具体的计算和时间要求,又保障了高效的模型训练。

OpenBabylon
OpenBabylon 是一家为代表性不足的语言自定义大型语言模型的人工智能公司。该公司的开发人员和数据科学家数月来一直在使用 SageMaker HyperPod 灵活的训练计划,简化了他们对 GPU 资源的访问,便于开展大规模实验。他们使用多节点 SageMaker HyperPod 的分布式训练功能,进行了 100 次大型模型训练实验,在英语到乌克兰语的翻译方面取得了领先结果。该公司按时且经济高效地实现了此项突破性成果,证明了 SageMaker HyperPod 能够按时、按预算成功交付复杂项目。

Salesforce
Salesforce 的研究人员当时正在寻找无需担心基础设施,也不必耗费数周时间针对每个新模型优化训练堆栈,就能快速开始基础模型训练和微调的方法。借助 Amazon SageMaker HyperPod 配方,Salesforce 的研究人员可以在自定义基础模型时快速进行原型设计。现在,Salesforce 的人工智能研究团队能够在几分钟内通过各种预训练和微调配方开始工作,也能够以高性能运行前沿模型。

H.AI
“借助 Amazon SageMaker HyperPod,我们利用相同的高性能计算构建并部署了我们的代理式人工智能平台背后的基础模型。这种从训练到推理的无缝过渡简化了我们的工作流,缩短了生产周期,并确保了在实际运行环境中性能稳定一致。HyperPod 帮助我们以更快速、更高效的方式从试验阶段直接过渡到实际应用阶段。”
H.AI 的联合创始人兼首席技术官 Laurent Sifre

Datology AI
“我们非常高兴能够使用 Amazon SageMaker HyperPod 的一键式可观测性解决方案。我们的高级管理人员需要了解我们如何利用这些昂贵的 GPU 资源。预构建的 Grafana 控制面板将完全满足我们的需求,让我们能够即时了解关键指标 – 从任务特定的 GPU 利用率到文件系统(FSx for Lustre)的性能指标 – 而无需我们维护任何监控基础设施。作为一个深知 Prometheus 查询语言强大之处的人,我十分欣赏这样一个事实:我可以自行编写查询语句,并对自定义指标进行分析,而无需担心基础设施方面的问题。”
Datology AI 的技术部门成员 Josh Wills

Amazon SageMaker HyperPod 合作伙伴
与拥有深厚技术知识和成熟客户成功经验的 AWS 合作伙伴一起推动创新并释放更大的商业价值
Accenture
“我们将扩大与 AWS 的合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。我们与 AWS 的合作将使我们能够引导客户实现最新的技术突破,同时帮助降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与我们在生成式人工智能项目中的经验相结合,我们可以帮助企业更快地实现生成式人工智能的价值,改善客户体验,并提高投资回报率。”
Accenture AWS Business Group 的全球负责人兼高级董事总经理 Jennifer Jackson

Slalom
“我们很高兴能与 AWS 合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。通过与 AWS 合作,我们现在可以帮助客户快速采用最新的技术进步,并降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与 Slalom 广泛的人工智能和云体验相结合,我们可以提供卓越的客户体验,同时提高投资回报率。”
Slalom Amazon 的卓越中心(CoE)董事总经理 Jeff Kempiners

Rackspace Technology
“我们很高兴能与 AWS 合作,成为 SageMaker HyperPod 任务治理的启动合作伙伴。通过合作,我们可以帮助客户降低生成式人工智能应用的成本,同时紧跟最新的技术进步。通过将 SageMaker HyperPod 的集中治理功能与 Rackspace 深厚的人工智能和云专业知识相结合,我们可以改变客户体验,同时提高客户的投资回报率。”
Rackspace Technology 的人工智能、技术和可持续性总裁 Srini Koushik

找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。