Amazon SageMaker HyperPod 客户

各种规模的顶级人工智能初创企业和组织都在 SageMaker HyperPod 上大规模训练和部署基础模型
  • Hugging Face

    Hugging Face 一直在使用 SageMaker HyperPod 创建重要的新型开放基础模型,例如 StarCoder、IDEFICS 和 Zephyr,这些模型的下载量已达数百万次。SageMaker HyperPod 专门构建的弹性和性能功能使我们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。我们特别喜欢 SageMaker HyperPod 的一点是,它能够检测 ML 硬件故障,并不中断正在进行的模型训练的情况下快速更换有故障的硬件。由于我们的团队需要快速创新,因此自动化作业恢复功能帮助我们最大限度地减少了基础模型训练过程中的中断,让我们在短短一年内节省了数百小时的训练时间。

    Hugging Face 的产品主管 Jeff Boudier
  • Perplexity AI

    我们一直在寻找合适的机器学习基础设施来提高生产力和降低成本,以便构建高性能的大型语言模型。在进行了几次成功的实验后,我们从其他云提供商转向 AWS,以便使用 Amazon SageMaker HyperPod。在过去的四个月里,我们一直在使用 HyperPod 构建和微调 LLM,为 Perplexity 对话式问答引擎 — 一个可以回答问题并以引文形式提供参考文献的引擎提供支持。由于 SageMaker HyperPod 会自动监控集群运行状况并修复 GPU 故障,因此我们的开发人员能够专注于模型构建,而不需要花时间管理和优化底层基础设施。SageMaker HyperPod 内置的数据和模型并行库帮助我们优化了 GPU 训练时间,并将训练吞吐量提高了一倍。因此,我们的训练实验现在可以以两倍的速度运行,这意味着我们的开发人员可以更快地进行迭代,从而加速为客户开发新的生成式人工智能体验。

    Perplexity AI 的联合创始人兼首席执行官 Aravind Srinivas
  • Articul8 AI

    Amazon SageMaker HyperPod 为我们提供了极大的帮助,让我们能够更高效地管理和运营计算资源,同时尽可能地减少停机时间。我们是基于 Slurm 的 HyperPod 服务的早期采用者,并受益于其易用性和弹性特性,使生产力提高了 35%,并快速扩大了我们的 GenAI 运营规模。作为一家以 Kubernetes 为核心的公司,我们很高兴地宣布,Amazon EKS 现已支持 SageMaker HyperPod。这对我们来说是一项颠覆性的技术,因为它与我们现有的训练流程无缝集成,使我们更容易管理和操作我们的大规模 Kubernetes 集群。此外,这也对我们的最终客户有帮助,因为我们现在能够将此功能打包并产品化到我们的 GenAI 平台中,使我们的客户能够以更简化的方式运行自己的训练和微调工作负载。

    Arun Subramaniyan,Articul8 AI 创始人兼首席执行官
  • Thomson Reuters

    阅读博客

    “我们能够使用 Amazon SageMaker HyperPod 满足大型语言模型的训练要求。通过在 SageMaker HyperPod 上使用 Amazon EKS,我们能够扩展容量并轻松运行训练作业,从而在法律摘要和分类等领域发挥 LLM 的优势。”

    John Duprey,Thomson Reuters 实验室杰出工程师

    30 多年来,Thomson Reuters 一直站在人工智能开发的最前沿,我们致力于提供有意义的解决方案,帮助我们的客户更快地交付结果,更好地获取可信信息。为了加速我们在生成式人工智能方面的创新,除了与 LLM 提供商合作外,我们还在探索如何利用我们独特的专有内容和人类专业知识来更有效地训练定制模型。SageMaker HyperPod 的分布式训练库能帮助我们提高大规模模型训练的性能,而且它的弹性功能可以帮助我们节省在基础设施监控和管理上花费的时间。在 SageMaker HyperPod 上训练我们的基础模型将加快我们的上市速度,并帮助我们快速为客户提供优质的解决方案。

    Thomson Reuters 的人工智能和实验室负责人 Joel Hron
  • Stability AI

    作为领先的开源生成式人工智能公司,我们的目标是最大限度地提高现代人工智能的可访问性。我们正在构建具有数百亿个参数的基础模型,而这需要能够扩展优化训练性能的基础设施。借助 SageMaker HyperPod 的托管基础设施和优化库,我们可以将训练时间和成本减少 50% 以上。它使我们的模型训练更具弹性和性能,可以更快地构建最先进的模型。

    Stability AI 的创始人兼首席执行官 Emad Mostaque
  • Observea

    作为一家快速发展的初创企业和人工智能研究公司,SageMaker HyperPod 对 Amazon EKS 的支持对于加快我们的产品上市起到了重要作用。借助 SageMaker Hyperpod,我们成功推出了一个稳定且安全的平台,提供容器化的高性能计算(HPC)应用程序,作为面向我们的最终客户的服务,这些最终客户包括顶尖大学的人工智能研究项目、人工智能初创企业和传统企业。通过使用 SageMaker HyperPod,我们的客户和内部团队不再需要为 Kubernetes 控制面板的操作和配置而担心,并且 SageMaker HyperPod 提供支持复杂 HPC 工作负载的网络性能和优化配置。借助 SageMaker HyperPod 中的 EKS 支持,我们可以减少在基础设施管理中进行千篇一律的繁重工作所花费的时间,并将运营成本降低 30% 以上。

    Vamsi Pandari,Observea 创始人
  • Recursal AI

    整个过程得到了简化。通过使用 SageMaker HyperPod,我们可以利用集群弹性功能,在硬件出现故障时识别问题并自动从上次保存的检查点恢复训练作业。我们以 Kubernetes 为共同主线运行非常多样化的工作负载,包括应用程序、推理和训练。对于我们来说,带有 SageMaker HyperPod 的 Amazon EKS 非常有效:节点会进入我们的集群。

    Recursal 的基础设施/数据主管 Nathan Wilce