跳至主要内容

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod 客户

各种规模的顶级人工智能初创企业和组织都在 SageMaker HyperPod 上大规模训练和部署基础模型

WRITER

借助 AWS 基础设施,WRITER 转换了其训练 LLM 方法。他们使用了 SageMaker HyperPod 来支持无缝的多节点分布式训练。它使 WRITER 的研究团队能够专注于模型开发,同时提升行业基准的性能。

Salesforce

Salesforce 的人工智能研究团队实现了训练基础设施的快速、大规模部署——将孤立的节点转变为 SageMaker HyperPod 中的高性能 GPU 架构。通过消除 DevOps 的相关开销,并提供开箱即用的高级训练堆栈方案,HyperPod 极大地加快了模型训练周期,以帮助 Salesforce 更快速地为客户提供创新服务。Amazon SageMaker HyperPod 中的无检查点训练将转变我们的 LLM 训练基础设施。这项技术能够在几分钟内实现故障恢复,且不会中断训练进程,也无需回退到检查点,从而让 Salesforce 的人工智能研究团队能够加快我们的工作负载并完善我们的路线图。弹性训练将使我们的工作负载能够自动扩展,以在有空闲的 GPU 可用时将其纳入使用范围,并能够无缝提供资源,这一切都不会中断开发流程。最重要的是,这将节省我们因手动调整作业以适应可用计算资源而花费的时间,而这些时间我们可以用来进行创新工作。

Luma AI

训练前沿的视觉人工智能模型需要巨大的计算能力和无缝基础设施。Luma AI 所使用的训练数据量是目前最大型 LLM 的 1000 倍,这需要一种先进的、可扩展的解决方案。SageMaker HyperPod 能提供所需的可靠性和高效性,确保 GPU、网络和存储能够完美协同运行。借助 HyperPod,人工智能开发者能够更快地训练复杂的模型、优化资源,并充满信心地将前沿的人工智能产品推向市场。

Amazon Nova

Amazon AGI 团队在 SageMaker HyperPod 上使用优化的基础设施、高速存储以及集成的监控和可观测性工具,对 Amazon Nova 基础模型进行了训练。SageMaker HyperPod 能够在大规模分布式集群中实现弹性、高效且可扩展的模型开发。

Hugging Face

Hugging Face 利用 SageMaker HyperPod 创建了诸如 StarCoder、IDEFICS 和 Zephyr 等新型开源基础模型。SageMaker HyperPod 专门构建的弹性和性能功能使他们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。

Perplexity AI

Perplexity 构建并微调了为其对话式回答引擎提供支持的大型语言模型,该引擎在回答问题时会附上以引用形式提供的参考资料。借助 SageMaker HyperPod,它们能够将模型训练速度提高 40%,并且实验运行速度也提升了一倍。

Articul8 AI

借助 HyperPod,Articul8 的工作效率提高了 35%,并且其生成式人工智能业务的规模也得到了扩大。借助 SageMaker HyperPod 中的自动任务优先级划分和资源分配功能,该公司显著提高了 GPU 利用率,更通过优化训练、微调和推理等任务,减少了空闲时间,加速了模型开发过程。借助 SageMaker HyperPod 的可观测性功能,他们现在只需一键即可部署指标收集和可视化系统,这为团队节省了原本需要花费数天进行的手动设置工作,并提升了集群可观测性工作流及洞察力。

Coastal Carbon

Coastal Carbon 正借助人工智能和云计算技术,推动环境保护事业实现革新。借助 SageMaker HyperPod,他们处理了数千 PB 的历史卫星数据,从而创建一个关于自然界的数字孪生体和基础模型。

EvolutionaryScale

EvolutionaryScale 是一家开创性的人工智能初创企业,它能让科学家们更好地理解、构想并生成蛋白质。借助 SageMaker HyperPod,他们对超过 20 亿个蛋白质序列进行了训练,从而突破了蛋白质工程和药物发现的极限。

Noetik

Noetik 是一家基于人工智能的生物技术公司,它利用 SageMaker HyperPod 来发现和开发癌症治疗方法。

Latent Labs

Latent Labs 转而采用 SageMaker HyperPod,以便能够跨数百个或数千个人工智能加速器组成的集群迅速扩展模型开发任务,例如训练、微调或推理(即利用模型根据新数据进行预测)。通过人工智能模型更精确、更轻松地生成和测试新的生物序列(如 DNA)的能力,将加快其在现实世界中的制造和部署进程。

TwelveLabs

TwelveLabs 正在转变企业与人工智能驱动的视频智能进行互动及使用它的方式。他们利用 SageMaker HyperPod 来更高效地训练和扩展其模型。凭借弹性和分布式训练基础设施,他们能够迅速启动 GPU 并尽快地训练模型。

Arcee AI

Arcee AI 开发了适应特定领域的小型语言模型(SLM),以帮助企业执行分析法律文件等专门任务。他们使用 SageMaker HyperPod 高效地将训练工作负载分布到多个 GPU 上,从而将模型训练时间缩短了 40%。

Intercom

在 Intercom,我们持续训练新模型以改进 Fin,能够将无检查点训练集成到我们的管道中让我们非常兴奋。这将彻底消除手动恢复检查点的必要。再结合弹性训练,我们将能以更低的架构成本,更快地对 Fin 实施改进。

Missing alt text value

Bayer

借助 SageMaker HyperPod,Bayer 在短短几个月内就完成了新 FM 的训练并将其投入使用。他们的科研团队现在能够处理海量生物医学成像数据,训练复杂的机器学习(ML)模型,并根据表型特征识别出有潜力的药物候选物。随着 Bayer 不断进行创新,他们与 AWS 的合作为更快速、更高效的药物研发铺平了道路。 

Bayer logo with a blue and green circular design and the word 'BAYER' arranged vertically and horizontally in the center.

Sony Honda Mobility

Sony Honda Mobility 正在使用 SageMaker HyperPod 在其 MLOps 管道中进行模型训练,以增强 AFEELA 智能驾驶功能。“HyperPod 的开箱即用型可观测性功能为我们提供了涵盖多个维度(集群、节点、任务等)的全面指标集。我们期待能够获得更深入的、预先配置好的运行状况和性能详情,并且能够进行任务级别的聚合。”

Motoi Kataoka,Sony Honda Mobility 网络服务开发部门的 MLOps 工程师

Missing alt text value

Thomson Reuters

30 多年来,Thomson Reuters 一直站在人工智能开发的最前沿,我们致力于提供有意义的解决方案,帮助我们的客户更快地交付结果,更好地获取可信信息。为了加速我们在生成式人工智能方面的创新,除了与 LLM 提供商合作外,我们还在探索如何利用我们独特的专有内容和人类专业知识来更高效地训练自定义模型。SageMaker HyperPod 的分布式训练库能帮助我们提高大规模模型训练的性能,而且它的弹性功能可以帮助我们节省在基础设施监控和管理上花费的时间。在 SageMaker HyperPod 上训练我们的基础模型将加快我们的上市速度,并帮助我们快速为客户提供优质的解决方案。

Thomson Reuters 的人工智能和实验室负责人 Joel Hron 和 Thomson Reuters Labs 的杰出工程师 John Duprey

Missing alt text value

Stability AI

作为领先的开源生成式人工智能公司,我们的目标是最大限度地提高现代人工智能的可访问性。我们正在构建具有数百亿个参数的基础模型,而这需要能够扩展优化训练性能的基础设施。借助 SageMaker HyperPod 的托管基础设施和优化库,我们可以将训练时间和成本减少 50% 以上。它使我们的模型训练更具弹性和性能,可以更快地构建最先进的模型。

Stability AI 的创始人兼首席执行官 Emad Mostaque

Missing alt text value

Recursal AI

整个过程得到了简化。通过使用 SageMaker HyperPod,我们可以利用集群弹性功能,在硬件出现故障时识别问题并自动从上次保存的检查点恢复训练作业。我们以 Kubernetes 为共同主线运行非常多样化的工作负载,包括应用程序、推理和训练。对于我们来说,带有 SageMaker HyperPod 的 Amazon EKS 非常有效:节点会进入我们的集群。

Recursal 的基础设施/数据主管 Nathan Wilce

Missing alt text value

Hippocratic AI

Hippocratic AI 是一家人工智能公司,开发了医疗保健行业首个以安全为重点的大语言模型(LLM)。为了训练主要的 LLM 和监管模型,Hippocratic AI 需要强大的计算资源。然而,这种资源的需求量本就很大,难以获得。Amazon SageMaker HyperPod 灵活的训练计划让该公司能够更轻松地访问 Amazon Elastic Compute Cloud(Amazon EC2)P5 实例。Hippocratic AI 还利用 Grafana 等 AWS 服务来跟踪重要的 GPU 利用率指标。使用 Amazon EC2 P5 实例,Hippocratic AI 将模型训练速度提高了四倍,并扩展了他们的解决方案,以便满足数百个使用案例的需求。该实例帮助他们获得所需的计算资源并快速训练模型。

Missing alt text value

NinjaTech

NinjaTech AI 是一家生成式人工智能公司,提供一体化的 SuperAgent 来实现无限的生产力。SuperAgent 使用 Amazon SageMaker HyperPod 灵活的训练计划来加速包括 Llama 3.1 405B 模型在内的多种内部模型的微调工作,降低了模型训练成本,也实现了流程自动化。该公司旨在为想要使用由其 SuperAgent 技术支持的各种人工智能代理的用户提供无缝体验。为了实现这一目标,他们需要一个能够自动预测用户意图并判断最适合意图的人工智能代理的模型。这种机制需要通过反复整合客户反馈和新功能来频繁更新模型,每轮 LoRA 微调时都涉及 1000 万至 1 亿个令牌。对于一家初创企业来说,获取和运营高性能计算资源具有挑战性,因为它面临高昂的成本和严峻的带宽问题。在涉及快速网络和快速存储以及加速计算的多节点集群中,这种情况更加严重。此外,训练过程非常耗时,涉及了模型下载、分布式训练、检查点、监控、自动修复、合并和量化等步骤。HyperPod 灵活的训练计划在训练开展之前为该公司提供了可靠且实惠的计算资源,既满足了公司具体的计算和时间要求,又保障了高效的模型训练。

Missing alt text value

OpenBabylon

OpenBabylon 是一家为代表性不足的语言自定义大型语言模型的人工智能公司。该公司的开发人员和数据科学家数月来一直在使用 SageMaker HyperPod 灵活的训练计划,简化了他们对 GPU 资源的访问,便于开展大规模实验。他们使用多节点 SageMaker HyperPod 的分布式训练功能,进行了 100 次大型模型训练实验,在英语到乌克兰语的翻译方面取得了领先结果。该公司按时且经济高效地实现了此项突破性成果,证明了 SageMaker HyperPod 能够按时、按预算成功交付复杂项目。

Missing alt text value

H.AI

“借助 Amazon SageMaker HyperPod,我们利用相同的高性能计算构建并部署了我们的代理式人工智能平台背后的基础模型。这种从训练到推理的无缝过渡简化了我们的工作流,缩短了生产周期,并确保了在实际运行环境中性能稳定一致。HyperPod 帮助我们以更快速、更高效的方式从试验阶段直接过渡到实际应用阶段。”

H.AI 的联合创始人兼首席技术官 Laurent Sifre

Missing alt text value

Datology AI

“我们非常高兴能够使用 Amazon SageMaker HyperPod 的一键式可观测性解决方案。我们的高级管理人员需要了解我们如何利用这些昂贵的 GPU 资源。预构建的 Grafana 控制面板将完全满足我们的需求,让我们能够即时了解关键指标 – 从任务特定的 GPU 利用率到文件系统(FSx for Lustre)的性能指标 – 而无需我们维护任何监控基础设施。作为一个深知 Prometheus 查询语言强大之处的人,我十分欣赏这样一个事实:我可以自行编写查询语句,并对自定义指标进行分析,而无需担心基础设施方面的问题。”

Datology AI 的技术部门成员 Josh Wills

Missing alt text value

Splash Music

“借助 SageMaker HyperPod 和 Trainium,我们的研究人员能够以与我们社区创造速度相同的速度进行实验。我们不仅在紧跟音乐潮流,而且还在引领潮流。”

Splash Music 首席技术官 Randeep Bhatia

Missing alt text value

Amazon SageMaker HyperPod 合作伙伴

与拥有深厚技术知识和成熟客户成功经验的 AWS 合作伙伴一起推动创新并释放更大的商业价值

Accenture

“我们将扩大与 AWS 的合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。我们与 AWS 的合作将使我们能够引导客户实现最新的技术突破,同时帮助降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与我们在生成式人工智能项目中的经验相结合,我们可以帮助企业更快地实现生成式人工智能的价值,改善客户体验,并提高投资回报率。”

Accenture AWS Business Group 的全球负责人兼高级董事总经理 Jennifer Jackson

Missing alt text value

Slalom

“我们很高兴能与 AWS 合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。通过与 AWS 合作,我们现在可以帮助客户快速采用最新的技术进步,并降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与 Slalom 广泛的人工智能和云体验相结合,我们可以提供卓越的客户体验,同时提高投资回报率。”

Slalom Amazon 的卓越中心(CoE)董事总经理 Jeff Kempiners

Missing alt text value

Rackspace Technology

“我们很高兴能与 AWS 合作,成为 SageMaker HyperPod 任务治理的启动合作伙伴。通过合作,我们可以帮助客户降低生成式人工智能应用的成本,同时紧跟最新的技术进步。通过将 SageMaker HyperPod 的集中治理功能与 Rackspace 深厚的人工智能和云专业知识相结合,我们可以改变客户体验,同时提高客户的投资回报率。”

Rackspace Technology 的人工智能、技术和可持续性总裁 Srini Koushik

Missing alt text value

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。