Amazon EC2 Trn2 实例和 UltraServers

最强大的 EC2 计算,用于生成式人工智能训练和推理

为何选择 Amazon EC2 Trn2 实例和 UltraServers?

Amazon EC2 Trn2 实例由 16 个 AWS Trainium2 芯片提供支持,专为生成式人工智能而构建,是用于训练和部署具有数千亿至数万亿参数的模型的功能强大的 EC2 实例。与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比高出 30-40%。借助 Trn2 实例,您可以获得先进的训练和推理性能,同时降低成本,从而缩短训练时间,加快迭代速度,并提供基于人工智能的实时体验。您可以使用 Trn2 实例训练和部署模型,包括大型语言模型(LLM)、多模态模型和扩散转换器,以构建下一代生成式人工智能应用程序。

为了缩短训练时间并为要求最严苛、最先进的模型提供突破性的响应时间(每分词延迟),您可能需要比单个实例所能提供的更多的计算和内存。Trn2 UltraServers 使用 NeuronLink(我们专有的芯片间互连技术)连接四个 Trn2 实例中的 64 个 Trainium2 芯片,将单个节点的计算、内存和网络带宽提高了四倍,在 AWS 上为深度学习和生成式人工智能工作负载提供了突破性的性能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。

Trn2 实例和 Trn2 UltraServers 原生支持 PyTorch 和 JAX 等常用的机器学习(ML)框架,您可以轻松上手。

Video Player is loading.
Current Time 0:00
Duration 1:24
Loaded: 0.00%
Stream Type LIVE
Remaining Time 1:24
 
1x
    • Chapters
    • descriptions off, selected

      优势

      功能

      客户和合作伙伴评价

      以下是客户和合作伙伴如何计划使用 Amazon EC2 Trn2 实例实现业务目标的一些示例。

      • Anthropic

        Anthropic 每天都有数百万人依靠 Claude 完成工作。我们宣布与 AWS 合作取得两项重大进展:首先是 Claude 3.5 Haiku 的新“延迟优化模式”,通过 Amazon Bedrock 在 Trainium2 上的运行速度提高了 60%。其次是 Rainier 项目,这是由数十万个 Trainium2 芯片组成的新集群,可提供数百个百亿亿次运算,是我们以前集群规模的五倍多。Rainier 项目将帮助推动我们的研究和下一代规模扩展。对于我们的客户而言,这意味着更智能、更低价和更快速。我们不仅要构建更快的人工智能,还要构建可扩展的可信赖人工智能。

        Anthropic 首席计算官 Tom Brown
      • Databricks

        借助 Databricks 的 Mosaic AI,组织能够构建和部署高质量的代理系统。它原生建立在数据湖仓之上,让客户能够轻松安全地使用企业数据自定义模型,并提供更准确的输出和特定领域的输出。得益于 Trainium 的高性能和经济高效,客户能够以低成本在 Mosaic AI 上扩展模型训练。随着全球所有客户群对 Mosaic AI 的需求不断扩大,Trainium2 的可用性将为 Databricks 及其客户带来重大益处。Databricks 是全球最大的数据和人工智能公司之一,其计划使用 TRN2 为其客户交付更好的结果,并将总拥有成本降低多达 30%。

        Databricks 生成式人工智能副总裁 Naveen Rao
      • poolside

        在 poolside,我们将建立由人工智能推动大多数具有经济价值的工作和科学进步的世界。我们相信,软件开发将是神经网络中第一个达到人类级智能的主要能力,因为在这个领域,我们可以完美结合搜索和学习方法。为实现这一点,我们正在构建基础模型、API 和助手,助力开发人员手动(或通过键盘)释放生成式人工智能的强大力量。启用这项技术的主要关键是我们用于构建和运行产品的基础设施。借助 AWS Trainium2,我们的客户将能够以与其他人工智能加速器不同的性价比扩展 poolside 的使用。此外,我们计划使用 Trainium2 UltraServers 训练未来的模型,与 EC2 P5 实例相比,预计可节省 40% 的成本。

        poolside 首席技术官兼联合创始人 Eiso Kant
      • Itaú Unibanco

        Itaü Unibanco 的目的是改善人与金钱的关系,对人们的生活产生积极影响,同时扩大转型机会。Itaü Unibanco 相信每位客户都是独一无二的,我们力争通过直观的数字化旅程满足客户的需求,利用人工智能的强大力量不断适应消费者习惯。

        我们已在各种任务中测试过 AWS Trainium 和 Inferentia,从标准推理到微调应用程序,不一而足。借助这些人工智能芯片的性能,我们得以在研发中实现重要的里程碑。对于批量和在线推理任务,与 GPU 相比,我们的吞吐量提高了 7 倍。性能的提升推动了更多使用案例在整个组织中的扩展。最新一代的 Trainium2 芯片为 GenAI 带来突破性的功能,为 Itau 的创新打开了大门。

        Itaü Unibanco 数据科学主管 Vitor Azeka
      • NinjaTech AI

        Ninja 是一款一体化人工智能代理,可提供无限的生产力:只需一次订阅,即可无限访问全世界优质的人工智能模型以及顶级人工智能技能,如写作、编码、头脑风暴、图像生成、在线研究。Ninja 是代理平台,提供“SuperAgent”服务,该服务使用代理混合,具有世界一流的准确性,可与前沿基础模型相媲美(在某些类别中甚至更胜一筹)。Ninja 的代理技术需要最高性能的加速器,以提供客户期望的独特实时体验。 

        AWS TRN2 的推出让我们兴奋不已,因为我们相信,它将为基于 Llama 3.1 405B 的核心模型 Ninja LLM 提供最佳的单位令牌成本性能和目前可能的最快速度。Trn2 的低延迟、极具竞争力的价格和按需可用性令人惊叹;我们对 Trn2 的到来感到无比兴奋!

        NinjaTech AI 创始人兼首席执行官 Babak Pahlavan
      • Ricoh

        RICOH 机器学习团队开发工作场所解决方案和数字化转型服务,旨在管理和优化企业解决方案中的信息流。

        迁移到 Trn1 实例简单又快捷。我们利用由 4096 个 Trainium 芯片组成的集群,仅用 8 天时间就可完成 130 亿参数 LLM 的预训练! 在我们的小型模型取得成功后,我们基于 Llama-3-Swallow-70B 对更大的新 LLM 进行微调,与使用 AWS 中最新的 GPU 计算机相比,利用 Trainium,我们的训练成本得以降低 50%,能效提高 25%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2,继续以最低成本为客户提供最佳性能。

        Ricoh 数字技术开发中心主任 Yoshiaki Umetsu
      • PyTorch

        我最喜欢 AWS Neuron NxD Inference 库的一点是它与 PyTorch 模型的无缝集成。NxD 的方法简单快捷,且对用户友好。我们的团队能够在很短的时间内以最小的代码改动上线 HuggingFace PyTorch 模型。启用连续批处理和推测解码等高级功能非常简单。这种易用性可提高开发人员的工作效率,让团队能够将更多精力放在创新上,减少对集成挑战的关注。

        Meta PyTorch 合作伙伴工程主管 Hamid Shojanazeri
      • Refact.ai

        Refact.ai 提供全面的人工智能工具,例如由检索增强生成(RAG)驱动的代码自动完成,以提供更准确的建议,以及使用专有和开源模型的上下文感知聊天。

        与 EC2 G5 实例相比,客户发现 EC2 Inf2 实例的性能可提高多达 20%,每美元令牌数可提升 1.5 倍。Refact.ai 的微调功能可进一步增强客户了解和适应组织独特代码库和环境的能力。我们也很高兴提供 Trainium2 的功能,这将为我们的工作流程带来更快、更高效的处理能力。这项先进的技术将帮助我们的客户提高开发人员的工作效率,同时保持代码库的严格安全标准,从而加快软件开发流程。

        Refact.ai 首席执行官兼创始人 Oleg Klimov
      • Karakuri Inc.

        KARAKURI 构建人工智能工具,以提高基于 Web 的客户支持效率并简化客户体验。这些工具包括配备生成式人工智能功能的人工智能聊天机器人、常见问题解答集中工具和电子邮件回复工具,所有这些都可以提高客户支持的效率和质量。利用 AWS Trainium,我们成功地训练了 KARAKURI LM 8x7B Chat v0.1。对我们这样的初创企业而言,我们需要优化构建时间以及训练 LLM 所需的成本。在 AWS Trainium 和 AWS 团队的支持下,我们能够在短时间内开发出实用级 LLM。此外,通过采用 AWS Inferentia,我们得以构建快速且经济高效的推理服务。我们对 Trainium2 充满信心,因为它将彻底改变我们的训练流程,将我们的训练时间缩短 2 倍,并将效率提升到新的高度!

        Karakuri Inc 联合创始人 Tomofumi Nakayama
      • Stockmark Inc.

        Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。Stockmark 的新数据分析和收集服务 Anews and SAT 是一项数据结构服务,通过组织存储在组织中的各种形式的信息,显著提高生成式人工智能的使用,它要求我们重新思考如何构建和部署模型,以支持这些产品。借助 256 个 Trainium 加速器,我们开发并发布了 stockmark-13b,这是一个具有 130 亿个参数的大型语言模型,在包含 2200 亿个令牌的日语语料库数据集上从头开始进行了预训练。Trn1 实例帮助我们将训练成本降低了 20%。利用 Trainium,我们成功开发出了一款 LLM,能够以前所未有的准确性和速度为专业人士解答关键业务问题。鉴于各公司在确保模型开发所需的充足计算资源方面普遍面临挑战,这一成就尤其值得一提。在见识过 Trn1 实例的惊人速度和成本降低后,我们很期待看到 Trainium2 将为我们的工作流程和客户带来的更多益处。

        Stockmark Inc. 首席技术官兼联合创始人 Kosuke Arima
      • Brave

        Brave 是一款独立的浏览器和搜索引擎,致力于将用户隐私和安全置于优先地位。我们拥有 7000 多万用户,提供行业领先的保护措施,让 Web 更安全、更方便用户使用。与其他放弃以用户为中心的平台不同,Brave 始终致力于将隐私、安全和便利性放在首位。主要功能包括拦截有害脚本和跟踪器、由 LLM 提供支持的人工智能辅助页面摘要、内置 VPN 服务等。我们不断努力提高搜索服务和人工智能模型的速度和成本效益。为了支持这一点,我们很高兴能够利用包括 Trainium2 在内的 AWS AI 芯片的最新功能以改善用户体验,因为我们可以扩展到每月处理数十亿个搜索查询。

        Brave Software 工程副总裁 Subu Sathyanarayana
      • Anyscale

        Anyscale 是研发 Ray 的公司,Ray 是一款人工智能计算引擎,可为企业的机器学习和生成式人工智能计划提供动力。借助由 RayTurbo 驱动的 Anyscale 统一人工智能平台,通过优化资源利用率,客户可将数据处理速度提高多达 4.5 倍,使用 LLM 进行批量推理的成本降低 10 倍,扩展速度加快 5 倍,迭代速度加快 12 倍,在线模型推理可节省 50% 的成本。

        Anyscale 致力于为企业提供最佳工具,使其能够高效、低成本地扩展人工智能工作负载。我们的 RayTurbo 运行时原生支持 AWS Trainium 和 Inferentia 芯片,因此我们的客户可以获得高性能、低成本的模型训练和服务选择。现在,我们很高兴能与 AWS 合作开发 Trainium2,为我们的客户带来快速创新的新机遇,并大规模提供高性能的变革性人工智能体验。

        Anyscale 联合创始人 Robert Nishihara
      • Datadog

        Datadog 是云应用程序的可观测性和安全平台,为客户提供 AWS Trainium 和 Inferentia 监控,以优化模型性能、提高效率和降低成本。Datadog 的集成提供对机器学习操作和底层芯片性能的全面可见性,从而能够主动解决问题和无缝扩展基础设施。我们很高兴能扩展与 AWS 的合作关系,推出 AWS Trainium2,帮助用户削减高达 50% 的人工智能基础设施成本,并提高模型训练和部署性能。

        Datadog 公司产品副总裁 Yrieix Garnier
      • Hugging Face

        Hugging Face 是面向人工智能构建者的领先开放平台,在 500 多万研究人员、数据科学家、机器学习工程师和软件开发人员组成的社区中共享 200 多万个模型、数据集和人工智能应用程序。在过去几年中,我们一直与 AWS 合作,通过 Optimum Neuron 开源库让开发人员更轻松地体验 AWS Inferentia 和 Trainium 在性能和成本效益方面的优势,这些开源库集成在 Hugging Face 推理端点中,现在又在我们新的 HUGS 自部署服务中进行了优化,可在 AWS Marketplace 上使用。随着 Trainium2 的推出,我们的用户将获得更高的性能,从而更快地开发和部署模型。

        Hugging Face 产品主管 Jeff Boudier
      • Lightning AI

        作为 PyTorch Lightning 和 Lightning Studios 的创建者,Lightning AI 为企业级人工智能提供最直观的一体化人工智能开发平台。Lightning 提供全代码、低代码和无代码工具,用于快速构建代理、人工智能应用程序和生成式人工智能解决方案,犹如闪电一般。该平台设计灵活,可利用超过 300 万开发人员社区的专业知识和支持,在您的云端或我们的云端无缝运行。

        Lightning 现在原生支持 AWS 人工智能芯片、Trainium 和 Inferentia,这些都集成在 Lightning Studios 以及 PyTorch Lightning、Fabric 和 LitServe 等开源工具中。这让用户能够无缝进行大规模预训练、微调和部署,以零切换开销优化成本、可用性和性能,并提高 AWS AI 芯片(包括最新一代 Trainium2 芯片)的性能和成本优势,从而以更低的成本提供更高的性能。

        Lightning AI 首席技术官 Luca Antiga
      • Domino Data Lab

        Domino 可跨环境协调处理所有数据科学项目,包括 AWS 上的基础设施、数据和服务,为 Amazon SageMaker 提供管理和协作功能,为企业的数据科学团队提供支持。Domino 可通过 AWS Marketplace 以 SaaS 或自主管理的形式提供。

        领先企业必须在技术复杂性、成本和治理之间取得平衡,掌握广泛的人工智能选择,以获得竞争优势。Domino 致力于为客户提供尖端技术。由于计算是许多突破性创新的瓶颈,我们很荣幸能够为客户提供 Trainium2,以便他们训练和部署具有更高性能、更低成本和更高能效的模型。

        Nick Elprin,Domino 数据实验室首席执行官兼联合创始人

      入门

      产品详细信息

      实例大小 在 EC2 UltraServer 中可用 Trainium2 芯片 加速器
      内存

      vCPU 内存
      (TB)
      实例存储(TB) 网络带宽(Tbps) EBS 带宽(Gbps)
      trn2.48xlarge 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80
      trn2u.48xlarge (预览版) 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80