AWS Inferentia

在 Amazon EC2 中以最低的成本获得深度学习和生成式人工智能推理所需的高性能

为什么选择 Inferentia?

AWS Inferentia 芯片由 AWS 设计,旨在以最低的成本在 Amazon EC2 中为您的深度学习(DL)和生成式人工智能推理应用程序提供高性能。 

第一代 AWS Inferentia 芯片为 Amazon Elastic Compute Cloud(Amazon EC2)Inf1 实例提供支持,与同类 Amazon EC2 实例相比,该实例的吞吐量可提高多达 2.3 倍,每次推理的成本可降低多达 70%。许多客户,包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa,都采用了 Inf1 实例并实现了其性能和成本优势。

与 Inferentia 相比,AWS Inferentia2 芯片的吞吐量提高了 4 倍,延迟低至前者的 1/10。基于 Inferentia2 的 Amazon EC2 Inf2 实例经过优化,可以大规模部署日益复杂的模型,例如大型语言模型(LLM)和潜在扩散模型。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过芯片之间的超高速连接支持横向扩展分布式推理。包括 Leonardo.ai、德国电信和 Qualtrics 在内许多客户已在其深度学习和生成式人工智能应用程序中采用了 Inf2 实例。 

AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 芯片上部署模型,并且可以在 AWS Trainium 芯片上训练它们。 它与 PyTorch 和 TensorFlow 等热门框架原生集成,让您可以继续使用现有的代码和工作流程,并且在 Inferentia 芯片上运行。

Video Player is loading.
Current Time 0:00
Duration 47:16
Loaded: 0.00%
Stream Type LIVE
Remaining Time 47:16
 
1x
    • Chapters
    • descriptions off, selected

      AWS Inferentia 的好处

      视频

      探秘 Amazon 的生成式人工智能基础设施
      介绍由 AWS Inferentia2 提供支持的 Amazon EC2 Inf2 实例
      四位 AWS 客户如何使用 AWS Inferentia 降低 ML 成本并推动创新