机器学习 / Inferentia / HF BERT
在 AWS Inferentia 上部署 Hugging Face BERT
通过 Hugging Face BERT 推理以最低的成本获得最高性能
Hugging Face 是面向基于 BERT 的自然语言处理模型的主要存储库,这些模型是许多自然语言处理应用程序的共同基础。 随着越来越多的公司将 Hugging Face BERT 模型部署到生产环境中,他们面临着成本、性能和上市时间的挑战。由 AWS Inferentia 提供支持的 Amazon EC2 Inf1 实例专为深度学习推理而构建,非常适合 BERT 模型。
-
每次推理最多可节省 70% 的成本
对于许多自然语言处理应用程序(例如文本分类、语言翻译、情绪分析和对话式人工智能),Inf1 实例的推理成本比基于 GPU 的同类 EC2 实例最多降低 70%。
-
只需几行代码即可轻松部署
借助 Neuron SDK 中的 Hugging Face 模型支持,您只需几行代码,即可使用预训练的或微调的转换器模型轻松编译和运行推理。Inf1 实例支持热门机器学习框架,例如 PyTorch 和 TensorFlow。
-
吞吐量最多提高 2.3 倍
与基于 GPU 的同类 Amazon EC2 实例相比,Inf1 实例的吞吐量最多可提高 2.3 倍。Inf1 实例针对小批量的推理性能进行了优化,使实时应用程序能够更大限度地提升吞吐量并满足延迟要求。

Bert-Base 数字源自 Nvidia 性能页面 PyTorch 1.9,seq = 128,FP16
客户案例

Adevinta 发现,在部署 Hugging Face BERT 模型时,与最佳初始替代方案相比,AWS Inferentia 可以将预测延迟最多减少 92%,将成本降低 75%。“换句话说,这好比以 CPU 成本获得最佳的 GPU 功能。”

Amazon Advertising 发现,在 Inferentia 上运行 BERT 模型,可以将延迟减少 30%,将成本降低 71%。“……AWS Inferentia 的性能如此惊人,因此我实际上必须重新运行基准测试才能确保它们正确无误!”

Sprinklr 能够在 2 周内使用 Inf1 实例部署 [BERT] 模型。有了充足的资源和支持,它发现向 Inf1 的迁移很简单。“AWS 提供的支持帮助我们提高了客户满意度和员工工作效率。”