在 AWS Inferentia 上部署 Hugging Face BERT

通过 Hugging Face BERT 推理以最低的成本获得最高性能

Hugging Face 是面向基于 BERT 的自然语言处理模型的主要存储库，这些模型是许多自然语言处理应用程序的共同基础。随着越来越多的公司将 Hugging Face BERT 模型部署到生产环境中，他们面临着成本、性能和上市时间的挑战。由 AWS Inferentia 提供支持的 Amazon EC2 Inf1 实例专为深度学习推理而构建，非常适合 BERT 模型。

每次推理最多可节省 70% 的成本

对于许多自然语言处理应用程序（例如文本分类、语言翻译、情绪分析和对话式人工智能），Inf1 实例的推理成本比基于 GPU 的同类 EC2 实例最多降低 70%。
只需几行代码即可轻松部署

借助 Neuron SDK 中的 Hugging Face 模型支持，您只需几行代码，即可使用预训练的或微调的转换器模型轻松编译和运行推理。Inf1 实例支持热门机器学习框架，例如 PyTorch 和 TensorFlow。
吞吐量最多提高 2.3 倍

与基于 GPU 的同类 Amazon EC2 实例相比，Inf1 实例的吞吐量最多可提高 2.3 倍。Inf1 实例针对小批量的推理性能进行了优化，使实时应用程序能够更大限度地提升吞吐量并满足延迟要求。