机器学习  /  Inferentia  /  HF BERT

在 AWS Inferentia 上部署 Hugging Face BERT

通过 Hugging Face BERT 推理以最低的成本获得最高性能

Hugging Face 是面向基于 BERT 的自然语言处理模型的主要存储库,这些模型是许多自然语言处理应用程序的共同基础。 随着越来越多的公司将 Hugging Face BERT 模型部署到生产环境中,他们面临着成本、性能和上市时间的挑战。由 AWS Inferentia 提供支持的 Amazon EC2 Inf1 实例专为深度学习推理而构建,非常适合 BERT 模型。

  • 对于许多自然语言处理应用程序(例如文本分类、语言翻译、情绪分析和对话式人工智能),Inf1 实例的推理成本比基于 GPU 的同类 EC2 实例最多降低 70%。

  • 借助 Neuron SDK 中的 Hugging Face 模型支持,您只需几行代码,即可使用预训练的或微调的转换器模型轻松编译和运行推理。Inf1 实例支持热门机器学习框架,例如 PyTorch 和 TensorFlow。

  • 与基于 GPU 的同类 Amazon EC2 实例相比,Inf1 实例的吞吐量最多可提高 2.3 倍。Inf1 实例针对小批量的推理性能进行了优化,使实时应用程序能够更大限度地提升吞吐量并满足延迟要求。

最高性能和最低成本推理

Bert-Base 数字源自 Nvidia 性能页面 PyTorch 1.9,seq = 128,FP16

客户案例

Adevinta 发现,在部署 Hugging Face BERT 模型时,与最佳初始替代方案相比,AWS Inferentia 可以将预测延迟最多减少 92%,将成本降低 75%。“换句话说,这好比以 CPU 成本获得最佳的 GPU 功能。”

Amazon Advertising 发现,在 Inferentia 上运行 BERT 模型,可以将延迟减少 30%,将成本降低 71%。“……AWS Inferentia 的性能如此惊人,因此我实际上必须重新运行基准测试才能确保它们正确无误!”

Sprinklr 能够在 2 周内使用 Inf1 实例部署 [BERT] 模型。有了充足的资源和支持,它发现向 Inf1 的迁移很简单。“AWS 提供的支持帮助我们提高了客户满意度和员工工作效率。”

入门很简单

Hugging Face 网络研讨会和博客

使用 AWS Inferentia(distilBERT)加速 BERT 推理。观看网络研讨会阅读博客

Amazon SageMaker 教程

将您自己的 Hugging Face 预训练 BERT 容器引入 SageMaker。查看教程笔记本

预训练 BERT 教程

通过 Hugging Face 编译和部署预训练 bert-base 版本。查看教程笔记本

使用 AWS Inferentia 节省推理成本

立即与 Inferentia 专家交谈