发布 AWS Inferentia：机器学习推理芯片

发布于: Nov 28, 2018

AWS Inferentia 是一个由 AWS 定制设计的机器学习推理芯片，旨在以极低成本交付高吞吐量、低延迟推理性能。AWS Inferentia 将支持 TensorFlow、Apache MXNet 和 PyTorch 深度学习框架以及使用 ONNX 格式的模型。

AWS Inferentia 提供数百 TOPS（每秒万亿次运算）推理吞吐量，以允许复杂模型能够进行快速预测。对于更复杂的性能需求，可以组合使用多个 AWS Inferentia 芯片来支持数千 TOPS 的吞吐量。

AWS Inferentia 可以与 Amazon SageMaker、Amazon EC2 和 Amazon Elastic Inference 一起使用。有关 AWS Inferentia 的更多信息，请参阅该网页。