AWS Inferentia | 亚马逊AWS官方博客

Category: AWS Inferentia

大多数 Alexa 现在在更快、更经济高效的 Amazon EC2 Inf1 实例上运行

今天，我们宣布，Amazon Alexa 团队已将绝大多数基于 GPU 的机器学习推理工作负载迁移到由 AWS Inferentia 提供支持的 Amazon Elastic Compute Cloud (EC2) Inf1 实例。这样一来，执行 Alexa 的文本到语音转换工作负载时，与基于 GPU 的实例相比，端到端延迟降低了 25%，成本降低了 30%。较低的延迟使 Alexa 工程师能够利用更复杂的算法进行创新，并改善客户的整体 Alexa 体验。