亚马逊AWS官方博客

Category: AWS Inferentia

大多数 Alexa 现在在更快、更经济高效的 Amazon EC2 Inf1 实例上运行

今天,我们宣布,Amazon Alexa 团队已将绝大多数基于 GPU 的机器学习推理工作负载迁移到由 AWS Inferentia 提供支持的 Amazon Elastic Compute Cloud (EC2) Inf1 实例。这样一来,执行 Alexa 的文本到语音转换工作负载时,与基于 GPU 的实例相比,端到端延迟降低了 25%,成本降低了 30%。较低的延迟使 Alexa 工程师能够利用更复杂的算法进行创新,并改善客户的整体 Alexa 体验。