Amazon SageMaker AI 推理服务现支持双向流式传输

发布于: 2025年11月25日

Amazon SageMaker AI 推理服务现已支持实时语音转文字转录的双向流式传输功能,让系统能够持续处理语音,而不再依赖批量输入。如今,模型能在用户说话时同步接收音频流并返回部分转录结果,从而帮助您构建能延迟极低的语音代理,高效处理语音信息。

在构建人工智能语音代理时,客户需要利用实时语音转录最大限度缩短用户说话与代理响应之间的延迟。数据科学家和机器学习工程师缺乏用于双向流式传输的托管式基础设施,因此不得不构建自定义 WebSocket 实现并管理流式传输协议。团队往往需要花费数周时间来开发和维护这类基础设施,而无法专注于提升模型准确性和代理能力。借助 Amazon SageMaker AI 推理服务的双向流式传输功能,您只需通过新的双向流式传输 API 调用端点,即可部署语音转文本模型。客户端会与 SageMaker AI 运行时建立 HTTP2 连接,然后 SageMaker AI 会自动与您的容器建立 WebSocket 连接。这使得系统能够处理流式音频帧,并在转录结果生成后实时返回部分内容。任何按照 SageMaker AI 协议实现 WebSocket 处理程序的容器均可自动运行,而像 Deepgram 这样的实时语音模型无需修改即可运行。这省去了数月的基础设施开发工作,让您能够部署具备持续转录功能的语音代理,并将更多时间投入到模型性能优化上。

双向流式传输功能已在以下 AWS 区域上线:加拿大(中部)、南美洲(圣保罗)、非洲(开普敦)、欧洲地区(巴黎)、亚太地区(海得拉巴)、亚太地区(雅加达)、以色列(特拉维夫)、欧洲(苏黎世)、亚太地区(东京)、AWS GovCloud(美国西部)、AWS GovCloud(美国东部)、亚太地区(孟买)、中东(巴林)、美国西部(俄勒冈州)、中国(宁夏)、美国西部(北加利福尼亚)、亚太地区(悉尼)、欧洲地区(伦敦)、亚太地区(首尔)、美国东部(弗吉尼亚州北部)、亚太地区(香港)、美国东部(俄亥俄州)、中国(北京)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、中东(阿拉伯联合酋长国)、亚太地区(大阪)、亚太地区(墨尔本)、欧洲(西班牙)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(新加坡)。

如需了解更多信息,请单击此处查看 AWS 新闻博客,并单击此处查看 SageMaker AI 文档。