发布于: Sep 1, 2023

现在,当使用 SageMaker 实时推理来帮助您为各种生成式人工智能应用程序(例如聊天机器人、虚拟助手和音乐生成器)构建交互式体验时,客户可以持续将推理响应流式传输回客户端。

借助聊天机器人等交互式生成式人工智能应用程序,当聊天机器人正在响应时,您可以逐字阅读响应,无需等待完整的响应。对于此类应用程序,最大限度地减少首次推理响应的时间,对于创建具有交互感的体验尤其重要。以前,SageMaker 端点要等到完整的推理响应完成后才会响应客户端。在响应流中,会持续返回部分推理,直到完整的推理响应完成。 

此功能在提供了 SageMaker 的所有商业区域均可用。

有关如何使用响应流的更多详细信息以及示例,请参阅我们关于 API 参考获取流响应容器应如何响应的文档以及此处的博客。