게시된 날짜: Sep 1, 2023

이제 고객은 SageMaker 실시간 추론을 사용할 때 추론 응답을 클라이언트로 지속적으로 스트리밍하여 챗봇, 가상 도우미, 음악 생성기와 같은 다양한 생성형 AI 애플리케이션을 위한 대화식 경험을 구축할 수 있습니다.

챗봇과 같은 대화식 생성형 AI 애플리케이션에서는 챗봇이 응답할 때 응답을 한 글자씩 읽을 수 있으며 전체 응답을 기다릴 필요가 없습니다. 이러한 애플리케이션의 경우, 첫 번째 추론 응답에 걸리는 시간을 최소화하는 것이 대화식 경험을 만드는 데 특히 중요합니다. 지금까지는 SageMaker 엔드포인트가 전체 추론 응답이 완료될 때까지 기다렸다가 클라이언트에 응답했습니다. 응답 스트리밍을 사용하면 전체 추론 응답이 완료될 때까지 부분 추론이 계속해서 반환됩니다. 

이 기능은 SageMaker가 제공되는 모든 상용 리전에서 사용할 수 있습니다.

예제와 함께 응답 스트리밍을 사용하는 방법에 대한 자세한 내용은 API 참조, 스트리밍 응답 받기, 컨테이너의 응답 방법여기에서 블로그를 참조하세요.