Amazon SageMaker AI 추론, 이제 양방향 스트리밍 지원

게시된 날짜: 2025년 11월 25일

Amazon SageMaker AI 추론은 이제 실시간 음성-텍스트 변환을 위한 양방향 스트리밍을 지원하여, 일괄 입력 대신 지속적인 음성 처리를 구현합니다. 모델은 사용자가 말하는 동시에 오디오 스트림을 수신하고 부분적인 트랜스크립트를 동시에 반환하여, 최소한의 지연 시간으로 음성을 처리하는 음성 에이전트를 빌드할 수 있습니다.

AI 음성 에이전트를 빌드하는 고객에게는 사용자 음성과 에이전트 응답 간의 지연을 최소화하는 실시간 음성 트랜스크립션이 필요합니다. 데이터 사이언티스트 및 기계 학습 엔지니어에게는 양방향 스트리밍을 위한 관리형 인프라가 없으므로, 사용자 지정 WebSocket 구현을 구축하고 스트리밍 프로토콜을 관리해야 합니다. 팀은 이 인프라를 개발하고 유지 관리하는 데 몇 주를 소비하기 때문에 모델 정확성과 에이전트 기능에 집중할 수가 없습니다. Amazon SageMaker AI 추론의 양방향 스트리밍을 사용하면 새로운 양방향 스트림 API로 엔드포인트를 호출하여 음성-텍스트 변환 모델을 배포할 수 있습니다. 클라이언트가 SageMaker AI 런타임에 대한 HTTP2 연결을 열면 SageMaker AI가 컨테이너에 대한 WebSocket 연결을 자동으로 생성합니다. 따라서 스트리밍 오디오 프레임을 처리하고 생성된 부분 트랜스크립트를 반환할 수 있습니다. SageMaker AI 계약에 따라 WebSocket 핸들러를 구현하는 모든 컨테이너는, Deepgram 같은 실시간 음성 모델을 수정 없이 실행해 자동으로 작동합니다. 따라서 몇 개월 동안 인프라를 개발할 필요 없이, 모델 성능 개선에 집중하면서 지속적인 트랜스크립션이 포함된 음성 에이전트를 배포할 수 있습니다.

양방향 스트리밍은 캐나다(중부), 남아메리카(상파울루), 아프리카(케이프타운), 유럽(파리), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 이스라엘(텔아비브), 유럽(취리히), 아시아 태평양(도쿄), AWS GovCloud US(서부), AWS GovCloud US(동부), 아시아 태평양(뭄바이), 중동(바레인), 미국 서부(오리건), 중국(닝샤), 미국 서부(캘리포니아 북부), 아시아 태평양(시드니), 유럽(런던), 아시아 태평양(서울), 미국 동부(버지니아 북부), 아시아 태평양(홍콩), 미국 동부(오하이오), 중국(베이징), 유럽(스톡홀름), 유럽(아일랜드), 중동(UAE), 아시아 태평양(오사카), 아시아 태평양(멜버른), 유럽(스페인), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(싱가포르) AWS 리전에서 사용할 수 있습니다.

자세히 알아보려면 여기에서 AWS 뉴스 블로그를, 그리고 여기에서 SageMaker AI 설명서를 참조하세요.