Amazon SageMaker AI Inference теперь поддерживает двунаправленную потоковую передачу данных
Amazon SageMaker AI Inference теперь поддерживает двунаправленную потоковую передачу данных для преобразования речи в текст в реальном времени, благодаря чему становится возможной непрерывная обработка речи вместо пакетного ввода. Теперь модели могут принимать аудиопотоки и возвращать частичные расшифровки во время разговора пользователей, что позволяет создавать голосовых агентов, обрабатывающих речь с минимальной задержкой.
Наши клиенты создают голосовых агентов с ИИ. Чтобы свести к минимуму задержки между речью пользователя и ответами агента, требуется транскрибирование речи в реальном времени. В отсутствие управляемой инфраструктуры для двунаправленной потоковой передачи специалистам по обработке данных и инженерам машинного обучения приходится создавать собственные реализации WebSocket и управлять протоколами потоковой передачи. Разработка и обслуживание этой инфраструктуры занимает недели, отвлекая специалистов от совершенствования точности модели и возможностей агентов. Двунаправленная потоковая передача данных в Amazon SageMaker AI Inference позволяет развертывать модели преобразования речи в текст, вызывая нужный адрес с помощью нового API для двунаправленной потоковой передачи данных. Клиент открывает HTTP2-соединение со средой выполнения SageMaker AI, а SageMaker AI автоматически создает подключение WebSocket к нужному контейнеру. Так можно обрабатывать потоковые аудиокадры и возвращать частичные расшифровки по мере их создания. Любой контейнер, реализующий обработчик WebSocket в соответствии с контрактом SageMaker AI, работает автоматически. Для работы моделей, обрабатывающих речь в реальном времени, например Deepgram, никакие изменения не требуются. Это экономит месяцы разработки инфраструктуры и позволяет развертывать голосовых агентов с непрерывной расшифровкой, уделяя при этом внимание повышению производительности моделей.
Двунаправленная потоковая передача данных доступна в следующих регионах AWS: Канада (Центральная), Южная Америка (Сан-Паулу), Африка (Кейптаун), Европа (Ирландия, Испания, Лондон, Милан, Париж, Стокгольм, Франкфурт, Цюрих), Азиатско-Тихоокеанский регион (Гонконг, Джакарта, Мельбурн, Мумбаи, Осака, Сеул, Сидней, Сингапур, Токио, Хайдарабад), Израиль (Тель-Авив), AWS GovCloud (США – запад, США – восток), Ближний Восток (Бахрейн, ОАЭ), Запад США (Орегон, Северная Калифорния), Китай (Нинся, Пекин), Восток США (Огайо, Северная Вирджиния).
Дополнительные сведения см. в новостном блоге AWS и в документации по SageMaker AI.