Формирование выводов в Amazon SageMaker

Быстрое развертывание моделей машинного обучения (ML) для получения логических выводов и управления ими

Что такое вывод Amazon SageMaker?

Amazon SageMaker AI упрощает развертывание моделей машинного обучения, включая базовые модели (FM), для отправки запросов на логические выводы с оптимальным соотношением цены и качества для любых вариантов использования. Можно использовать SageMaker AI для решения любых задач, связанных с выводами: от низких задержек и высокой пропускной способности до длительных логических выводов. SageMaker AI – это полностью управляемый сервис, интегрированный с инструментами MLOps, помогающий вам масштабировать развертывание моделей, сокращать стоимость получения логических выводов, более эффективно управлять моделями в рабочей среде и снижать эксплуатационную нагрузку.

Преимущества SageMaker Inference

SageMaker AI соответствует широкому спектру требований к логическим выводам: от сценариев с низкой задержкой (несколько миллисекунд) и высокой пропускной способностью (миллионы транзакций в секунду) до длительных логических выводов для таких сценариев использования, как многоязычная обработка текста и изображений, мультимодальное понимание, обработка естественного языка и машинное зрение. SageMaker AI предоставляет надежное и масштабируемое решение для всех ваших потребностей в логических выводах.
Amazon SageMaker AI предлагает более 100 типов инстансов с различными уровнями вычислений и памяти для удовлетворения различных требований к производительности. Чтобы лучше использовать базовые ускорители и снизить затраты на развертывание, можно развернуть несколько моделей в одном инстансе. Для дальнейшей оптимизации затрат можно применять автоматическое масштабирование, которое самостоятельно регулирует количество инстансов в зависимости от трафика, а также отключает инстансы, когда они не используются, тем самым снижая затраты на вывод.
Amazon SageMaker AI – полностью управляемый сервис для настройки инстансов, совместимостей с версиями ПО, а также исправлений версий и управления ими. Благодаря встроенной интеграции с функциями MLOps Amazon SageMaker помогает снизить эксплуатационные издержки, связанные с развертыванием, масштабированием и управлением моделями машинного обучения, а также ускорить их запуск в производство.

Широкий выбор вариантов вывода

Получение логических выводов в режиме реального времени

Интерактивное прогнозирование с малой задержкой в режиме реального времени для сценариев использования со стабильной схемой трафика. Можно развернуть модель на полностью управляемом адресе с поддержкой автомасштабирования.

Бессерверное получение логических выводов

Низкая задержка и высокая пропускная способность для вариантов использования с нестабильным трафиком. Бессерверные адреса автоматически запускают вычислительные ресурсы и масштабируют их в зависимости от трафика, избавляя от необходимости выбирать типы инстансов или управлять политиками масштабирования.

Асинхронные логические выводы

Низкая задержка для сценариев использования с большой полезной нагрузкой (до 1 ГБ) или длительным временем обработки (до одного часа) и требованиями к задержкам, близким к реальному времени. Асинхронный вывод помогает сократить расходы с помощью автоматического масштабирования количества инстансов до нуля при отсутствии запросов, требующих обработки.

Пакетное преобразование

Автономное получение выводов на основе пакетов данных для вариантов использования с большими наборами данных. С помощью пакетного преобразования вы можете предварительно обрабатывать наборы данных для устранения помех или необъективных данных, а также связывать входные записи с выводами, чтобы облегчить интерпретацию результатов.

Масштабируемые и экономичные варианты вывода

Адреса для отдельных моделей

Размещение одной модели в контейнере, размещаемом на выделенных инстансах или в бессерверной среде, обеспечивает низкую задержку и высокую пропускную способность.

Подробнее

Адреса для отдельных моделей

Несколько моделей на одном адресе

Для того чтобы повысить эффективность базовых ускорителей и снизить затраты на развертывание до 50 %, несколько моделей необходимо разместить на одном инстансе. Возможность независимого управления политиками масштабирования FM упрощает адаптацию к сценариям использования моделей и оптимизирует затраты, связанные с инфраструктурой.

Подробнее

Адреса для нескольких моделей

Конвейеры последовательного получения выводов

Несколько контейнеров совместно используют выделенные инстансы и работают последовательно. Конвейер логических выводов можно использовать для объединения задач предварительной обработки, прогнозирования и последующего анализа данных.

Подробнее

Конвейеры последовательного получения выводов

Поддержка большинства фреймворков машинного обучения и серверов моделей

Логический вывод Amazon SageMaker поддерживает встроенные алгоритмы и готовые образы Docker для некоторых наиболее распространенных платформ машинного обучения, таких как TensorFlow, PyTorch, ONNX и XGBoost. Если ни один из готовых образов Docker не отвечает вашим потребностям, вы можете создать собственный контейнер для использования с адресами для нескольких моделей на основе процессора. Логический вывод SageMaker поддерживает большинство серверов популярных моделей, таких как TensorFlow Serving, TorchServe, NVIDIA Triton и сервер AWS для нескольких моделей.

ИИ Amazon SageMaker предлагает специализированные контейнеры глубокого обучения, библиотеки и инструменты для параллелизма моделей и логического вывода больших моделей, которые помогут повысить производительность базовых моделей. С помощью этих опций можно быстро развертывать модели (включая базовые), практически для любого сценария использования.


Подробнее
 

TensorFlow
PyTorch
mxnet
Логотип Hugging Face
TensorFlow

Высокая производительность логических выводов при низких затратах

Высокая производительность логических выводов при низких затратах

Новый набор инструментов для оптимизации логических выводов в Amazon SageMaker AI обеспечивает двукратное увеличение пропускной способности при снижении затрат приблизительно на 50 % для моделей на основе генеративного искусственного интеллекта (Llama 3, Mistral и Mixtral). Например, в модели Llama 3-70B можно получить до 2400 токенов в секунду на инстансе ml.p5.48xlarge по сравнению с 1200 токенами до оптимизации. Можно выбрать разные методы оптимизации модели или комбинировать их использование. Например, доступны методы спекулятивного декодирования, квантования и компиляции. Примените их к своим моделям и запустите оценочное тестирование, чтобы сравнить влияние методов на качество итоговых потоков и производительность логических выводов, а затем разверните модель буквально за несколько минут.

Изображение со всеми оценочными метриками

Развертывайте модели в самой высокопроизводительной инфраструктуре или переходите на бессерверное решение

Amazon SageMaker AI включает более 70 типов инстансов с различными уровнями вычислительных ресурсов и памяти, включая инстансы Amazon EC2 Inf1 на базе AWS Inferentia, высокопроизводительные чипы логических выводов машинного обучения, разработанные и созданные AWS, и инстансы с графическими процессорами, такие как Amazon EC2 G4dn. Кроме того, вы можете выбрать Бессерверный вывод Amazon SageMaker, что обеспечит возможности простого масштабирования до тысяч моделей на адрес, пропускную способность в миллионы транзакций в секунду (TPS) и задержку менее 10 миллисекунд.

Изображение, демонстрирующее возможности микросхем логических выводов машинного обучения

Теневой тест для оценки производительности моделей машинного обучения

Amazon SageMaker AI помогает оценить новую модель путем теневого тестирования ее производительности по сравнению с текущей развернутой моделью SageMaker с помощью запросов выводов в режиме реального времени. Теневое тестирование помогает выявить потенциальные ошибки конфигурации и проблемы с производительностью до того, как они повлияют на конечных пользователей. Благодаря SageMaker AI вам не нужно тратить недели на создание собственной инфраструктуры теневого тестирования. Просто выберите рабочую модель, которую хотите протестировать, и SageMaker AI автоматически выполнит развертывание новой модели в теневом режиме, а также направит копии запросов выводов, полученных рабочей моделью, в новую модель в режиме реального времени.

Изображение, иллюстрирующее процесс теневого тестирования

Автоматическое масштабирование для повышения эластичности

Политики масштабирования можно использовать для автоматического масштабирования базовых вычислительных ресурсов в соответствии с колебаниями запросов на выводы. Вы можете управлять политиками масштабирования для каждой модели машинного обучения отдельно, что помогает упростить обработку изменений в использовании модели, а также оптимизировать затраты на инфраструктуру.

Изображение, показывающее группы автоматического масштабирования

Уменьшение задержек и интеллектуальная маршрутизация

Вы можете сократить задержку получения логического вывода для моделей машинного обучения за счет интеллектуальной маршрутизации новых запросов выводов в доступные инстансы вместо случайной маршрутизации запросов в инстансы, которые уже заняты обработкой других запросов, что позволяет снизить задержку получения выводов в среднем на 20 %.

Снижение эксплуатационной нагрузки и быстрая окупаемость

Полностью управляемый хостинг и управление моделями

Amazon SageMaker AI – полностью управляемый сервис для настройки инстансов, совместимостей с версиями ПО, а также исправлений версий и управления ими. Он также предоставляет встроенные метрики и журналы для адресов, которые можно использовать для мониторинга и получения оповещений.

Изображение, демонстрирующее процесс управления моделью

Встроенная интеграция с функциями MLOps

Функции развертывания модели Amazon SageMaker AI интегрированы в MLOps, включая конвейеры SageMaker (автоматизация и оркестрация рабочих процессов), проекты SageMaker (CI/CD для машинного обучения), хранилище функций SageMaker (управление функциями), реестр моделей SageMaker (каталог моделей и артефактов для отслеживания происхождения и поддержки автоматизированных рабочих процессов утверждения), SageMaker Clarify (обнаружение смещений) и монитор модели SageMaker (обнаружение отклонений концепции и модели). В конечном итоге, независимо от того, развертываете ли вы одну модель или десятки тысяч, SageMaker AI помогает снизить эксплуатационные издержки, связанные с развертыванием, масштабированием и управлением моделями машинного обучения, а также ускорить их внедрение в рабочую среду.

Изображение с блок-схемой модели «Обучение»

Ресурсы для SageMaker Inference