Amazon SageMaker

Создание, обучение и развертывание моделей машинного обучения в любом масштабе

Amazon SageMaker – это полностью управляемая платформа, которая позволяет разработчикам и специалистам по работе с данными быстро и просто создавать, обучать и развертывать модели машинного обучения в любом масштабе. Amazon SageMaker устраняет все типичные барьеры, которые останавливают разработчиков, стремящихся использовать машинное обучение.

Большинство разработчиков считают машинное обучение сложным делом. Причина в том, что процессы создания и обучения моделей, а также последующего их развертывания для работы достаточно сложны и выполняются слишком медленно. Сначала требуется собрать и подготовить данные для обучения, чтобы выделить в них ключевые элементы. Затем необходимо выбрать подходящий алгоритм и инфраструктуру. После определения основного подхода необходимо обучить модель давать прогнозы, что требует большого количества вычислений. Затем требуется настроить полученную модель, чтобы она выдавала наилучшие возможные прогнозы, что требует кропотливого ручного труда. После всех этих шагов полностью обученную модель необходимо интегрировать с клиентским приложением и выполнить его развертывание в масштабируемой инфраструктуре. Все эти манипуляции требуют большого количества специализированных навыков, доступа к большому объему вычислительных и дисковых ресурсов, а также немалого количества времени на эксперименты и оптимизацию каждой части процесса. Неудивительно, что в итоге большинство разработчиков считает использование этой технологии чем-то совершенно недоступным.

Amazon SageMaker устраняет сложности, которые сдерживают разработчиков на каждом шаге этого процесса. Amazon SageMaker содержит в себе модули, которые можно использовать в связке или по отдельности, чтобы создавать, обучать и развертывать модели машинного обучения.

Представляем Amazon SageMaker

Как работает сервис

Создание

Amazon SageMaker позволяет без труда создавать модели машинного обучения и готовить их к обучению. Сервис предоставляет все необходимые инструменты, которые понадобятся для быстрого подключения к обучающим данным, а также выбора и оптимизации наилучшего алгоритма и инфраструктуры для приложения пользователя. Amazon SageMaker предоставляет размещенные блокноты Jupyter, которые облегчают обзор и визуализацию данных для обучения, хранимых в Amazon S3. Пользователи могут подключаться к данным в S3 напрямую или использовать AWS Glue для переноса данных из Amazon RDS, Amazon DynamoDB и Amazon Redshift в S3 для последующего анализа в блокноте.

Чтобы помочь с выбором подходящего алгоритма, Amazon SageMaker включает в себя наиболее распространенные алгоритмы машинного обучения. Они заранее установлены и оптимизированы, в результате их производительность в 10 раз превышает производительность аналогичных алгоритмов, запущенных на любой другой платформе. Amazon SageMaker также предварительно настроен на запуск TensorFlow и Apache MXNet в контейнерах Docker. Кроме того, можно загрузить эти контейнеры с открытым исходным кодом в локальную среду и тестировать скрипты в локальном режиме с помощью SDK Python от Amazon SageMaker перед использованием Amazon SageMaker для обучения и размещения модели в рабочей среде. Сервис также обеспечивает возможность использования любой другой платформы.

Обучение

Начать обучение модели можно одним щелчком в консоли Amazon SageMaker. Amazon SageMaker берет на себя управление всей необходимой инфраструктурой и может легко масштабироваться для обучения моделей на уровне петабайтов. Чтобы сделать процесс обучения еще быстрее и проще, Amazon SageMaker может автоматически настраивать модель для достижения максимально возможной точности прогнозов.

Развертывание

По завершении обучения и настройки модели, Amazon SageMaker позволяет просто выполнить ее рабочее развертывание, чтобы начать генерировать прогнозы на новых наборах данных (этот процесс называется выводом). Amazon SageMaker развертывает модель на автомасштабируемых кластерах инстансов машинного обучения Amazon SageMaker, расположенных в нескольких зонах доступности, что позволяет обеспечить как высокую производительность, так и высокую доступность. Помимо этого, Amazon SageMaker имеет встроенные возможности проведения А/В-тестирования модели, которые позволяют поэкспериментировать с различными версиями для достижения наилучших результатов.

Amazon SageMaker берет на себя самые сложные задачи машинного обучения, позволяя своим клиентам быстро и просто создавать, обучать и развертывать ML-модели.

Преимущества

Быстрый запуск моделей машинного обучения в работу

Amazon SageMaker значительно сокращает время, необходимое для обучения, настройки и развертывания моделей машинного обучения.Amazon SageMaker берет на себя задачи по автоматизации сложных методик обучения и настройки, а также управлению ими, ускоряя процесс запуска моделей в работу.

Работа с любым доступным алгоритмом или платформой

Amazon SageMaker поддерживает все существующие платформы и алгоритмы машинного обучения, что позволяет использовать в работе знакомые технологии. Платформы Apache MXNet и TensorFlow уже интегрированы в сервис. Помимо этого, Amazon SageMaker предоставляет широкий набор встроенных алгоритмов машинного обучения с высокой производительностью. Чтобы использовать для обучения альтернативную платформу или алгоритм, достаточно загрузить их в виде контейнера Docker.

Обучение и развертывание в один щелчок

Amazon SageMaker позволяет приступить к обучению модели за один щелчок мышью в консоли или простым вызовом API. По завершении обучения модели развертывание можно выполнить так же – одним щелчком в консоли Amazon SageMaker.

Простая интеграция с существующим рабочим процессом

Amazon SageMaker спроектирован в виде трех модулей, которые можно использовать вместе или по отдельности, в качестве компонентов любого существующего рабочего процесса машинного обучения.

Легкий доступ к обученным моделям

Amazon SageMaker позволяет без труда интегрировать модели машинного обучения в клиентские приложения, предоставляя адрес HTTPS-сервера, к которому можно обратиться из любого приложения.

Оптимизирован для быстрой работы

В Amazon SageMaker уже установлены самые новые версии TensorFlow и Apache MXNet, а также обеспечена поддержка библиотеки CUDA9 для максимальной производительности при работе с графическими процессорами NVIDIA. За счет работы на инстансах Amazon SageMaker P3, использующих графические процессоры NVIDIA Volta V100, Amazon SageMaker позволяет обучать модели глубокого обучения с беспрецедентной скоростью.

Клиенты, использующие SageMaker

Глубокое обучение с помощью любой платформы

Amazon SageMaker позволяет использовать для обучения моделей любые существующие платформы. Просто используйте свой собственный контейнер Docker с выбранной инфраструктурой, например Caffe2, PyTorch, Microsoft Cognitive Toolkit (CNTK), Chainer или Torch, и нужными библиотеками, а Amazon SageMaker возьмет на себя управление базовой инфраструктурой, используемой для обучения моделей.

TensorFlow
Caffe2
Apache MXNet
Chainer
Keras
Torch
Gluon
Microsoft Cognitive Toolkit
PyTorch

Примеры использования

Рекламный таргетинг

Использование Amazon SageMaker в сочетании с другими сервисами AWS позволяет оптимизировать возврат средств, вложенных в рекламу. Amazon SageMaker позволяет без труда обучать и развертывать модели машинного обучения, которые могут более эффективно таргетировать онлайн-рекламу, что обеспечивает лучшее вовлечение клиентов и последующую конверсию. Модели для систем рекомендаций, прогноза переходов по ссылкам, сегментирования потребителей и продления сроков показа можно обучить в бессерверной распределенной среде Amazon SageMaker. Готовые модели могут быть легко размещены на автомасштабируемых узлах с низкой задержкой или переданы в другие системы размещения рекламы в режиме реального времени.

Прогноз кредитного дефолта

Amazon SageMaker облегчает прогнозирование вероятности кредитного дефолта – одной из типовых задач, которую пытаются решить средствами машинного обучения. Amazon SageMaker тесно интегрирован с такими существующими аналитическими инфраструктурами, как Amazon Redshift, Amazon EMR и AWS Glue, что позволяет передавать большие и разноплановые наборы данных в озеро данных в Amazon S3. Сервис быстро преобразует их, создает с их помощью модели машинного обучения и тут же размещает их для генерации онлайн-прогнозов.

Промышленный Интернет вещей и машинное обучение

Промышленный Интернет вещей и машинное обучение делают возможными прогнозы в режиме реального времени для предсказания отказов оборудования или оптимизации графика обслуживания, что позволяет добиться более высокого уровня эффективности.  Цифровой двойник (реплика) физических ресурсов, процессов или систем может использоваться в качестве модели для составления графика профилактического обслуживания, а также для оптимизации выходных параметров сложных машин или промышленных процессов. Модель можно непрерывно обновлять для обучения в режиме, близком к реальному времени, и учета любых возможных изменений.

Цепочка поставки и прогнозирование спроса

Amazon SageMaker предоставляет необходимую инфраструктуру и алгоритмы, которые позволяют составлять индивидуальные прогнозы продаж для каждого продукта даже в масштабах крупнейших интернет-магазинов. На основании лишь данных о временных последовательностях и категориях продуктов Amazon SageMaker может оценивать сезонность, тренды и сходные характеристики продуктов для создания точных прогнозов – даже для новых товаров.

Прогнозирование переходов по ссылкам

Amazon SageMaker применяет алгоритмы XGBoost (как в рамках одной машины, так и с использованием систем вычислений, распределенных по нескольким процессорам), которые подходят для множества примеров использования классификации, регрессии и ранжирования – например, для прогнозирования процента переходов по ссылкам. Системы прогнозирования переходов играют важнейшую роль в большинстве систем онлайн-рекламы, поскольку для гарантии высокого уровня обслуживания клиентов принципиально важно получать как можно более точные прогнозы процента переходов по ссылкам (CTR). С помощью алгоритма XGBoost можно запустить систему прогнозирования в режиме реального времени и получить числовой прогноз. Это позволяет принимать решения по поводу использования рекламы от того или иного рекламодателя, а также дает возможность улучшать прогноз CTR по отображаемым объявлениям.

Прогнозирование качества контента

Amazon SageMaker имеет несколько инструментов для предварительного анализа и обнаружения определенных структур внутри текста. Эта информация позволяет прогнозировать качество предложенного контента. С помощью сервиса можно генерировать включения слов, чтобы находить семантически и синтаксически сходные слова в больших объемах текста и группировать их вместе во избежание разряженности. После этого Amazon SageMaker позволяет независимо группировать сходные документы в кластеры с помощью продвинутых тематических моделей. И наконец, сервис строит независимые модели классификации каждого кластера на основании данных о группировке слов, чтобы определить, нуждаются ли представленные документы в модерации.

Готовы приступить к разработке?
Начать работу с Amazon SageMaker