Общие вопросы
Вопрос. Что такое Amazon SageMaker?
SageMaker – это полностью управляемый сервис, предназначенный для подготовки, создания, обучения и развертывания моделей машинного обучения (ML) для любого стандартного примера использования с полностью управляемыми инфраструктурой, инструментами и рабочими процессами.
Вопрос. В каких регионах AWS доступен SageMaker?
Список регионов с поддержкой сервиса SageMaker см. в списке региональных сервисов AWS. См. также регионы и адреса серверов в общих справочных материалах по AWS.
Вопрос. Какова доступность сервиса SageMaker?
SageMaker разработан для обеспечения высокой доступности. Сервис работает без плановых простоев и перерывов на обслуживание. API SageMaker работают на базе надежных ЦОД Amazon с высокой степенью доступности, стек сервиса реплицируется в трех ЦОД в каждом регионе, что обеспечивает отказоустойчивость в случае выхода из строя отдельного сервера или аварийного отключения зоны доступности.
Вопрос. Как обеспечивается безопасность кода в SageMaker?
SageMaker хранит код в томах хранилища для машинного обучения, которые защищены группами безопасности и могут быть дополнительно зашифрованы при хранении.
Вопрос. Какие меры обеспечения безопасности использует сервис SageMaker?
SageMaker обеспечивает шифрование моделей машинного обучения и других системных артефактов как при хранении, так и при пересылке. Запросы к API и консоли сервиса SageMaker выполняются через безопасное SSL-соединение. Права доступа к ресурсам для обучения и развертывания от имени клиента предоставляются сервису SageMaker путем передачи ему соответствующих ролей AWS Identity and Access Management. Зашифрованные корзины Простого сервиса хранения данных Amazon (Amazon S3) можно использовать для хранения данных и артефактов моделей, также вы можете применять ключ Сервиса управления ключами AWS (AWS KMS) в блокнотах SageMaker, заданиях по обучению и адресах сервиса, чтобы шифровать подключенный том хранилища для машинного обучения. SageMaker также поддерживает Виртуальное частное облако Amazon (Amazon VPC) и AWS PrivateLink.
Вопрос. Использует ли SageMaker модели, обучающие данные, алгоритмы или предоставляет общий доступ к ним?
SageMaker не использует модели, обучающие данные и алгоритмы клиентов и не предоставляет общий доступ к ним. Мы знаем, что наши клиенты глубоко заинтересованы в обеспечении безопасности и конфиденциальности данных. Поэтому AWS предоставляет клиентам право собственности и контроль над их контентом с помощью простых и эффективных инструментов. Эти инструменты позволяют определить, где будет храниться контент, обеспечить его безопасность при передаче и хранении, а также управлять доступом пользователей к сервисам и ресурсам AWS. Мы также реализуем средства технического и физического контроля, которые предотвращают несанкционированный доступ к пользовательскому контенту или раскрытие информации. Клиенты сохраняют право собственности на свой контент и выбирают, какие сервисы AWS могут обрабатывать, хранить и размещать контент. Мы не получаем доступ к контенту клиентов для каких-либо целей без соответствующего согласия.
Вопрос. Как начисляется плата за использование SageMaker?
Плата начисляется за вычислительные ресурсы, хранилище и ресурсы для обработки данных, которые используются для размещения блокнотов, обучения моделей, расчета прогнозов и ведения журнала выходных данных. SageMaker позволяет выбрать число и тип инстансов, которые будут использованы для размещения блокнотов, обучения и хостинга моделей. Плата начисляется по факту использования. Минимальные платежи и авансовые обязательства отсутствуют. Для получения подробных сведений см. страницу цен на Amazon SageMaker и Калькулятор цен на Amazon SageMaker.
Вопрос. Как я могу оптимизировать свои расходы на SageMaker, например обнаруживать и удалять простаивающие ресурсы, чтобы избежать ненужных расходов?
Есть несколько передовых методов, которые можно использовать для оптимизации использования ресурсов SageMaker. Некоторые подходы включают оптимизацию конфигурации, другие – программные решения. Полное руководство по этой концепции вместе с наглядными руководствами и примерами кода можно найти в этой публикации в блоге.
Вопрос. Могу ли я использовать свой блокнот, среду обучения или хостинга?
SageMaker полностью обеспечивает все этапы рабочего процесса, однако это не мешает использовать существующие инструменты вместе с SageMaker. В зависимости от конкретных практических потребностей можно легко импортировать результаты в SageMaker либо экспортировать их из сервиса на любом этапе рабочего процесса.
Вопрос. Поддерживается ли R в SageMaker?
Да. Вы можете использовать R в инстансах блокнотов SageMaker, в которые входят предварительно установленное ядро R и библиотека reticulate. Библиотека reticulate реализует интерфейс R для Amazon SageMaker Python SDK, благодаря чему изучающие машинное обучение специалисты могут создавать, обучать, настраивать и развертывать модели на базе языка R.
Вопрос. Как можно выявить дисбаланс в модели?
Amazon SageMaker Clarify помогает повысить прозрачность модели, выявляя статистические смещения в рабочем процессе машинного обучения. SageMaker Clarify проверяет наличие дисбаланса на этапах подготовки данных, после обучения модели и далее через некоторые интервалы времени, а также предоставляет средства для понимания моделей машинного обучения и полученных через них прогнозов. Полученные результаты можно предоставлять другим посредством отчетов с объяснениями.
Вопрос. Какие типы смещений выявляет SageMaker Clarify?
Оценка смещений в моделях машинного обучения необходима для того, чтобы устранить такие смещения. Смещения можно оценивать как до, так и после обучения, а также использовать эту оценку для вывода в развернутой модели. Каждое измерение смещения соответствует определенному представлению справедливости. Даже самые простые методы оценки справедливости могут приводить к очень разным подходам, в разной степени применимым в разных контекстах. Вам нужно выбрать методы и метрики оценки смещений, которые имеют смысл для конкретного приложения в конкретной изучаемой ситуации. SageMaker в настоящее время поддерживает вычисление разных метрик смещения для обучающих данных (в ходе подготовки данных в SageMaker), для обученной модели (в Экспериментах Amazon SageMaker) и для вывода в развернутой модели (при использовании Монитора модели Amazon SageMaker). Например, перед обучением доступны метрики, позволяющие проверить репрезентативность обучающих данных (отсутствие плохо представленных групп) и разногласия в распределении меток для разных групп. После обучения и во время развертывания метрики помогут оценить, как и насколько различается поведение модели для разных групп. Например, для начала можно сравнить коэффициенты ошибок (вероятность отклонения прогноза модели от фактической метки) или углубиться чуть дальше, отдельно оценивая точность (вероятность того, что положительный прогноз окажется верным) и отзыв (вероятность того, что модель правильно обнаружит установленную для образца метку).
Вопрос. Каким образом SageMaker Clarify улучшает понимание моделей?
Интеграция SageMaker Clarify с Экспериментами SageMaker позволяет после обучения модели получить граф важности признаков с подробной информацией о вкладе каждого элемента входных данных в общий процесс принятия решений. Эти сведения помогут вам заметить, если некоторый отдельный элемент слишком сильно влияет на поведение модели. SageMaker Clarify также создает объяснения для отдельных прогнозов, доступных через API.
Вопрос. Что такое Студия Amazon SageMaker?
Студия SageMaker предоставляет единый визуальный веб‑интерфейс, в котором можно проводить все этапы разработки ML. Студия SageMaker обеспечивает полный доступ, контроль и прозрачность каждого шага, необходимого для подготовки, создания, обучения и развертывания моделей. Теперь можно быстро загружать данные, создавать новые блокноты, обучать и настраивать модели, перемещаться между любыми этапами, настраивать эксперименты, сравнивать результаты и развертывать модели в одном месте, что благотворно сказывается на эффективности процесса. Все действия по ML‑разработке, включая создание блокнотов, управление экспериментами, автоматизированное создание моделей, отладку и профилирование, а также обнаружение отклонений в моделях, можно выполнять в едином визуальном интерфейсе студии Amazon SageMaker.
Вопрос. Что такое RStudio в Amazon SageMaker?
RStudio в SageMaker – это первый полностью управляемый RStudio Workbench в облаке. Вы можете быстро запустить знакомую интегрированную среду разработки (IDE) RStudio и, не прерывая работы, увеличивать или уменьшать базовые вычислительные ресурсы, что упрощает создание решений машинного обучения и аналитики на R в масштабе. Вы можете легко переключаться между IDE RStudio и блокнотами SageMaker Studio для разработки на R и Python. Вся ваша работа, включая код, наборы данных, репозитории и другие артефакты, автоматически синхронизируется между двумя средами, чтобы уменьшить переключение контекста и повысить производительность.
Вопрос. Как рассчитываются цены за использование студии SageMaker?
Дополнительная плата за использование студии SageMaker не начисляется. Вы оплачиваете только базовые тарифы за вычисления и хранилище для сервисов, которые используете в студии SageMaker.
Вопрос. В каких регионах поддерживается Студия SageMaker?
Регионы с поддержкой Студии Amazon SageMaker можно найти в этой документации.
Управление машинным обучением
Вопрос. Какие инструменты управления машинным обучением предоставляет SageMaker?
SageMaker предоставляет специально разработанные инструменты управления машинным обучением на протяжении всего жизненного цикла. С помощью Менеджера ролей Amazon SageMaker администраторы могут определить минимальные разрешения за считаные минуты. Сервис Карты моделей Amazon SageMaker облегчает сбор, извлечение и обмен важной информацией о модели от ее создания до развертывания, а Панель управления моделью Amazon SageMaker позволяет получать информацию о поведении производственной модели в одном месте. Подробнее
см. в разделе Управление машинным обучением с Amazon SageMaker.
Вопрос. Зачем используется Менеджер ролей SageMaker?
Определите минимальные разрешения за несколько минут с помощью Менеджера ролей SageMaker. Этот сервис предоставляет базовый набор разрешений для операций машинного обучения и персон с каталогом предварительно созданных политик IAM. Вы можете сохранить базовые разрешения или настроить их в соответствии с вашими конкретными потребностями. С помощью нескольких подсказок вы сможете быстро ввести такие общие элементы управления, как границы доступа к сети и ключи шифрования. Затем SageMaker Role Manager автоматически создаст политику IAM. Вы можете обнаружить созданную роль и связанные с ней политики через консоль AWS IAM. Чтобы еще больше адаптировать разрешения к вашему сценарию использования, прикрепите управляемые политики IAM к роли IAM, которую вы создаете с помощью SageMaker Role Manager. Вы также можете добавить теги, которые помогут идентифицировать роль и упорядочить все сервисы AWS.
Вопрос. Зачем используется сервис Карты моделей SageMaker?
Сервис Карты моделей SageMaker помогает централизовать и стандартизировать документацию модели на протяжении всего жизненного цикла машинного обучения, создавая единый источник истины для информации о модели. Карты моделей SageMaker автоматически заполняют данные об обучении для ускорения процесса документирования. Вы также можете добавить такие детали, как назначение модели и цели производительности. Вы можете прикрепить результаты оценки модели к карте модели и обеспечить визуализацию для получения ключевых сведений о производительности модели. Карты моделей SageMaker можно легко передать другим, экспортировав в формат PDF.
Вопрос. Зачем используется Панель управления моделью SageMaker?
Панель управления моделью SageMaker предоставляет полный обзор развернутых моделей и конечных точек, позволяя отслеживать ресурсы и нарушения поведения модели на одной панели. Это позволяет отслеживать поведение модели по четырем параметрам, включая качество данных и модели, а также смещение и дрейф атрибуции характеристик благодаря интеграции с Монитором модели SageMaker и SageMaker Clarify. Панель управления моделью SageMaker также обеспечивает интегрированный опыт настройки и получения предупреждений об отсутствующих и неактивных заданиях мониторинга модели, а также об отклонениях в поведении модели в отношении качества модели, качества данных, смещения смещения и смещения атрибуции характеристик. Вы можете дополнительно проверить отдельные модели и проанализировать факторы, влияющие на производительность модели с течением времени. Затем вы можете проследить за тем, как специалисты по машинному обучению принимают меры по исправлению ситуации.
Базовые модели
Вопрос. Как быстро начать работу с SageMaker?
SageMaker JumpStart помогает быстро и легко начать работу с машинным обучением. В SageMaker JumpStart есть набор решений, которые могут использоваться в большинстве типичных ситуаций и быстро развертываются всего за несколько щелчков мыши. Эти полностью настраиваемые решения демонстрируют применение шаблонов и примеров архитектуры AWS CloudFormation, чтобы вы могли ускорить процесс освоения машинного обучения. SageMaker JumpStart также предоставляет базовые модели и поддерживает развертывание за один щелчок мыши и точную настройку для более чем 150 популярных моделей с открытым исходным кодом, в том числе моделей для преобразования, обнаружения объектов и классификации изображений.
Вопрос. Какие базовые модели доступны в SageMaker JumpStart?
SageMaker JumpStart предоставляет собственные и общедоступные модели. Список доступных базовых моделей см. в разделе Начало работы с Amazon SageMaker JumpStart.
Вопрос. Как начать работу с базовыми моделями с помощью SageMaker JumpStart?
Вы можете получить доступ к базовым моделям через Студию SageMaker, SDK SageMaker и Консоль управления AWS. Чтобы начать использовать собственные базовые модели, вы должны принять условия продажи на Торговой площадке AWS.
Вопрос. Будут ли мои данные использованы или переданы для обновления базовой модели, предлагаемой клиентам, использующим SageMaker JumpStart?
Нет. Ваши выводы и данные обучения не будут использоваться или передаваться клиентам для обновления или обучения базовой модели, которую SageMaker JumpStart представляет клиентам.
Вопрос. Можно ли увидеть вес моделей и сценарии собственных моделей с помощью SageMaker JumpStart?
Нет. Собственные модели не позволяют клиентам просматривать вес моделей и сценарии.
Вопрос. В каких регионах доступны базовые модели SageMaker JumpStart?
Модели можно найти во всех регионах, где доступна Студия SageMaker, но возможность развертывания модели зависит от модели и доступности инстанса требуемого типа инстанса. Информацию о доступности региона AWS и требуемом инстансе можно найти на странице сведений о модели на Торговой площадке AWS.
Вопрос. Какова стоимость базовых моделей SageMaker JumpStart?
Для собственных моделей взимается плата за программное обеспечение, установленная поставщиком модели, а также плата за инфраструктуру SageMaker в зависимости от используемого инстанса За общедоступные модели плата за инфраструктуру SageMaker взимается в зависимости от используемого инстанса. Дополнительные сведения см. в разделе цен на Amazon SageMaker и на Торговой площадке AWS.
Вопрос. Как SageMaker JumpStart помогает защитить мои данные?
Безопасность – главный приоритет AWS, и сервис SageMaker JumpStart разработан для обеспечения защиты. Поэтому SageMaker предоставляет клиентам право собственности и контроль над их контентом с помощью простых и эффективных инструментов. Эти инструменты позволяют определить, где будет храниться контент, обеспечить его безопасность при передаче и хранении, а также управлять доступом пользователей к сервисам и ресурсам AWS.
- Мы не передаем информацию об обучении клиентов и выводах продавцам моделей на Торговой площадке AWS. Аналогичным образом, артефакты модели продавца (например, вес моделей) не передаются покупателю.
- SageMaker JumpStart не использует модели клиентов, данные обучения или алгоритмы для улучшения своего сервиса и не передает третьим сторонам данные обучения клиентов и выводы.
- В SageMaker JumpStart артефакты моделей машинного обучения шифруются при передаче и хранении.
- Согласно Модели общей ответственности AWS, AWS несет ответственность за защиту глобальной инфраструктуры, на которой работают все сервисы AWS. Вы несете ответственность за контроль над контентом, размещенным в этой инфраструктуре.
Используя модель из Торговой площадки AWS или SageMaker JumpStart, пользователи берут на себя ответственность за качество вывода модели и признают возможности и ограничения, указанные в описании отдельной модели.
Вопрос. Какие модели с открытым исходным кодом поддерживаются в SageMaker JumpStart?
SageMaker JumpStart включает более 150 предварительно обученных моделей с открытым исходным кодом из PyTorch Hub и TensorFlow Hub. Для задач, связанных с компьютерным зрением, например для классификации изображений и обнаружения объектов, вы можете применить такие модели, как RESNET, MobileNet и single-shot detector (SSD). Для текстовых задач, например для классификации предложений и текста, поиска ответов на вопросы, можно использовать модели BERT, RoBERTa и DistilBERT.
Вопрос. Как поделиться артефактами машинного обучения с другими сотрудниками моей организации?
С помощью SageMaker JumpStart специалисты по анализу данных и разработчики машинного обучения могут легко обмениваться артефактами машинного обучения, включая блокноты и модели, в рамках своей организации. Администраторы могут создать хранилище, доступное определенному кругу пользователей. Все пользователи, имеющие разрешение на доступ к хранилищу, могут просматривать, находить и использовать модели и блокноты, а также публичное содержимое внутри SageMaker JumpStart. Пользователи могут выбирать артефакты для обучения моделей, развертывания конечных точек и выполнения блокнотов в SageMaker JumpStart.
Вопрос. Почему я должен использовать SageMaker JumpStart для обмена артефактами машинного обучения с другими сотрудниками моей организации?
С помощью SageMaker JumpStart вы можете ускорить выход на рынок при создании приложений машинного обучения. Модели и блокноты, созданные одной командой в вашей организации, могут быть легко переданы другим командам в вашей организации всего несколькими щелчками мыши. Внутренний обмен знаниями и повторное использование активов могут значительно повысить производительность вашей организации.
Машинное обучение с низким уровнем кода
Вопрос. Что такое Amazon SageMaker автопилот?
SageMaker автопилот – это первый в отрасли сервис автоматизированного машинного обучения, который предоставляет полный контроль над ML‑моделями и обеспечивает прозрачность всех процессов. SageMaker автопилот автоматически проверяет необработанные данные, применяет обработчики возможностей, выбирает лучший набор алгоритмов, обучает и настраивает множество моделей, отслеживает их производительность, а затем ранжирует модели на основе их производительности – и все это за несколько щелчков мышью. В результате создается готовая для развертывания модель с наилучшими характеристиками, причем во много раз быстрее, чем обычно происходит обучение модели. При этом пользователю обеспечивается полное представление о том, как была создана модель и что в ней есть. Сервис SageMaker автопилот интегрирован со Студией SageMaker. Благодаря этому можно изучить до 50 различных моделей, созданных SageMaker автопилотом, в Студии SageMaker и без труда выбрать оптимальную модель для своего примера использования. SageMaker автопилот могут использовать как люди, не имеющие опыта машинного обучения, для простого создания моделей, так и опытные разработчики – для быстрой разработки базовой модели, которую можно использовать в команде для дальнейших итераций.
Вопрос. Какие встроенные алгоритмы поддерживает SageMaker автопилот?
SageMaker автопилот поддерживает два встроенных алгоритма: XGBoost и Linear Learner.
Вопрос. Можно ли вручную остановить задание SageMaker автопилот?
Да. Вы можете остановить работу в любое время. При остановке задания SageMaker автопилот прекращаются все текущие исследования, а новые не запускаются.
Вопрос. Что такое Amazon SageMaker Canvas?
SageMaker Canvas – это сервис без кода с интуитивно понятным интерактивным интерфейсом, позволяющим создавать высокоточные прогнозы на основе машинного обучения с использованием ваших данных. SageMaker Canvas позволяет получать доступ и объединять данные из различных источников методом перетаскивания в пользовательском интерфейсе, автоматически очищая и подготавливая данные для минимизации ручной очистки. SageMaker Canvas применяет различные современные алгоритмы машинного обучения для поиска высокоточных прогнозных моделей и предоставляет интуитивно понятный интерфейс для составления прогнозов. Вы можете использовать SageMaker Canvas для создания намного более точных прогнозов в различных бизнес-приложениях и с легкостью взаимодействовать со специалистами по работе с данными и аналитиками на вашем предприятии, предоставляя совместный доступ к моделям, данным и отчетам. Дополнительные сведения о SageMaker Canvas см. в разделе вопросов и ответов об Amazon SageMaker Canvas.
Вопрос. Как рассчитываются цены за использование SageMaker Canvas?
При использовании SageMaker Canvas вы платите по факту использования. SageMaker Canvas позволяет интерактивно получать, исследовать и подготавливать данные из различных источников, обучать высокоточные модели машинного обучения на основе ваших данных и генерировать прогнозы. Счет выставляется за два компонента: плата за сессию, основанная на количестве часов, в течение которых используется SageMaker Canvas или выполняется вход в систему, и плата за обучение модели, основанная на размере набора данных, используемого для построения модели. Подробнее см. на странице цен на Amazon SageMaker Canvas.
Рабочие процессы машинного обучения
Вопрос. Как построить конвейер непрерывной интеграции и доставки (CI/CD) с помощью SageMaker?
Конвейеры Amazon SageMaker помогают создавать полностью автоматизированные рабочие процессы машинного обучения, начиная с подготовки данных и заканчивая развертыванием модели, позволяя увеличить количество используемых в производственной среде моделей машинного обучения до нескольких тысяч. Конвейеры SageMaker предоставляют Python SDK, который подключается к Студии SageMaker и позволяет создать каждый шаг рабочего процесса через визуальный интерфейс. Используя один полнофункциональный API, вы сможете соединить эти шаги в готовый рабочий процесс. Конвейеры SageMaker возьмут на себя все управление данными при переходах между шагами, упаковку рецептов кода и оркестрацию выполнения, снижая время подготовки и программирования с нескольких месяцев до нескольких часов. При каждом выполнении рабочего процесса сохраняется информация обо всех обработанных данных и выполненных действиях, что позволяет специалистам по работе с данными и разработчикам систем машинного обучения быстро диагностировать и устранять проблемы.
Вопрос. Как просмотреть все свои обученные модели, чтобы выбрать лучшую из них для запуска в производственной среде?
Конвейеры SageMaker предоставляет центральный репозиторий обученных моделей, который называется реестром моделей. Вы можете подбирать модели и изучать реестр моделей через визуальный интерфейс SageMaker Studio или программным образом через Python SDK, что дает вам свободу в выборе требуемой модели для развертывания в производственной среде.
Вопрос. Какие компоненты SageMaker можно добавить в конвейеры SageMaker?
В Конвейерах SageMaker можно добавить любые компоненты, доступные в Студии SageMaker, в том числе SageMaker Clarify, Amazon SageMaker Data Wrangler, Хранилище функций Amazon SageMaker, Эксперименты Amazon SageMaker, Отладчик Amazon SageMaker и Монитор модели Amazon SageMaker.
Вопрос. Как можно отслеживать компоненты своих моделей в течение всего рабочего процесса машинного обучения?
Конвейеры Amazon SageMaker автоматически сохраняют информацию обо всех компонентах модели и аудиторский след любых изменений, что устраняет необходимость в ручном отслеживании и может помочь вам достичь целей соответствия требованиям. С Конвейерами SageMaker вы можете отслеживать данные, код, обученные модели и т. п.
Вопрос. Как рассчитываются цены за использование Конвейеров SageMaker?
Дополнительная плата за использование Конвейеров SageMaker не начисляется. Вы оплачиваете только базовые тарифы за вычисления и отдельные сервисы AWS, которые используете в Конвейерах SageMaker.
Вопрос. Можно ли использовать Kubeflow с SageMaker?
Да. Компонентами Amazon SageMaker для конвейеров Kubeflow являются подключаемые модули с открытым исходным кодом, которые позволяют использовать конвейеры Kubeflow для определения рабочих процессов машинного обучения и применять SageMaker для маркировки данных, обучения и вывода. Конвейеры Kubeflow – это дополнение к Kubeflow, которое позволяет создавать и развертывать портативные масштабируемые комплексные конвейеры машинного обучения. Однако при использовании конвейеров Kubeflow операционным командам по машинному обучению необходимо управлять кластером Kubernetes на инстансах CPU и GPU и постоянно поддерживать высокий уровень его использования, чтобы снижать эксплуатационные расходы. Добиться максимального использования кластера со стороны подразделений по анализу и обработке данных достаточно сложно, что приводит к тому, что подразделения по операциям машинного обучения сталкиваются с дополнительными эксплуатационными расходами. Альтернативой кластеру Kubernetes, оптимизированному для машинного обучения, являются компоненты SageMaker для Kubeflow Pipelines. С их помощью можно использовать преимущества мощных возможностей SageMaker, таких как маркировка данных, полностью управляемая масштабируемая настройка гиперпараметров и распределенные задания обучения, безопасное и масштабируемое развертывание модели за один щелчок мышью и экономически эффективное обучение с использованием спотовых инстансов Эластичного вычислительного облака Amazon (Amazon EC2). При этом настраивать кластеры Kubernetes специально для выполнения заданий машинного обучения и управлять ими не требуется.
Вопрос. Каковы принципы оплаты использования компонентов SageMaker для конвейеров Kubeflow?
Дополнительная плата за использование компонентов SageMaker для конвейеров Kubeflow не начисляется.
Подготовка данных
Вопрос. Как SageMaker подготавливает данные для машинного обучения?
SageMaker Data Wrangler сокращает время, необходимое для сбора и подготовки данных для машинного обучения. С помощью единого интерфейса в Студии Amazon SageMaker вы можете просматривать и импортировать данные из Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Хранилища функций Amazon SageMaker и Snowflake всего за несколько кликов. Вы также можете запрашивать и импортировать данные, которые передаются из более чем 40 источников и регистрируются в каталоге данных AWS Glue с помощью Amazon AppFlow. SageMaker Data Wrangler автоматически загрузит, агрегирует и отобразит исходные данные. После импорта данных в SageMaker Data Wrangler вы можете увидеть автоматически созданные сводки столбцов и гистограммы. Затем вы можете глубже понять свои данные и выявить потенциальные ошибки с помощью отчета SageMaker Data Wrangler Data Quality and Insights, который предоставляет сводную статистику и предупреждения о качестве данных. Вы также можете запустить анализ смещения, поддерживаемый SageMaker Clarify, непосредственно из SageMaker Data Wrangler для обнаружения потенциального смещения во время подготовки данных. После этого вы можете использовать готовые преобразования SageMaker Data Wrangler для подготовки данных. Когда подготовка данных будет завершена, вы можете создать полностью автоматизированные рабочие процессы машинного обучения с помощью конвейеров Amazon SageMaker или импортировать эти данные в Хранилище функций Amazon SageMaker.
Вопрос. Как создавать возможности для модели в SageMaker Data Wrangler?
SageMaker Data Wrangler может автоматически преобразовать данные для получения новых признаков, избавляя от создания кода вручную. SageMaker Data Wrangler предлагает выбор предварительно настроенных преобразований данных, вменения отсутствующих данных, одномоментного кодирования, уменьшения размерности с помощью анализа главных компонент (PCA), а также преобразований, специфичных для временных рядов. Например, вы можете всего одним щелчком мыши преобразовать столбец текстовых полей в числовой столбец. Вы также можете создать фрагмент кода из библиотеки фрагментов SageMaker Data Wrangler.
Вопрос. Как визуализировать данные в SageMaker Data Wrangler?
SageMaker Data Wrangler поможет вам разобраться в данных и выявить потенциальные ошибки и предельные значения с помощью набора надежных предварительно настроенных шаблонов визуализации. Гистограммы, графики рассеивания и оптимизированные для машинного обучения визуализации, например для обнаружения утечек, доступны без необходимости написания кода. Также вы можете создавать и редактировать собственные визуализации.
Вопрос. Как рассчитываются цены за использование SageMaker Data Wrangler?
Вы платите за все ресурсы для вычислений, хранения и обработки данных, применяемые для машинного обучения при работе с SageMaker Data Wrangler. Все подробности ценообразования на SageMaker Data Wrangler можно найти здесь. В рамках уровня бесплатного пользования AWS работу с SageMaker Data Wrangler можно также начать бесплатно.
Вопрос. Как обучать модели машинного обучения на основе данных, подготовленных в SageMaker Data Wrangler?
SageMaker Data Wrangler обеспечивает единую систему взаимодействия, позволяя подготовить данные и легко обучить модель машинного обучения в SageMaker автопилот. SageMaker автопилот автоматически создает, обучает и настраивает самые лучшие модели машинного обучения на основе ваших данных. С помощью «SageMaker автопилот» вы можете полностью контролировать и отслеживать свои данные и модель. Вы также можете использовать функции, подготовленные в SageMaker Data Wrangler, в существующих моделях. Вы можете настроить задания обработки SageMaker Data Wrangler на выполнение в рамках учебного конвейера SageMaker, настроив задание в пользовательском интерфейсе (UI) или экспортировав блокнот с кодом оркестровки.
Вопрос. Как SageMaker Data Wrangler обрабатывает новые данные, если функции были подготовлены на основе исторических данных?
Вы можете настраивать и запускать задания обработки SageMaker непосредственно из пользовательского интерфейса SageMaker Data Wrangler, включая планирование задания обработки данных и параметризацию источников данных, чтобы легко преобразовывать новые партии данных в масштабе.
Вопрос. Как SageMaker Data Wrangler работает с моими процессами CI/CD?
После подготовки данных SageMaker Data Wrangler предоставляет различные варианты продвижения потока SageMaker Data Wrangler в производство и легко интегрируется с MLOps и возможностями CI/CD. Вы можете настраивать и запускать задания обработки SageMaker непосредственно из пользовательского интерфейса SageMaker Data Wrangler, включая планирование задания обработки данных и параметризацию источников данных, чтобы легко преобразовывать новые партии данных в масштабе. Кроме того, SageMaker Data Wrangler легко интегрируется с обработкой SageMaker и контейнером SageMaker Spark, что позволяет легко использовать SDK SageMaker для интеграции SageMaker Data Wrangler в производственный рабочий процесс.
Вопрос. Какую модель использует SageMaker Data Wrangler Quick Model?
В несколько шагов SageMaker Data Wrangler разделяет и обучает модель XGBoost с гиперпараметрами по умолчанию. В зависимости от типа проблемы SageMaker Data Wrangler предоставляет сводку модели, сводку функций и матрицу несоответственности, чтобы быстро дать вам представление и вы могли итеративно доработать свои потоки подготовки данных.
Вопрос. Какой размер данных поддерживает SageMaker Data Wrangler?
SageMaker Data Wrangler поддерживает различные методы выборки – такие как выборка top-K, случайная и стратифицированная выборка при импорте данных – так что вы можете быстро преобразовать свои данные с помощью пользовательского интерфейса SageMaker Data Wrangler. Если вы используете большие или широкие наборы данных, вы можете увеличить размер инстанса SageMaker Data Wrangler для повышения производительности. После создания потока можно обработать весь набор данных с помощью заданий обработки SageMaker Data Wrangler.
Вопрос. Работает ли SageMaker Data Wrangler с Хранилищем функций SageMaker?
Вы можете настроить Хранилище функций SageMaker как место назначения для ваших функций, подготовленных в SageMaker Data Wrangler. Это можно сделать непосредственно в пользовательском интерфейсе или экспортировать блокнот, созданный специально для обработки данных с Хранилищем функций SageMaker в качестве места назначения.
Вопрос. Как сохранить возможности для моделей машинного обучения?
Хранилище функций SageMaker предоставляет центральный репозиторий для признаков данных с низкой задержкой чтения и записи, измеряемой в миллисекундах. С Хранилищем функций SageMaker вы можете сохранять, получать, искать и передавать в совместное пользование признаки моделей, что позволяет легко применять их для разных моделей и в разных проектах, сохраняя защиту доступа и полный контроль. SageMaker Feature Store поддерживает локальные признаки, созданные как при пакетной, так и при потоковой обработке. Также поддерживается заполнение исторических данных, локальные и сетевые хранилища для сохранения соответствия между признаками, используемыми для обучения моделей и вывода прогнозов.
Вопрос. Как поддерживать согласованность локальных и сетевых возможностей?
Хранилище функций SageMaker автоматически поддерживает согласованность локальных и сетевых признаков без дополнительных действий по управлению или программированию. Хранилище функций SageMaker полностью управляемое и поддерживает согласованность между средами обучения и вывода.
Вопрос. Как воспроизвести возможность на конкретный момент времени?
Хранилище функций SageMaker поддерживает временные метки для всех признаков на любой момент времени. Это позволяет в любой момент получить признаки, которые использовались на конкретный момент времени, если это потребуется для бизнеса или соответствия требованиям. Вы можете легко описать возможности модели и их значения на любой момент времени, начиная с их создания и заканчивая текущим временем, воспроизводя модель в том состоянии, в котором она находилась в нужный момент.
Вопрос. Что такое локальные возможности?
Локальные признаки используются для обучения, когда важно иметь доступ к очень большим объемам данных в течение длительного периода времени. Эти возможности обслуживаются репозиторием с высокой пропускной способностью и широкой полосой пропускания.
Вопрос. Что такое сетевые возможности?
Сетевые возможности используются в приложениях, требующих прогнозирования в режиме реального времени. Сетевые возможности обслуживаются репозиторием с высокой пропускной способностью и задержкой в несколько миллисекунд, чтобы очень быстро получать прогнозы.
Вопрос. Как рассчитываются цены за использование Хранилища функций SageMaker?
В рамках уровня бесплатного пользования AWS работу с Хранилищем функций SageMaker можно начать бесплатно. При работе с Хранилищем функций SageMaker вы оплачиваете операции записи в хранилище признаков, а также операции чтения и записи в сетевое хранилище признаков. Сведения о ценах см. на странице цен Amazon SageMaker.
Вопрос. Что предлагает SageMaker для маркировки данных?
Amazon SageMaker предоставляет два предложения для маркировки данных: Amazon SageMaker Ground Truth Plus и Amazon SageMaker Ground Truth. Оба варианта позволяют определить необработанные данные, например образы, текстовые файлы и видео, а также добавить информативные метки для создания высококачественных обучающих наборов данных для моделей машинного обучения. Дополнительные сведения см. в разделе Маркировка данных Amazon SageMaker.
Вопрос. Что такое геопространственные данные?
Геопространственные данные представляют собой особенности или объекты на земной поверхности. Первый тип геопространственных данных – векторные данные, которые используют двумерную геометрию, такую как точки, линии или многоугольники для представления таких объектов, как дороги и границы земельных участков. Второй тип геопространственных данных – это растровые данные, такие как снимки, собранные спутниками, воздушными платформами или данными дистанционного зондирования. Этот тип данных использует матрицу пикселей для определения местоположения объектов. Растровые форматы можно использовать для хранения данных, которые меняются. Третий тип геопространственных данных – это данные о местоположении с географическими метками. Они включают в себя достопримечательности – например, Эйфелеву башню – в постах социальных сетей с метками местоположения, координаты широты и долготы или различные стили и форматы адресов улиц.
Вопрос. Что такое геопространственные возможности SageMaker?
Геопространственные возможности SageMaker упрощают специалистам по работе с данными и инженерам по машинному обучению создание, обучение и развертывание моделей машинного обучения для составления прогнозов с использованием геопространственных данных. Вы можете предоставить свои собственные данные, например спутниковые данные Planet Labs из Amazon S3, или получить данные из сервиса открытых данных в AWS, Службы определения местоположения Amazon и других источников геопространственных данных SageMaker.
Вопрос. Зачем мне использовать возможности машинного обучения в SageMaker?
Вы можете использовать возможности геопространственного машинного обучения в SageMaker, чтобы делать прогнозы на геопространственных данных быстрее, чем решения «сделай сам». Геопространственные возможности SageMaker облегчают доступ к геопространственным данным из существующих озер данных пользователей, наборов данных с открытым исходным кодом и других источников геопространственных данных SageMaker. Геопространственные возможности SageMaker минимизируют необходимость создания пользовательской инфраструктуры и функций предварительной обработки данных, предлагая специально разработанные алгоритмы для эффективной подготовки данных, обучения моделей и выводов. Вы также можете создавать пользовательские визуализации и данные и обмениваться ими со своей организацией из Студии SageMaker. Геопространственные возможности SageMaker включают предварительно обученные модели для общего использования в сельском хозяйстве, недвижимости, страховании и финансовых услугах.
Создание моделей
Вопрос. Что такое блокноты студии Amazon SageMaker?
Блокноты Студии SageMaker – это блокноты Jupyter для быстрого запуска, совместной работы и управления. Блокноты Студии SageMaker интегрируются со специально разработанными инструментами машинного обучения в SageMaker и других сервисах AWS для сквозной разработки машинного обучения в студии SageMaker – полностью интегрированной среде разработки для машинного обучения.
Вопрос. Чем блокноты Студии SageMaker отличаются от блокнотов на базе инстансов?
Блокноты SageMaker Studio отличаются от блокнотов на базе инстансов несколькими важными возможностями. Блокноты Studio можно быстро запускать, поскольку не нужно тратить время на инициализацию инстанса вручную и ждать, пока он будет готов. Для запуска пользовательского интерфейса для чтения и выполнения кода в блокноте требуется меньше времени, чем при работе с блокнотами на базе инстансов.
Кроме того, в пользовательском интерфейсе можно в любой момент свободно выбирать типы инстансов из большой коллекции. Вам не нужно открывать Консоль управления AWS для запуска новых инстансов и переноса блокнотов.
У каждого пользователя есть изолированный домашний каталог, независимый от определенного инстанса. Этот каталог автоматически подключается ко всем серверам и ядрам блокнотов по мере их запуска, поэтому у пользователей сохраняется доступ к блокнотам и другим файлам даже при переключении между инстансами для просмотра и запуска блокнотов.
Блокноты Студии SageMaker интегрированы в Центр идентификации AWS IAM (преемник AWS SSO), поэтому для доступа к ним можно использовать корпоративные данные. В блокнотах студии SageMaker предусмотрена возможность их совместного использования. Вы можете делиться своими блокнотами с коллегами одним щелчком мыши или даже совместно редактировать один блокнот одновременно.
Вопрос. Как работают блокноты Студии SageMaker?
Блокноты Студии SageMaker – это готовые блокноты Jupyter, которые можно быстро развернуть. Лежащие в основе сервиса вычислительные ресурсы полностью эластичны, что позволяет просто увеличивать или уменьшать их объем, причем любые изменения происходят автоматически в фоновом режиме и не прерывают работу. SageMaker также позволяет делиться блокнотами одним щелчком мыши. Вы можете легко делиться блокнотами с другими – они получат точно такой же блокнот, сохраненный в том же месте.
В блокнотах Студии SageMaker вы можете выполнить вход с помощью корпоративных данных для доступа, используя Центр идентификации IAM. Совместное использование блокнотов в пределах одной команды и между несколькими командами очень легко организовать благодаря автоматическому отслеживанию всех зависимостей для выполнения блокнота по всем рабочим образам, которые инкапсулируются в блокноты при предоставлении совместного доступа.
Вопрос. Что такое общие пространства в SageMaker?
Специалисты по машинному обучению могут создать общее рабочее пространство, где члены команды могут совместно читать и редактировать блокноты Студии SageMaker. Используя общие пространства, члены команды могут совместно редактировать один и тот же файл блокнота, запускать код блокнота одновременно и просматривать результаты вместе, чтобы устранить необходимость возвращаться назад и оптимизировать совместную работу. В общих пространствах команды машинного обучения будут иметь встроенную поддержку таких сервисов, как BitBucket и AWS CodeCommit, чтобы они могли легко управлять различными версиями своего блокнота и сравнивать изменения с течением времени. Любые ресурсы, созданные в блокнотах, такие как эксперименты и модели машинного обучения, автоматически сохраняются и ассоциируются с конкретным рабочим пространством, в котором они были созданы, чтобы командам было легче оставаться организованными и ускорить разработку моделей машинного обучения.
Вопрос. Как блокноты Студии SageMaker взаимодействуют с другими сервисами AWS?
Блокноты Студии SageMaker предоставляют доступ ко всем возможностям SageMaker, включая распределенное обучение, пакетное преобразование, размещение и управление экспериментами. Для получения наборов данных можно обращаться из блокнотов SageMaker к таким сервисам, как Amazon S3, Amazon Redshift, AWS Glue, Amazon EMR и AWS Lake Formation.
Вопрос. Как происходит расчет платы за использование блокнотов SageMaker Studio?
При использовании блокнотов SageMaker Studio плата взимается как за вычислительные ресурсы, так и за хранение данных. Сведения о тарифах в зависимости от типа вычислительного инстанса см. на странице цен на Amazon SageMaker. Ваши блокноты и связанные с ними артефакты, такие как файлы данных и скрипты, сохраняются в Эластичной файловой системе Amazon (Amazon EFS) Сведения о тарифах на хранение данных см. на странице цен на Amazon EFS. В рамках уровня бесплатного пользования AWS работу с блокнотами Студии SageMaker можно начать бесплатно.
Вопрос. Нужно ли платить отдельно за каждый блокнот, созданный и запущенный в Студии SageMaker?
Нет. Вы можете создать и запустить несколько блокнотов на одном вычислительном инстансе. Вы платите только за используемые вычислительные ресурсы, а не за отдельные элементы. Более подробные сведения см. в нашем руководстве по учету.
Помимо блокнотов, вы также можете запускать терминалы и интерактивные оболочки студии SageMaker – и все это на одном вычислительном инстансе. Каждое приложение работает внутри контейнера или образа. Студия SageMaker предоставляет несколько встроенных образов, специально созданных и настроенных для задач аналитики данных и машинного обучения. Более подробные сведения о среде разработки студии SageMaker см. в руководстве по использованию блокнотов студии SageMaker.
Вопрос. Как отслеживать и отключать ресурсы, которые используются моими блокнотами?
Вы можете отслеживать и отключать ресурсы, используемые вашими блокнотами SageMaker Studio, через визуальный интерфейс SageMaker Studio и Консоль управления AWS. Дополнительную информацию см. в документации.
Вопрос. Я использую блокнот SageMaker Studio. Будет ли с меня взиматься плата, если я закрою браузер, закрою вкладку блокнота или просто оставлю браузер открытым?
Да, с вас по-прежнему будет взиматься плата за использование вычислительных ресурсов. Эта ситуация схожа с запуском инстансов Amazon EC2 в консоли управления AWS с последующим закрытием браузера. Инстансы Amazon EC2 все еще будут работать, и с вас по-прежнему будет взиматься плата, пока вы явным образом не отключите инстанс.
Вопрос. Взимается ли плата за создание и настройку домена Студии SageMaker?
Нет, плата за создание или настройку домена Студии SageMaker, а также добавление, обновление и удаление профилей пользователей не взимается.
Вопрос. Как просмотреть подробные сведения о расходах на блокноты Студии SageMaker или другие сервисы SageMaker?
Будучи администратором, вы можете просмотреть список детализированных платежей за SageMaker, включая Студию SageMaker, в консоли выставления счетов AWS. В консоли управления AWS для SageMaker выберите Сервисы в верхнем меню, введите Оплата в поле поиска и выберите «Оплата» в раскрывающемся списке, затем выберите Счета на левой панели. В разделе «Сведения» вы можете щелкнуть SageMaker, чтобы развернуть список регионов и перейти к детализированным расходам.
Вопрос. Что такое Лаборатория студии Amazon SageMaker?
Лаборатория Студии SageMaker – это бесплатная среда для разработки машинного обучения (ML), в которой абсолютно бесплатно предоставляются вычисления, хранилище (объемом до 15 ГБ) и безопасность для любого пользователя в целях обучения и экспериментирования с ML. Для начала работы требуется лишь действительный адрес электронной почты без необходимости настраивать инфраструктуру или управлять идентификацией, получать доступ либо даже регистрировать аккаунт AWS. SageMaker Studio Lab ускоряет создание моделей посредством интеграции с GitHub и предоставляется с предварительно настроенными наиболее популярными инструментами, платформами и библиотеками машинного обучения, благодаря чему вы можете сразу же приступить к работе. SageMaker Studio Lab автоматически сохраняет работу, поэтому вам не нужно перезапускать сервис между сеансами. Это так же просто, как закрыть крышку ноутбука и возвратиться к работе позднее.
Вопрос. В каких случаях рекомендуется использовать Лабораторию Студии SageMaker?
Лаборатория Студии SageMaker предназначена для учащихся, исследователей и специалистов по работе с данными, которым требуется бесплатная среда для разработки блокнотов без необходимости настраивать свои занятия машинного обучения и эксперименты. Лаборатория Студии SageMaker – это идеальное решение для пользователей, которые не нуждаются в производственной среде, однако хотят получить часть функциональных возможностей SageMaker для усовершенствования своих навыков машинного обучения. Сеансы SageMaker сохраняются автоматически, позволяя пользователям продолжить с того момента, на котором они остановились, в каждом пользовательском сеансе.
Вопрос. Как Лаборатория Студии SageMaker взаимодействует с другими сервисами AWS?
Лаборатория Студии Amazon SageMaker – это сервис, созданный на AWS и использующий множество тех же самых основных сервисов, что и Студия Amazon SageMaker, например Amazon S3 и Amazon EC2. В отличие от других сервисов, клиентам не потребуется аккаунт AWS. Вместо этого они создадут специальный аккаунт для Лаборатории Студии SageMaker с помощью адреса электронной почты. Благодаря этому пользователи получат доступ к ограниченной среде (с хранилищем объемом 15 ГБ и сеансами продолжительностью 12 часов) для запуска блокнотов ML.
Вопрос. Что такое SageMaker Canvas?
SageMaker Canvas – это визуальный сервис с функцией перетаскивания, позволяющий бизнес-аналитикам разрабатывать модели ML и создавать точные прогнозы без написания кода или необходимости в экспертных знаниях о машинном обучении. SageMaker Canvas упрощает доступ к данным из различных источников и их объединение, автоматическую очистку данных и применение разнообразных корректировок данных, а также построение моделей машинного обучения для создания точных прогнозов одним щелчком мыши. Кроме того, вы можете без труда опубликовать результаты, описать и интерпретировать модели, а также предоставить к ним совместный доступ для других в пределах вашей организации с целью ознакомления.
Вопрос. Какие источники данных поддерживает SageMaker Canvas?
SageMaker Canvas позволяет эффективно обнаруживать источники данных AWS, к которым имеет доступ ваш аккаунт, включая Amazon S3 и Amazon Redshift. Вы можете осуществлять просмотр и импорт данных с помощью визуального интерфейса SageMaker Canvas с функцией перетаскивания. Кроме того, вы можете перетаскивать файлы из локального диска и использовать готовые коннекторы для импорта данных из сторонних источников, например Snowflake.
Вопрос. Как построить модель машинного обучения для создания точных прогнозов в SageMaker Canvas?
После подключения источников, выбора набора данных и подготовки данных можно выбрать целевой столбец для прогнозирования, чтобы запустить задание по созданию модели. SageMaker Canvas автоматически определит тип проблемы, создаст новые актуальные возможности, протестирует исчерпывающий набор прогнозирующих моделей, используя методики машинного обучения, например линейную или логистическую регрессию, глубокое обучение, прогнозирование временных рядов и градиентный рост, а также построит модель, которая будет создавать точные прогнозы исходя из вашего набора данных.
Вопрос. Сколько времени занимает создание модели в SageMaker Canvas? Как можно отслеживать ход выполнения в процессе создания модели?
Время, необходимое для построения модели, зависит от размера набора данных. В случае небольших наборов данных построение может занять менее 30 минут, а в случае больших наборов данных – несколько часов. По мере выполнения задания по созданию модели SageMaker Canvas предоставляет подробные визуальные обновления, в том числе процент завершения задания и время, которое осталось до окончания.
Обучение моделей
Вопрос. Что такое Эксперименты Amazon SageMaker?
Эксперименты SageMaker помогают организовывать и отслеживать итерации обучения моделей машинного обучения. Эксперименты SageMaker помогают управлять итерациями, автоматически фиксируя входные параметры, конфигурации и результаты и сохраняя их как эксперименты. Работать при этом можно в визуальном интерфейсе SageMaker Studio, который дает возможность просматривать текущие эксперименты, искать предыдущие эксперименты по характеристикам, просматривать предыдущие эксперименты вместе с результатами и визуально сравнивать полученные результаты между собой.
Вопрос. Что такое Отладчик Amazon SageMaker?
Отладчик SageMaker автоматически в режиме реального времени выполняет в процессе обучения сбор таких метрик, как матрицы путаницы и градиенты обучения, что в итоге помогает повысить точность модели. Метрики от Отладчика SageMaker можно визуализировать в Студии SageMaker для удобства понимания. SageMaker Debugger может генерировать предупреждения и рекомендации по исправлению обнаруженных типовых проблем с обучением. Также Отладчик SageMaker автоматически отслеживает и оценивает в реальном времени такие ресурсы, как ЦП, графические процессоры, сеть и память, предоставляя рекомендации по перераспределению этих ресурсов. Это позволяет вам эффективнее использовать ресурсы в процессе обучения, помогает снизить расходы и уменьшить потребность в ресурсах.
Вопрос. Поддерживает ли SageMaker распределенное обучение?
Да. SageMaker может автоматически распределять модели глубокого обучения и крупные обучающие наборы по инстансам AWS с графическим процессором за время, во много раз меньшее, чем требуется на создание и оптимизацию стратегий распределения вручную. SageMaker применяет два метода распределенного обучения: параллелизм данных и параллелизм моделей. Параллелизм данных применяется для ускорения обучения: данные разбиваются на равные сегменты с последующей одновременной обработкой на разных инстансах с графическим процессором. Параллелизм моделей удобен в тех случаях, когда модель слишком велика для хранения на одном графическом процессоре: такая модель разделяется на несколько меньших частей и обрабатывается на нескольких графических процессорах. Вам нужно лишь добавить пару строк кода в скрипты обучения на PyTorch и TensorFlow, чтобы SageMaker автоматически применил параллелизм данных или параллелизм моделей, что позволит быстрее создавать и развертывать модели. SageMaker определит оптимальный метод разделения модели, используя алгоритмы секционирования графов, чтобы добиться примерно равного времени обработки на каждом графическом процессоре с минимальным взаимодействием между инстансами. Также SageMaker оптимизирует задания по распределенному обучению с помощью алгоритмов максимально эффективного использования вычислительных и сетевых ресурсов AWS, чтобы добиться почти линейного роста эффективности при масштабировании и выполнять обучение быстрее, чем с помощью реализаций вручную с открытым исходным кодом.
Вопрос. Что такое Обучающий компилятор Amazon SageMaker?
Обучающий компилятор SageMaker – это компилятор глубокого обучения (DL), который ускоряет обучение моделей DL до 50 % посредством оптимизаций уровня графа и ядра для более эффективного использования GPU. Обучающий компилятор Amazon SageMaker интегрирован с версиями TensorFlow и PyTorch в SageMaker, поэтому вы можете ускорить обучение на этих популярных платформах с минимальными изменениями кода.
Вопрос. Как работает SageMaker Training Compiler?
SageMaker Training Compiler ускоряет задания по обучению, преобразовывая модели DL из высокоуровневого языкового представления в оптимизированные аппаратные инструкции, которые способствуют более быстрому обучению по сравнению с заданиями на исходных платформах. Если более конкретно, то SageMaker Training Compiler использует оптимизацию графового уровня (слияние операторов, планирование памяти и алгебраическое упрощение), оптимизации уровня потока данных (изменение размещения, удаление общих подвыражений) и серверные оптимизации (скрытие задержки при обращении к памяти, цикло-ориентированные оптимизации) для создания оптимизированного задания по обучению моделей, которое эффективнее использует аппаратные ресурсы и, как результат, быстрее обучает.
Вопрос. Как можно использовать SageMaker Training Compiler?
Обучающий компилятор SageMaker встроен в SageMaker Python SDK и контейнеры глубокого обучения SageMaker Hugging Face. Чтобы получить доступ к преимуществам ускоренной работы, вам не нужно изменять свои рабочие процессы. Вы можете запускать задания по обучению таким же образом, как и до этого, используя любые интерфейсы SageMaker: инстансы блокнота SageMaker, Студию SageMaker, AWS SDK для Python (Boto3) и Интерфейс командной строки AWS (AWS CLI). Можно включить Обучающий компилятор SageMaker, добавив класс TrainingCompilerConfig в виде параметра при создании объекта оценки платформы. На практике это означает добавление нескольких строк кода в существующий сценарий задания по обучению для одного инстанса GPU. Самые актуальные подробные документы, образцы блокнотов и примеры доступны в документации.
Вопрос. Сколько стоит использование Обучающего компилятора SageMaker?
Обучающий компилятор SageMaker – это одна из возможностей SageMaker Training, которая предоставляется без взимания дополнительной платы исключительно для клиентов SageMaker. В действительности Обучающий компилятор SageMaker позволяет клиентам снизить свои расходы, поскольку время обучения сокращается.
Вопрос. Что такое управляемое спотовое обучение?
Управляемое спотовое обучение с использованием SageMaker позволяет обучать модели машинного обучения с помощью спотовых инстансов Amazon EC2 и при этом снизить затраты на него до 90 %.
Вопрос. Как использовать управляемое спотовое обучение?
Отправляя запросы на выполнение своих заданий по обучению, вы активируете управляемое спотовое обучение и указываете, в течение какого периода хотите ждать спотовые ресурсы. Затем SageMaker использует спотовые инстансы Amazon EC2 для выполнения задания и управляет спотовыми ресурсами. Вы полностью видите состояние задания по обучению как в процессе его выполнения, так и во время ожидания ресурсов.
Вопрос. В каких случаях стоит использовать управляемое спотовое обучение?
Управляемое спотовое обучение – идеальный вариант, когда у вас есть некоторая свобода в выполнении заданий по обучению, а также если вы хотите минимизировать затраты на такие задания. Благодаря управляемому спотовому обучению затраты на обучение моделей машинного обучения можно снизить до 90 %.
Вопрос. Как работает управляемое спотовое обучение?
Для обучения в таком формате используются спотовые инстансы Amazon EC2, которые можно освободить, когда AWS понадобятся ресурсы. Таким образом, задания по управляемому спотовому обучению можно разбить на небольшие этапы и выполнять их по мере доступности ресурсов. В случае прерывания заданий по обучению не придется начинать с самого начала, поскольку SageMaker может возобновить их выполнение, используя последнюю контрольную точку модели. Благодаря SageMaker встроенные платформы и алгоритмы машинного зрения позволяют создавать периодические контрольные точки, которые можно также использовать для пользовательских моделей.
Вопрос. Нужно ли периодически создавать контрольные точки в процессе управляемого спотового обучения?
Рекомендуем периодически создавать контрольные точки при выполнении долгосрочных заданий по обучению. Это позволит предотвратить перезапуск заданий по управляемому спотовому обучению в случае освобождения ресурса. Если активировано использование контрольных точек, SageMaker возобновит выполнение задания по управляемому спотовому обучению с последней контрольной точки.
Вопрос. Как подсчитать снижение издержек в случае использования заданий по управляемому спотовому обучению?
После завершения задания по управляемому спотовому обучению можно посмотреть, сколько вы экономите, в Консоли управления AWS, а также рассчитать снижение издержек в процентном соотношении между длительностью выполнения задания по обучению и длительностью, указанной в счете.
Независимо от количества прерываний заданий по управляемому спотовому обучению, вы оплачиваете только длительность загрузки данных.
Вопрос. Какие инстансы можно использовать для управляемого спотового обучения?
Для управляемого спотового обучения можно использовать все инстансы, которые поддерживает SageMaker.
Вопрос. В каких регионах поддерживается управляемое спотовое обучение?
Управляемое спотовое обучение поддерживается во всех регионах, в которых на данный момент доступен SageMaker.
Вопрос. Существуют ли ограничения на размер пакета данных, который используется для обучения?
С SageMaker для обучения моделей можно использовать пакеты данных любого размера.
Вопрос. Какие алгоритмы SageMaker использует для создания моделей?
SageMaker предоставляет следующие встроенные алгоритмы: вычисление линейной регрессии, логической регрессии, кластеризация методом k-средних, анализ основного компонента, факторизация машин, тематическое нейронное моделирование, латентное размещение Дирихле, построение деревьев методом градиентного роста, алгоритм sequence2sequence, прогнозирование временных рядов, word2vec и классификация изображений. Также SageMaker поддерживает оптимизированные контейнеры Apache MXNet, Tensorflow, Chainer, PyTorch, Gluon, Keras, Horovod, Scikit-learn и Deep Graph Library. Кроме того, SageMaker поддерживает собственные алгоритмы обучения, предоставленные в образе Docker в соответствии с требованиями спецификации.
Вопрос. Что такое автоматическая настройка модели?
Большинство алгоритмов машинного обучения раскрывают множество параметров, которые контролируют работу базового алгоритма. Эти параметры носят название гиперпараметров, и их значения влияют на качество итоговых обученных моделей. Автоматическая настройка модели – это процесс поиска такого набора гиперпараметров алгоритма, который позволит получить оптимальную модель.
Вопрос. Какие модели поддаются автоматической настройке?
Автоматическую настройку модели можно запускать в SageMaker поверх любого алгоритма до тех пор, пока это возможно с научной точки зрения. В число возможных вариантов входят встроенные алгоритмы SageMaker, глубокие нейронные сети, а также любые произвольные алгоритмы, которые были импортированы в SageMaker в виде образов Docker.
Вопрос. Можно ли использовать автоматическую настройку модели за пределами SageMaker?
В настоящий момент нет. Наибольшего эффекта от автоматической настройки модели можно добиться только в рамках SageMaker.
Вопрос. Какой алгоритм настройки лежит в основе автоматической настройки модели?
В данный момент в качестве алгоритма для настройки гиперпараметров используется специальным образом настроенный алгоритм байесовской оптимизации. Его задача – оптимизировать в процессе настройки заданные пользователем объективные метрики. А точнее, он проверяет объективные метрики завершенных заданий по обучению и использует полученные результаты для изменения комбинации гиперпараметров для следующего задания по обучению.
Вопрос. Рекомендует ли автоматическая настройка модели конкретные гиперпараметры для настройки?
Нет. Влияние различных гиперпараметров на поведение модели зависит от множества факторов. Из-за этого нельзя достоверно заявлять, что один из них важнее других и настраивать следует именно его. Для встроенных в SageMaker алгоритмов мы указываем, является ли тот или иной гиперпараметр настраиваемым.
Вопрос. Сколько времени занимает настройка гиперпараметров?
Продолжительность настройки гиперпараметров зависит от множества факторов, включая объем используемых данных, базовый алгоритм и значения гиперпараметров. Помимо этого пользователи имеют возможность выбрать количество одновременно выполняемых обучающих задач и их общее количество. Все эти факторы влияют на продолжительность настройки гиперпараметров.
Вопрос. Можно ли оптимизировать несколько целевых метрик по аналогии с моделями, чтобы они были одновременно и быстрыми, и точными?
В настоящий момент это невозможно. На данный момент пользователю необходимо указывать единственную целевую метрику для оптимизации или изменить код алгоритма таким образом, чтобы он порождал новую метрику, которая представляет собой среднее взвешенное между двумя и более полезными метриками. Процесс настройки необходимо будет оптимизировать в сторону этой целевой метрики.
Вопрос. Сколько стоит автоматическая настройка модели?
За саму настройку гиперпараметров плата не взимается. Плата начисляется за выполнение заданий по обучению, которые будут запущены процессом настройки гиперпараметров, согласно ценам на обучение моделей.
Вопрос. Как выбрать между SageMaker автопилотом и автоматической настройкой параметров?
SageMaker автопилот автоматизирует все задачи, входящие в типичный рабочий поток машинного обучения, такие как предварительная обработка компонентов, выбор алгоритма и настройка гиперпараметров, уделяя особое внимание примерам использования классификации и регрессии. Автоматическая настройка модели, в свою очередь, предназначена для настройки моделей независимо от их базовой структуры – встроенные алгоритмы, платформы глубокого обучения или настраиваемые контейнеры. В качестве платы за гибкость применения вам придется вручную выбрать определенный алгоритм, гиперпараметры для настройки и диапазоны поиска.
Вопрос. Что такое стимулированное обучение?
Стимулированное обучение – это техника машинного обучения, позволяющая агенту учиться в интерактивной среде методом проб и ошибок, используя обратную связь по своим действиям и взаимодействиям.
Вопрос. Можно ли обучать модели стимулированного обучения в SageMaker?
Да. В SageMaker можно обучать не только контролируемые и неконтролируемые модели, но и модели стимулированного обучения.
Вопрос. Чем стимулированное обучение отличается от контролируемого обучения?
Несмотря на то что и в контролируемом, и в стимулированном обучении используется сопоставление входных и выходных данных, в отличие от контролируемого обучения, где агенту в качестве обратной связи предоставляется набор шагов для выполнения задачи, в стимулированном обучении используется обратная связь с задержкой, когда поощрительные сигналы оптимизируются для достижения долгосрочной цели посредством выполнения последовательности действий.
Вопрос. В каких случаях следует использовать стимулированное обучение?
В то время как целью техник, используемых в контролируемом обучении, является поиск правильного ответа на основе существующих в учебных данных шаблонов, техники неконтролируемого обучения преследуют цель найти сходства и различия между точками данных. Техники стимулированного обучения (RL), в отличие от этого, призваны научить, как достичь нужного результата даже, когда не совсем понятно, что следует для этого делать. Следовательно, стимулированное обучение больше подходит для обеспечения работы интеллектуальных приложений, когда агент может принимать автономные решения: робототехника, автоматизированные транспортные средства, системы отопления, вентиляции и кондиционирования воздуха, промышленные системы контроля и управления и многое другое.
Вопрос. Какой тип сред можно использовать для обучения моделей стимулированного обучения?
Система стимулированного обучения Amazon SageMaker поддерживает несколько разных сред для обучения соответствующих моделей. Можно использовать такие сервисы AWS, как AWS RoboMaker, среды с открытым исходным кодом или пользовательские среды, разработанные с помощью интерфейсов Open AI Gym, а также коммерческие среды моделирования, такие как MATLAB и SimuLink.
Вопрос. Нужно ли создавать собственные алгоритмы для агентов стимулированного обучения, чтобы обучать соответствующие модели?
Нет, система стимулированного обучения SageMaker включает наборы инструментов для стимулированного обучения, такие как Coach и Ray RLLib, предлагающие реализации алгоритмов для агентов стимулированного обучения (DQN, PPO, A3C и многие другие).
Вопрос. Можно ли использовать собственные библиотеки и реализации алгоритмов стимулированного обучения в системе стимулированного обучения SageMaker?
Да, вы можете использовать собственные библиотеки и реализации алгоритмов стимулированного обучения, помещенные в контейнеры Docker, в системе стимулированного обучения SageMaker.
Вопрос. Можно ли выполнять распределенные развертывания с помощью системы стимулированного обучения SageMaker?
Да. Можно даже выбрать гетерогенный кластер, где обучение проходит в инстансе графического процессора, а моделирование – в нескольких инстансах ЦП.
Развертывание моделей
Вопрос. Какие варианты развертывания обеспечивает SageMaker?
После создания и обучения моделей SageMaker обеспечивает три варианта развертывания, чтобы начать работу с прогнозированием. Вывод в реальном времени подходит для рабочих нагрузок с необходимостью в миллисекундной задержке, размерами полезной нагрузки до 6 МБ и временем обработки до 60 секунд. Пакетное преобразование идеально подходит для автономного прогнозирования по доступным заранее большим пакетам данных. Асинхронный логический вывод предназначен для рабочих нагрузок, не требующих задержки менее секунды, с размером полезной нагрузки до 1 ГБ и временем обработки до 15 минут.
Вопрос. Что такое асинхронные логические выводы Amazon SageMaker?
Асинхронные логические выводы SageMaker ставят входящие запросы в очередь и обрабатывают их асинхронно. Этот вариант идеально подходит для запросов с большими размерами полезной нагрузки и/или длительным временем обработки, которые необходимо обрабатывать по мере поступления. При необходимости можно настроить параметры автоматического масштабирования, чтобы снижать количество инстансов до нуля, если не идет активный процесс обработки запросов, и сократить расходы.
Вопрос. Как настроить параметры автоматического масштабирования, чтобы снижать количество инстансов до нуля, если не идет активный процесс обработки запросов?
Вы можете снизить количество инстансов адреса асинхронных логических выводов SageMaker до нуля, когда не обрабатываете запросы активно, и сократить расходы. Необходимо определить политику масштабирования, которая меняется согласно пользовательской метрике ApproximateBacklogPerInstance, и установить значение MinCapacity равным нулю. Пошаговые инструкции см. в разделе Автомасштабирование асинхронного адреса в руководстве разработчика.
Вопрос. Что такое Бессерверный вывод Amazon SageMaker?
Бессерверный вывод SageMaker – это специализированный вариант бессерверного предоставления моделей, который упрощает развертывание и масштабирование моделей ML. Адреса Бессерверного вывода SageMaker автоматически запускают вычислительные ресурсы и масштабируют их в нужном направлении в зависимости от трафика, исключая необходимость в выборе типа инстанса, запуске распределенных ресурсов или управлении масштабированием. Дополнительно вы можете указать требования к памяти для вашего адреса Serverless Inference. Вы платите только за продолжительность выполнения кода логического вывода и объем обработанных данных, а не за периоды простоя.
Вопрос. В каких случаях рекомендуется использовать Бессерверный вывод SageMaker?
Бессерверный вывод SageMaker упрощает работу разработчиков, исключая необходимость в распределении ресурсов заранее и управлении политиками масштабирования. Бессерверный вывод SageMaker может осуществлять мгновенное масштабирование для разного числа логических выводов (от десятков до тысяч) в течение нескольких секунд исходя из шаблонов использования, благодаря чему это решение идеально подходит для приложений машинного обучения с непостоянным или непредсказуемым трафиком. Например, в сервисе Chatbot, используемом компанией, которая выполняет расчеты заработной платы, наблюдается увеличение числа запросов в конце месяца, тогда как трафик в оставшуюся часть месяца непостоянен. Распределение инстансов на весь месяц в таких сценариях не является настолько экономичным, как если прекратить оплачивать периоды простоя. SageMaker Serverless Inference помогает урегулировать эти типы стандартных примеров использования, предоставляя готовое решение для быстрого автоматического масштабирования без необходимости прогнозировать трафик заранее или управлять политиками масштабирования. Кроме того, вы платите только за время вычислений, которое требуется для выполнения кода логического вывода (с оплатой за миллисекунды), и за обработку данных, благодаря чему этот вариант становится более экономичным для рабочих нагрузок с непостоянным трафиком.
Вопрос. Что такое Provisioned Concurrency для бессерверного инференса SageMaker?
Provisioned Concurrency позволяет развертывать модели на бессерверных адресах с предсказуемой производительностью и высокой масштабируемостью, обеспечивая готовность адресов к заданному количеству одновременных запросов.
Вопрос. В каких случаях следует использовать Provisioned Concurrency?
При использовании бессерверных адресов по запросу, если адрес какое-то время не получает трафик, а затем внезапно получает новые запросы, может потребоваться некоторое время, чтобы адрес выделил вычислительные ресурсы для обработки запросов. Это называется холодным стартом. Холодный старт также может произойти, если количество одновременных запросов превышает текущее использование одновременных запросов. Время холодного старта зависит от размера модели, времени загрузки модели и времени запуска контейнера.
Чтобы уменьшить вариативность профиля задержки, вы можете дополнительно включить функцию Provisioned Concurrency для бессерверных адресов. Благодаря Provisioned Concurrency ваши бессерверные адреса всегда готовы и могут мгновенно обслуживать большие объемы трафика без холодного старта.
Вопрос. Как начисляется плата за Provisioned Concurrency?
Как и для бессерверного получения логических выводов по требованию, при использовании функции Provisioned Concurrency платить нужно только за объем вычислительных ресурсов, использованных для обработки запросов на получение логических выводов (плата начисляется по миллисекундам), и объем обработанных данных. Вы также платите за использование Provisioned Concurrency в зависимости от настроенной памяти, продолжительности выделенной памяти и степени задействования функции Provisioned Concurrency. Подробнее см. на странице цен на Amazon SageMaker.
Вопрос. Что такое теневое тестирование SageMaker?
SageMaker помогает проводить теневые тесты для оценки новой модели машинного обучения перед выпуском в производство путем тестирования ее производительности по сравнению с текущей развернутой моделью. SageMaker развертывает новую модель в теневом режиме рядом с текущей производственной моделью и зеркалирует указанную пользователем часть производственного трафика на новую модель. Опционально выполняется регистрация выводов модели для автономного сравнения. Он также предоставляет живую приборную панель со сравнением ключевых показателей производительности, таких как задержка и частота ошибок, между производственной и теневой моделями, чтобы помочь вам решить, стоит ли продвигать новую модель в производство.
Вопрос. Почему нужно использовать SageMaker для теневого тестирования?
SageMaker упрощает процесс настройки и мониторинга теневых вариантов, чтобы вы могли оценить производительность новой модели машинного обучения на живом производственном трафике. SageMaker избавляет вас от необходимости организовывать инфраструктуру для теневого тестирования. Это позволяет контролировать такие параметры тестирования, как процент трафика, зеркалируемого на теневой вариант, и продолжительность тестирования. В результате вы можете начать с малого и увеличить запросы на вывод для новой модели после того, как получите уверенность в производительности модели. SageMaker создает панель управления, отображающую различия в производительности по ключевым показателям, поэтому вы можете легко сравнить производительность модели, чтобы оценить, насколько новая модель отличается от производственной.
Вопрос. Что такое Рекомендательная система Amazon SageMaker для логического вывода?
Рекомендательная система SageMaker для логического вывода сокращает время, требующееся для запуска моделей машинного обучения в работу, посредством автоматизации тестирования и настройки производительности моделей в ML-инстансах SageMaker. Теперь вы можете использовать Рекомендательную систему SageMaker для логического вывода для развертывания своей модели на адресе, который обеспечивает наилучшую производительность и сводит расходы к минимуму. Приступить к работе с SageMaker Inference Recommender можно за считанные минуты, выбрав тип инстанса и получив рекомендации по оптимальным конфигурациям адреса в течение нескольких часов, исключая недели, требующиеся на тестирование и настройку вручную. При использовании SageMaker Inference Recommender вы платите только за ML-инстансы SageMaker, которые используются во время тестирования нагрузок. Никакие дополнительные платы не начисляются.
Вопрос. В каких случаях следует использовать SageMaker Inference Recommender?
Использовать SageMaker Inference Recommender следует в тех случаях, когда вам необходимы рекомендации по правильной конфигурации адреса для повышения производительности и сокращения расходов. Ранее специалистам по работе с данными, которые хотели развернуть свои модели, для выбора правильной конфигурации адреса приходилось запускать тесты производительности вручную. Сперва им требовалось выбрать правильный тип ML-инстанса из более 70 доступных исходя из требований к ресурсам для своих моделей и образцов полезных данных, а затем – оптимизировать модель с учетом разного аппаратного обеспечения. После этого им нужно было провести обширные тесты нагрузок, чтобы убедиться в соблюдении требований касательно задержки и пропускной способности, а также обеспечить низкие расходы. SageMaker Inference Recommender упрощает этот процесс, чтобы вы смогли: 1) начать работу с рекомендацией по инстансу в течение нескольких минут; 2) провести тесты нагрузок для разных типов инстансов с целью получения рекомендаций по конфигурации адреса в течение нескольких часов; 3) автоматически настроить параметры сервера для контейнера и модели, а также выполнить оптимизации моделей для заданного типа инстанса.
Вопрос. Как SageMaker Inference Recommender взаимодействует с другими сервисами AWS?
Специалисты по работе с данными могут получать доступ к SageMaker Inference Recommender из SageMaker Studio, AWS SDK for Python (Boto3) или AWS CLI. Они могут получать рекомендации по развертыванию в пределах SageMaker Studio в реестре моделей SageMaker для зарегистрированных их версий. Специалисты по работе с данными могут осуществлять поиск рекомендаций и фильтровать их с помощью SageMaker Studio, AWS SDK или AWS CLI.
Вопрос. Возможна ли в сервисе SageMaker Inference Recommender поддержка адресов для нескольких моделей или контейнеров?
Нет. В настоящий момент мы обеспечиваем поддержку только для одной модели на адрес.
Вопрос. Какой тип адресов поддерживает SageMaker Inference Recommender?
В настоящий момент мы обеспечиваем поддержку только адресов в реальном времени.
Вопрос. Можно ли использовать Рекомендательную систему SageMaker для логического вывода в одном регионе и тестировать производительность в других регионах?
Мы обеспечиваем поддержку всех регионов, которые поддерживаются в Amazon SageMaker, кроме регионов AWS Китай.
Вопрос. Поддерживает ли Рекомендательная система SageMaker для логического вывода инстансы Amazon EC2 Inf1?
Да. Мы обеспечиваем поддержку всех типов контейнеров. Для Amazon EC2 Inf1, в зависимости от чипа AWS Inferentia, требуется получение артефакта скомпилированной модели с использованием компилятора Neuron или Amazon SageMaker Neo. После получения скомпилированной модели для целевого объекта Inferentia и связанного с ней URI образа контейнера можно использовать Рекомендательную систему SageMaker для логического вывода с целью тестирования производительности для различных типов инстансов Inferentia.
Вопрос. Что такое Монитор модели Amazon SageMaker?
Монитор модели SageMaker позволяет разработчикам обнаруживать и устранять концептуальное отклонение. Монитор модели SageMaker автоматически обнаруживает концептуальные отклонения в развернутых моделях и выдает подробные оповещения, которые помогают определить источник проблемы. Все модели, прошедшие обучение в SageMaker, автоматически генерируют основные метрики, которые можно собирать и просматривать в SageMaker Studio. Внутри студии SageMaker можно настроить собираемые данные, способы их просмотра и ситуации, которые будут генерировать отправку оповещений.
Вопрос. Можно ли получить доступ к инфраструктуре, на которой работает SageMaker?
Нет. SageMaker управляет вычислительной инфраструктурой от имени клиента, что позволяет выполнять проверку работоспособности, применять обновления безопасности и выполнять другие рутинные работы по обслуживанию. Кроме того, сервис дает возможность развертывать артефакты моделей обучения с собственным кодом логического вывода в своей среде хостинга.
Вопрос. Как увеличить размер и производительность модели SageMaker, запущенной в рабочей среде?
Хостинг SageMaker автоматически масштабирует производительность на основании потребностей приложения, используя Application Auto Scaling. Сервис также позволяет вручную изменить количество и тип инстансов при редактировании конфигурации адреса, не останавливая работу системы.
Вопрос. Как выполнять мониторинг SageMaker в рабочей среде?
SageMaker отправляет метрики производительности в Amazon CloudWatch. Это позволяет отслеживать метрики, устанавливать предупреждения и автоматически реагировать на изменения в рабочем трафике. Кроме того, SageMaker записывает журналы в Журналы Amazon CloudWatch, что дает возможность отслеживать и устранять проблемы рабочего развертывания.
Вопрос. Какие модели можно разместить с помощью SageMaker?
SageMaker может разместить любую модель, которая соответствует задокументированной спецификации для образов Docker, используемых для логического вывода. Сюда входят модели, созданные из артефактов моделей SageMaker и кода логического вывода.
Вопрос. Какое количество одновременных запросов API в режиме реального времени поддерживает SageMaker?
SageMaker рассчитан на масштабирование для обеспечения большого количества транзакций в секунду. Точное количество определяется конкретной моделью, а также количеством и типом инстансов, на которых выполнено развертывание.
Вопрос. Что такое пакетное преобразование?
Пакетное преобразование позволяет выполнять прогнозирование на основе крупных или малых пакетов данных. Вам не придется разбивать набор данных на несколько фрагментов или управлять адресами реального времени. С помощью простого API можно запрашивать прогнозы для большого количества записей данных, а затем быстро и просто преобразовывать данные.
Вопрос. Что такое Amazon SageMaker Edge Manager?
Менеджер периферии SageMaker упрощает оптимизацию, защиту, мониторинг и обслуживание моделей машинного обучения на большом числе периферийных устройств (интеллектуальные камеры, роботы, персональные компьютеры и мобильные устройства). Менеджер периферии SageMaker помогает разработчикам машинного обучения работать с моделями машинного обучения на множестве периферийных устройств в любом масштабе.
Вопрос. Как начать работу с SageMaker Edge Manager?
Для начала работы с SageMaker Edge Manager вам нужно скомпилировать и упаковать обученные модели машинного обучения для использования в облаке, зарегистрировать устройства и подготовить их с помощью SageMaker Edge Manager SDK. Для подготовки модели к развертыванию SageMaker Edge Manager компилирует модель для целевого периферийного оборудования с помощью SageMaker Neo. Когда завершается компиляция модели, SageMaker Edge Manager подписывает ее ключом, созданным в AWS, а затем создает готовый к развертыванию пакет, содержащий модель, необходимую среду выполнения и учетные данные. На стороне устройства необходимо выполнить регистрацию в SageMaker Edge Manager, затем загрузить SageMaker Edge Manager SDK и выполнить инструкции по установке агента SageMaker Edge Manager на каждом из устройств. Обучающий блокнот содержит пример с пошаговым описанием для процесса подготовки моделей и подключения к периферийным устройствам с помощью SageMaker Edge Manager.
Вопрос. Какие устройства поддерживает SageMaker Edge Manager?
Менеджер периферии SageMaker поддерживает устройства на базе наиболее распространенных ЦП (ARM, x86) и графических процессоров (ARM, Nvidia) с операционными системами Linux и Windows. Со временем функциональные возможности Менеджера периферии SageMaker будут дополнены для поддержки дополнительных встраиваемых процессоров и мобильных платформ, которые уже поддерживаются в SageMaker Neo.
Вопрос. Нужно ли использовать SageMaker для обучения модели, чтобы применить Менеджер периферии SageMaker?
Нет, не нужно. Вы можете обучить свои модели любым другим способом или выбрать предварительно обученную моделью из открытого источника или от любого поставщика моделей.
Вопрос. Нужно ли использовать SageMaker Neo для компиляции модели, чтобы применить Менеджер периферии SageMaker?
Да, нужно. SageMaker Neo преобразует и скомпилирует модели в исполняемые фалы, которые вы сможете легко упаковать и развернуть на периферийных устройствах. После развертывания пакета модели агент Менеджера периферии SageMaker распакует его и запустит модель на устройстве.
Вопрос. Как выполняется развертывание модели на периферийных устройствах?
Менеджер периферии SageMaker сохраняет пакет модели в указанной вами корзине Amazon S3. Вы можете использовать возможность обновления по беспроводной сети (OTA), предоставляемую сервисом AWS IoT Greengrass, или любой другой механизм развертывания, чтобы развернуть пакет модели из корзины S3 на устройства.
Вопрос. Чем SDK Менеджера периферии SageMaker отличается от среды выполнения SageMaker Neo (dlr)?
Neo dlr представляет собой среду выполнения с открытым исходным кодом, которая выполняет только модели, скомпилированные в сервисе SageMaker Neo. В отличие от dlr с открытым исходным кодом, пакет SDK Менеджера периферии SageMaker содержит агент устройства корпоративного уровня, который обеспечивает дополнительные возможности для безопасности, управления моделями и обслуживания моделей. SDK Менеджера периферии SageMaker подходит для развертывания продукта в большом масштабе.
Вопрос. Как Менеджер периферии SageMaker связан с AWS IoT Greengrass?
Менеджер периферии SageMaker и AWS IoT Greengrass могут совместно работать в вашем решении для Интернета вещей. Упаковав модель машинного обучения с помощью Менеджера периферии SageMaker, вы сможете применить возможность обновления по беспроводной сети AWS IoT Greengrass для развертывания пакета модели на устройствах. AWS IoT Greengrass позволяет удаленно отслеживать устройства Интернета вещей, а Менеджер периферии SageMaker помогает контролировать и поддерживать модели машинного обучения на этих устройствах.
Вопрос. Как Менеджер периферии SageMaker связан с AWS Panorama? В каких случаях следует использовать Менеджер периферии SageMaker, а в каких – AWS Panorama?
AWS предлагает самые широкие и глубокие возможности для запуска моделей на периферийных устройствах. У нас есть сервисы для поддержки широкого набора сценариев использования, включая машинное зрение, распознавание голоса и профилактическое обслуживание.
Если ваша компания собирается применять машинное зрение на камерах и других периферийных устройствах, вы можете использовать AWS Panorama. AWS Panorama предоставит готовые к развертыванию приложения машинного зрения для периферийных устройств. Чтобы начать работу с AWS Panorama, достаточно лишь войти в облачную консоль, указать нужную модель для Amazon S3 или SageMaker, а затем реализовать бизнес-логику в формате скрипта Python. AWS Panorama скомпилирует эту модель для целевого устройства и создаст пакет приложения, который вы сможете всего в несколько щелчков мыши развернуть на соответствующих устройствах. Кроме того, независимые поставщики ПО смогут создать собственные приложения на основе AWS Panorama SDK, а Device SDK позволит производителям устройств сертифицировать свои устройства для работы с AWS Panorama.
Клиенты, которым нужны собственные модели или более детальный контроль за признаками модели, могут воспользоваться Менеджером периферии SageMaker. Управляемый Менеджер периферии SageMaker позволяет подготавливать, выполнять, контролировать и обновлять модели машинного обучения на большом числе периферийных устройств (интеллектуальные камеры, динамики, роботы и т. п.) для использования таких возможностей, как обработка естественного языка, обнаружение мошенничества и профилактическое техническое обслуживание. SageMaker Edge Manager предназначен для разработчиков машинного обучения для периферийных устройств, которым нужен более полный контроль за моделями, например для создания собственных признаков или отслеживания отклонений. Любой разработчик машинного обучения для периферийных устройств может работать с SageMaker Edge Manager через консоль SageMaker и SageMaker API. Менеджер периферии SageMaker позволяет применить всю мощь SageMaker для создания, обучения моделей и их развертывания на периферийных устройствах через облако.
Вопрос. В каких регионах доступен Менеджер периферии SageMaker?
Менеджер периферии SageMaker доступен в шести регионах AWS: Восток США (Северная Вирджиния), Восток США (Огайо), Запад США (Орегон), Европа (Ирландия), Европа (Франкфурт) и Азиатско-Тихоокеанский регион (Токио). Подробнее см. в списке региональных сервисов AWS.
Вопрос. Что такое Amazon SageMaker Neo?
SageMaker Neo позволяет обучить модели машинного обучения однократно, а затем запускать их где угодно в облаке и на периферии. SageMaker Neo автоматически оптимизирует модели, созданные на базе популярных платформ глубокого обучения, которые можно использовать для развертывания на нескольких аппаратных платформах. Оптимизированные модели выполняются до 25 раз быстрее и потребляют менее десятой части ресурсов по сравнению со стандартными моделями машинного обучения.
Вопрос. Как начать работу с SageMaker Neo?
Чтобы начать работу с SageMaker Neo, необходимо войти на консоль SageMaker, выбрать обученную модель, составить модели, следуя примеру, а затем развернуть полученную модель на целевой аппаратной платформе.
Вопрос. Каковы основные компоненты SageMaker Neo?
SageMaker Neo состоит из двух основных компонентов: компилятора и среды выполнения. Во-первых, компилятор SageMaker Neo считывает модели, экспортированные разными платформами. Затем он преобразует функции и операции платформы в промежуточное представление, которое не зависит от платформы. Затем компилятор выполняет серию оптимизаций, создает двоичный код для оптимизированных операций и записывает их в общую библиотеку объектов. Компилятор также сохраняет определение и параметры модели в отдельные файлы. Во время выполнения среда выполнения SageMaker Neo загружает артефакты, созданные компилятором: определение модели, параметры, а также общую библиотеку объектов для выполнения модели.
Вопрос. Требуется ли использовать SageMaker для обучения модели, чтобы использовать SageMaker Neo для преобразования модели?
Нет. Для обученных в любом месте моделей можно применить SageMaker Neo, чтобы оптимизировать их для инстансов машинного обучения SageMaker или устройств с поддержкой AWS IoT Greengrass.
Вопрос. Какие модели поддерживает SageMaker Neo?
В настоящее время SageMaker Neo поддерживает наиболее популярные модели машинного обучения, которые лежат в основе приложений компьютерного зрения и наиболее популярные модели дерева принятия решений, которые сегодня используются в SageMaker. SageMaker Neo оптимизирует производительность моделей AlexNet, ResNet, VGG, Inception, MobileNet, SqueezeNet и DenseNet, обученных в MXNet и TensorFlow, а также обученных в XGBoost моделей классификации и моделей на основе алгоритма Random Cut Forest.
Вопрос. Какие аппаратные платформы поддерживает SageMaker Neo?
Списки поддерживаемых облачных инстансов, периферийных устройств и версий платформ можно найти в документации по SageMaker Neo.
Вопрос. В каких регионах доступен SageMaker Neo?
Список поддерживаемых регионов вы найдете в списке региональных сервисов AWS.
Тарифы Amazon SageMaker Savings Plans
Вопрос. Что такое тарифы Экономичные планы Amazon SageMaker?
Экономичные планы SageMaker предлагают гибкую модель ценообразования на основе использования для SageMaker, применяемую при условии, что клиент обязуется использовать постоянный объем вычислительных ресурсов (измеряемый в USD/час) на протяжении одного года или трех лет. Экономичные планы SageMaker – это самый гибкий вариант, помогающий экономить до 64 %. Эти тарифы автоматически применяются к соответствующим инстансам SageMaker ML, включая блокноты Студии SageMaker, блокноты SageMaker по требованию, Обработку SageMaker, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference и SageMaker Batch Transform, независимо от семейства инстансов, размера и региона. Например, для обработки рабочих нагрузок, связанных с получением логических выводов, вместо инстанса ml.c5.xlarge, работающего в регионе Восток США (Огайо), можно в любое время перейти к использованию инстанса ml.Inf1 в регионе Запад США (Орегон) и автоматически продолжать пользоваться тарифами Экономичных планов.
Вопрос. В каких случаях рекомендуется использовать Экономичные планы SageMaker?
Если вы с определенной частотой (измеряемой в USD в час) используете инстансы SageMaker и несколько компонентов SageMaker или ожидаете, что ваша конфигурация (например, семейство инстансов, регион) будет со временем меняться, тарифы Экономичных планов SageMaker позволят вам получить максимальную экономию при одновременном обеспечении гибкости изменения конфигурации базовых технологий с учетом потребностей приложений и внедрения инноваций. Тарифы Экономичных планов применяется автоматически ко всем подходящим инстансам машинного обучения без какого-либо ручного вмешательства.
Вопрос. Как начать работу с Экономичными планами SageMaker?
Экономичные планы SageMaker можно подключить в Обозревателе затрат AWS на Консоли управления или с помощью API либо командной строки. Пользуясь рекомендациями в AWS Cost Explorer, вы без труда выберете оптимальные обязательства по Savings Plans, чтобы добиться максимальной экономии средств. Рекомендуемые почасовые обязательства основаны на вашей истории использования ресурсов по требованию и личном выборе типа плана, срока действия и способа оплаты. После регистрации плана оплаты по схеме Savings Plans плата за использование вычислительных ресурсов автоматически станет начисляться в соответствии с льготными ценами этого плана, а превышение выбранного объема будет оплачиваться по тарифам схемы по требованию.
Вопрос. Чем отличаются Экономичные планы SageMaker от Планов экономии вычислительных ресурсов для Amazon EC2?
Разница между Экономичными планами для SageMaker и для Amazon EC2 заключается в перечне поддерживаемых ими сервисов. Экономичные планы SageMaker применяются только к использованию инстансов машинного обучения SageMaker.
Вопрос. Как тарифы Savings Plans работают с AWS Organizations и консолидированной оплатой?
Тарифы Savings Plans можно приобрести в любом аккаунте группы AWS Organization и консолидированной оплаты. По умолчанию экономия, предоставляемая тарифами Savings Plans, распространяется на все аккаунты в рамках группы AWS Organization и консолидированной оплаты. Однако вы также можете ограничить действие тарифов Savings Plans только аккаунтом, в котором они были приобретены.
Подробнее о ценах на Amazon SageMaker