Что такое обучение моделей в SageMaker?
Сервис обучения моделей в Amazon SageMaker сокращает время и затраты на обучение и настройку моделей машинного обучения (МО) в нужных масштабах без необходимости управления инфраструктурой. Вы можете воспользоваться преимуществами самой производительной вычислительной инфраструктуры машинного обучения, доступной в настоящее время. При этом искусственный интеллект Amazon SageMaker может автоматически масштабировать ее от одного до тысячи графических процессоров. Сервис SageMaker AI позволяет ускорить обучение моделей глубокого обучения посредством выбора и уточнения наборов данных в режиме реального времени. Библиотеки распределенного обучения SageMaker автоматически распределяют большие модели и наборы данных для обучения по инстансам с графическими процессорами AWS. Кроме того, доступны сторонние библиотеки, например DeepSpeed, Horovod или Megatron. Обучать базовые модели можно на протяжении недель и даже месяцев без перерывов, автоматически отслеживая и устраняя неполадки учебных кластеров.
Преимущества экономичного обучения
Модели обучения в любом масштабе
Полностью управляемые задания обучения
Задания обучения SageMaker разработаны для создания полностью управляемого пользовательского процесса при обучении больших распределенных базовых моделей, что позволяет избавиться от неравномерной нагрузки на управление инфраструктурой. Задания обучения SageMaker автоматически инициируют создание устойчивого распределенного кластера обучения, следят за инфраструктурой и самостоятельно восстанавливают ее после сбоев, чтобы гарантировать беспрерывность процесса обучения. После выполнения задания обучения SageMaker отключает кластер, а вам выставляют счет только за чистое время обучения. Кроме того, при использовании этих заданий обучения в SageMaker можно свободно выбирать тип инстанса, который лучше всего подойдет для конкретной рабочей нагрузки (например, предварительное обучение для большой языковой модели (LLM) на кластере P5 или тонкую настройку LLM с открытым исходным кодом на инстансах p4d). Так достигается дальнейшая оптимизация расходов на обучение. Следует также добавить, что благодаря заданиям обучения SagerMaker можно поддерживать единый пользовательский процесс в командах машинного обучения с разным уровнем технической квалификации и различными типами рабочей нагрузки.
SageMaker HyperPod
Amazon SageMaker HyperPod – это специализированная инфраструктура для эффективного управления вычислительными кластерами и масштабирования разработки базовых моделей (FM). Она позволяет внедрять передовые методы обучения моделей, управлять инфраструктурой, оптимизировать производительность, а также улучшать наблюдаемость моделей. В SageMaker HyperPod предварительно настроены распределенные библиотеки обучения SageMaker, благодаря которым можно автоматически разбивать модели и необходимые наборы данных по кластерным инстансам AWS для эффективного использования вычислительной и сетевой инфраструктуры кластера. Это решение создает более стойкую среду, автоматически обнаруживая, диагностируя и устраняя ошибки аппаратного обеспечения, что позволяет непрерывно обучать базовые модели в течение нескольких месяцев. Собственно, время обучения сокращается на 40 %.
Высокопроизводительное распределенное обучение
SageMaker AI ускоряет выполнение распределенного обучения, автоматически разделяя модели и наборы обучающих данных между ускорителями AWS. Это поможет оптимизировать задачу обучения для сетевой инфраструктуры AWS и топологии кластера. Кроме того, таким образом можно легко осуществлять проверку моделей с помощью рецептов, оптимизируя периодичность сохранения контрольных точек и обеспечивая минимизацию затрат при обучении. Благодаря рецептам специалисты по обработке данных и разработчики с любым арсеналом навыков по достоинству оценят ультрасовременную производительность и смогут в кратчайшие сроки приступить к обучению и настройке общедоступных моделей генеративного искусственного интеллекта, в число которых входят Llama 3.1 405B, Mixtral 8x22B и Mistral 7B. Рецепты включают протестированный AWS стек обучения, что избавляет от многонедельной утомительной работы по тестированию различных конфигураций моделей. Можно также переключаться между инстансами на базе графического процессора и AWS Trainium, изменив в готовом решении всего одну строку и включив автоматическую проверку моделей для повышения устойчивости обучения. Кроме того, можно выполнять рабочие нагрузки в производственной среде с помощью выбранной вами функции обучения SageMaker.
Встроенные инструменты для максимального повышения точности и снижения стоимости
Автоматическая настройка модели
SageMaker AI может автоматически настраивать модель, подбирая тысячи комбинаций параметров алгоритма для получения наиболее точных прогнозов и экономя недели рабочего времени. С его помощью вы сможете найти лучшую версию модели, выполнив множество заданий обучения на том или ином наборе данных.
![Рабочие процессы обучения МО](https://d1.awsstatic.com/products/sagemaker/train/SageMaker-Train_automatic-model-tuning-1200px-low_res-width-1200px.f72b3a3d68b9d30f92ae718e833685bd01287afe.png)
Управляемое спотовое обучение
SageMaker AI помогает снизить затраты на обучение (вплоть до 90 %) за счет автоматического запуска заданий обучения при появлении вычислительных ресурсов. Такие задания обучения также устойчивы к приостановкам работы, вызванным изменениями в объеме доступных ресурсов.
Отладка
Отладчик Amazon SageMaker собирает метрики и профили заданий обучения в режиме реального времени, что позволяет быстро устранить проблемы с производительностью перед развертыванием модели в рабочей среде. Кроме того, чтобы выполнить отладку, можно удаленно подключиться к среде обучения модели в SageMaker, получив доступ к базовому учебному контейнеру.
![Автоматическая настройка модели](https://d1.awsstatic.com/products/sagemaker/train/SageMaker-Train_debugging-1200px-low_res-width-1200px.3f75d7b4b3a35b3ef00b49b99adbbbf1cc59c20b.png)
Profiler
![Управляемое спотовое обучение](https://d1.awsstatic.com/products/sagemaker/train/SageMaker-Train_profiler-1200px-low_res-width-1200px.cfa2d9c80b03df863be0d50da4d10a003dc98e2a.png)
Встроенные инструменты интерактивности и мониторинга
Amazon SageMaker с MLflow
Используйте обучение SageMaker в сочетании с MLflow, чтобы собирать данные о входных параметрах, конфигурациях и результатах, что поможет вам быстро найти наиболее эффективные модели для конкретного сценария использования. Пользовательский интерфейс MLflow позволяет анализировать все попытки обучения модели и регистрировать модели-кандидаты для производственной среды за один короткий шаг.
![отладка](https://d1.awsstatic.com/collaborate.ff4be7debda7b22d6d3cba2cf1a201f315fffdba.png)
Amazon SageMaker с TensorBoard
Amazon SageMaker с TensorBoard помогает ускорить разработку за счет визуализации архитектуры модели для выявления и устранения проблем конвергенции, таких как потеря результатов валидации, отсутствие конвергенции или исчезающие градиенты.
![Управление экспериментами](https://d1.awsstatic.com/products/sagemaker/train/SageMaker-Train_tensorboard-1200px-low_res-width-1200px.f9fbe04761f1ed7678e50b1cfbef6693e304ca63.png)
Гибкое и быстрое обучение
Полная настройка
SageMaker AI поставляется со встроенными библиотеками и инструментами, упрощающими и ускоряющими обучение моделей. SageMaker AI поддерживает популярные модели машинного обучения с открытым исходным кодом, такие как GPT, BERT и DALL·E; платформы машинного обучения, такие как PyTorch и TensorFlow, и трансформеры, например Hugging Face. Благодаря SageMaker AI вы можете использовать популярные библиотеки и инструменты с открытым исходным кодом, такие как DeepSpeed, Megatron, Horovod, Ray Tune и TensorBoard, в зависимости от ваших потребностей.
![Profiler](https://d1.awsstatic.com/products/sagemaker/train/SageMaker-Train_customization-1200px-low_res-width-1200px.10cae314b1b9c0ee0d12d1890dd25e78b2c78855.png)
Преобразование локального кода
Используя Amazon SageMaker Python SDK, вы можете запускать код машинного обучения, созданный в выбранной вами интегрированной среде разработки (IDE) и локальных блокнотах, вместе с соответствующими зависимостями времени выполнения в виде крупномасштабных заданий по обучению моделей МО с минимальными изменениями кода. Вам нужно только добавить строку кода (декоратор Python) в локальный код МО. SageMaker Python SDK принимает код вместе с настройками наборов данных и рабочей среды и запускает его как задание обучения SageMaker.
Автоматизированные рабочие процессы обучения МО
Автоматизация рабочих процессов обучения с помощью конвейеров Amazon SageMaker дает возможность создать воспроизводимый процесс оркестрации этапов разработки модели для быстрого экспериментирования и переобучения моделей. Шаги можно выполнять автоматически через регулярные промежутки времени или при возникновении определенных событий либо вручную – по мере необходимости.
Гибкие планы обучения
Чтобы уложиться в сроки и бюджет обучения, SageMaker AI помогает создавать наиболее экономичные учебные планы, в которых используются ресурсы сразу нескольких блоков вычислительных мощностей. После утверждения учебных планов SageMaker AI автоматически подготовит инфраструктуру и запустит учебные задания на этих вычислительных ресурсах без необходимости ручного вмешательства, что позволяет сэкономить недели усилий по управлению учебным процессом для приведения заданий в соответствие с доступностью вычислительных ресурсов.
Клиенты
Ресурсы
Что нового?
Total results: 5
- По дате (от новых к старым)
-
20.12.2023
-
29.11.2023
-
15.07.2022
-
08.07.2022
-
10.06.2022