Что такое переоснащение?

Переоснащение — нежелательное поведение машинного обучения, которое возникает, когда модель машинного обучения дает точные прогнозы для обучающих данных, но не для новых данных. Когда специалисты по обработке данных используют модели машинного обучения для прогнозирования, они сначала обучают модель на известном наборе данных. Затем на основе этой информации модель пытается предсказать результаты для новых наборов данных. Модель переподготовки может давать неточные прогнозы и не может хорошо работать для всех типов новых данных.

Почему происходит переобучение?

Точные прогнозы можно получить только в том случае, если модель машинного обучения обобщается касательно всех типов данных в своей области. Переобучение происходит, когда модель не может быть обобщена и слишком точно соответствует обучающему набору данных. Переобучение происходит по нескольким причинам, таким как:
•   Размер обучающих данных слишком мал и не содержит достаточного количества выборок данных для точного представления всех возможных значений входных данных.
•   Обучающие данные содержат большое количество нерелевантной информации, называемой зашумленными данными.
•   Модель слишком долго обучается на одном наборе выборочных данных.
•   Сложность модели высока, поэтому она изучает шум в обучающих данных.

Примеры переобучения
Рассмотрим пример использования, когда модель машинного обучения должна анализировать фотографии и идентифицировать снимки, на которых изображены собаки. Если модель машинного обучения была обучена на наборе данных, который содержал большинство фотографий собак на улице в парках, она может научиться использовать траву в качестве признака для классификации и может не распознать собаку в комнате.
Другим примером переобучения является алгоритм машинного обучения, который прогнозирует успеваемость студента университета и результаты выпуска, анализируя несколько факторов, таких как доход семьи, прошлая успеваемость и академическая квалификация родителей. Однако данные теста включают только кандидатов определенного пола или этнической группы. В этом случае переобучение приводит к снижению точности прогнозирования алгоритма для кандидатов с полом или этнической принадлежностью за пределами тестового набора данных.

Как определить переобучение?

Лучший метод обнаружения перегруженных моделей – тестирование моделей машинного обучения на большем количестве данных с полным представлением возможных значений и типов входных данных. Как правило, часть обучающих данных используется в качестве тестовых данных для проверки переобучения. Высокая частота ошибок в данных тестирования указывает на переобучение. Один из методов тестирования на переобучение приведен ниже.
K-кратная перекрестная проверка
Перекрестная проверка – один из методов тестирования, используемых на практике. В этом методе специалисты по обработке данных делят обучающее множество на K одинаковых по размеру подмножеств или наборов образцов, называемых слагаемыми. Процесс обучения состоит из серии итераций. Во время каждой итерации выполняются указанные ниже шаги.
1.   Оставьте одно подмножество в качестве данных проверки и обучите модель машинного обучения на оставшихся подмножествах K-1.
2.   Посмотрите, как модель работает на проверочном образце.
3.   Оценка производительности модели на основе качества выходных данных.

Итерации повторяются до тех пор, пока вы не протестируете модель на каждом наборе образцов. Затем вы усредняете баллы по всем итерациям, чтобы получить окончательную оценку прогнозной модели.

Как предотвратить переобучение?

Вы можете предотвратить переобучение, диверсифицировав и масштабируя набор обучающих данных или используя другие стратегии анализа данных, например приведенные ниже.
Ранняя остановка
Ранняя остановка приостанавливает этап обучения до того, как модель машинного обучения узнает шум в данных. Однако важно правильно выбрать время, иначе модель все равно не даст точных результатов.
Обрезка
При построении модели можно определить несколько объектов или параметров, влияющих на окончательный прогноз. Выборка объектов (или сокращение) определяет наиболее важные функции в обучающем наборе и устраняет ненужные. Например, чтобы предсказать, является ли изображение животным или человеком, вы можете посмотреть на различные входные параметры, такие как форма лица, положение ушей, структура тела и т. д. Вы можете отдавать предпочтение форме лица и игнорировать форму глаз.
Регуляризация
Регуляризация – это набор методов обучения/оптимизации, направленных на сокращение переоснащения. Эти методы пытаются устранить те факторы, которые не влияют на результаты прогнозирования, путем оценки объектов на основе важности. Например, математические вычисления применяют штрафы к объектам с минимальным воздействием. Рассмотрим статистическую модель, пытающуюся предсказать цены на жилье в городе через 20 лет. Регуляризация даст меньшее значение штрафа для таких характеристик, как рост населения и среднегодовой доход, но большее значение штрафа для среднегодовой температуры в городе.
Ансамблирование
Ансамблирование объединяет прогнозы нескольких отдельных алгоритмов машинного обучения. Некоторые модели называют слабыми, потому что их результаты часто неточны. Методы ансамблирования объединяют всех слабых учащихся для получения более точных результатов. Они используют несколько моделей для анализа выборочных данных и выбора наиболее точных результатов. Два основных метода ансамблирования – это пакетирование и бустинг. Во время бустинга обучаются разные модели машинного обучения одна за другой, чтобы получить конечный результат, в то время как пакетирование обучает их параллельно.
Дополнение данных
Дополнение данных – это метод машинного обучения, при котором выборочные данные немного изменяются каждый раз, когда модель их обрабатывает. Это можно сделать, незначительно изменяя входные данные. При умеренном увеличении данных учебные наборы выглядят уникальными для модели и не позволяют модели изучать их характеристики. Например, применение преобразований, таких как перемещение, отражение и поворот, к входным изображениям.

Что такое недообучение?

Недообучение – это еще один тип ошибок, возникающих, когда модель не может определить значимую связь между входными и выходными данными. Вы получаете недоподходящие модели, если они не обучались в течение соответствующего периода времени на большом количестве точек данных.
Недообучение или переобучение
Неподходящие модели характеризуются высокой степенью смещения – они дают неточные результаты как для тренировочных данных, так и для набора тестов. С другой стороны, модели overfit имеют высокую дисперсию – они дают точные результаты для тренировочного набора, но не для тестового набора. Более тщательное обучение модели приводит к меньшей погрешности, но дисперсия может увеличиться. Специалисты по обработке данных стремятся найти золотую середину между недообучением и переобучением при подгонке модели. Хорошо подогнанная модель может быстро установить доминирующую тенденцию для видимых и невидимых наборов данных.

Как AWS может минимизировать ошибки переобучения в ваших моделях машинного обучения?

Вы можете использовать Amazon SageMaker, чтобы создавать, обучать и развертывать модели машинного обучения для любого сценария использования с полностью управляемыми инфраструктурой, инструментами и рабочими процессами. Amazon SageMaker имеет встроенную функцию Отладчик Amazon SageMaker, которая автоматически анализирует данные, генерируемые во время обучения, такие как ввод, вывод и преобразования. В результате система может обнаруживать и сообщать о переобучении и других неточностях без вмешательства пользователя.

Ниже приведены несколько примеров.

Автоматическая остановка тренировочного процесса при достижении желаемой точности.
Захватывайте показатели обучения в режиме реального времени.
Получайте оповещения при обнаружении переобучения.

Сократите время и стоимость обучения моделей машинного обучения. Начните работу с машинным обучением на AWS, создав бесплатный аккаунт уже сегодня!