В чем разница между машинным обучением под наблюдением и машинным обучением без наблюдения?

Машинное обучение (ML) под наблюдением и без наблюдения – это две категории алгоритмов машинного обучения. Алгоритмы машинного обучения обрабатывают большие объемы архивных данных для выявления закономерностей с помощью выводов. 

Алгоритмы обучения под наблюдением обучаются на образцах данных, определяющих как входные, так и выходные данные алгоритма. Например, данные могут представлять собой изображения рукописных чисел с аннотациями, указывающими, какие числа они представляют. При наличии достаточного количества маркированных данных система обучения под наблюдением в конечном итоге распознает кластеры пикселей и фигур, связанных с каждым рукописным числом. 

Алгоритмы обучения без наблюдения обучаются на немаркированных данных. Такие алгоритмы сканируют новые данные и устанавливают значимые связи между неизвестными входными и заранее определенными выходными данными. Например, они могут группировать статьи с разных новостных веб-сайтов в общие категории, такие как спорт и криминал.

Методы: обучение под наблюдением и без наблюдения

Машинное обучение подразумевает обучение компьютера составлению прогнозов или генерированию выводов. Сначала вы используете алгоритм и примеры данных для обучения модели. Затем вы интегрируете модель в свое приложение для получения выводов в реальном времени и в нужном масштабе. Обучение под наблюдением и без наблюдения – это две разные категории алгоритмов.

Контролируемое обучение

При обучении под наблюдением вы обучаете модель набору входных данных и соответствующему набору парных маркированных выходных данных. Маркировка обычно выполняется вручную. Далее приведены некоторые типы методов машинного обучения под наблюдением.

Логистическая регрессия

Логистическая регрессия предсказывает категориальные выходные данные на основе входных данных. Бинарная классификация – это ситуация, когда выходные данные попадают в одну из двух категорий, например «да» или «нет» и «успешно» или «неуспешно». Классификация нескольких классов – это то, когда выходные данные относятся к более чем двум категориям, например, кошка, собака или кролик.  Примером логистической регрессии является прогнозирование того, сдаст ли студент экзамен, исходя из количества входов в учебный курс.

Подробнее о логистической регрессии »

Линейная регрессия

Линейная регрессия относится к моделям обучения под наблюдением, которые на основе одной или нескольких входных переменных предсказывают значение по непрерывной шкале. Примером линейной регрессии является прогнозирование цены на дом. Вы можете предсказать цену дома на основе его местоположения, возраста и количества комнат после обучения модели набору исторических данных обучения продажам с использованием этих переменных.

Подробнее о линейной регрессии »

Дерево решений

Метод машинного обучения под наблюдением дерева решений принимает некоторые заданные входные данные и применяет оператор if-else для прогнозирования результата. Примером проблемы с деревом решений является прогнозирование оттока клиентов. Например, если клиент не зайдет в приложение после регистрации, модель может предсказать отток клиентов. Или если клиент использует приложение с нескольких устройств и среднее время сеанса превышает заданное пороговое значение, модель может предсказать удержание.

Нейронная сеть

Решение нейронной сети – это более сложный метод обучения под наблюдением. Для получения заданного результата требуется несколько заданных входных данных и выполняется один или несколько уровней математического преобразования на основе корректировки весовых коэффициентов данных. Примером метода нейронной сети является предсказание цифры по изображению рукописного текста.

Подробнее о нейронных сетях »

Обучение без наблюдения 

Машинное обучение без наблюдения – это ситуация, когда вы предоставляете алгоритму входные данные без маркированных выходных данных. Затем алгоритм самостоятельно определяет закономерности и взаимосвязи в данных и между ними. Далее приведены некоторые типы методов обучения без наблюдения.

Кластеризация

Метод обучения кластеризации без наблюдения предусматривает группировку определенных входных данных, поэтому их можно классифицировать как единое целое. Существуют различные типы алгоритмов кластеризации в зависимости от входных данных. Примером кластеризации является определение различных типов сетевого трафика для прогнозирования потенциальных инцидентов безопасности.

Изучение правил ассоциации

Методы обучения ассоциативным правилам выявляют взаимосвязи, основанные на правилах, между входными данными в наборе данных. Например, алгоритм Apriori проводит анализ рыночной корзины для выявления таких правил, как кофе и молоко, которые часто покупаются вместе.

Плотность вероятности

Методы плотности вероятности в обучении без наблюдения предсказывают вероятность или возможность того, что выходное значение будет в пределах диапазона, считающегося нормальным для входных данных. Например, датчик температуры в серверной комнате обычно измеряет температуру в определенном диапазоне градусов. Однако внезапное измерение низкого значения на основе распределения вероятностей может указывать на неисправность оборудования. 

Уменьшение размерности

Уменьшение размерности – это метод обучения без наблюдения, который уменьшает количество функций в наборе данных. Этот способ часто используют для предварительной обработки данных для других функций машинного обучения и снижения сложности и накладных расходов. Например, он может размывать или обрезать фоновые функции в приложении для распознавания изображений.

Когда использовать: обучение под наблюдением и обучение без наблюдения

Вы можете использовать методы обучения под наблюдением для решения задач с известными результатами и помеченными доступными данными. Примеры включают классификацию спама в электронной почте, распознавание изображений и прогнозирование цен акций на основе известных исторических данных.

Обучение без наблюдения можно использовать в сценариях, где данные не маркированы и целью является обнаружение закономерностей, группировка похожих инстансов или обнаружение аномалий. Вы также можете использовать его для исследовательских задач, в которых нет маркированных данных. Примеры включают организацию больших архивов данных, создание систем рекомендаций и группировку клиентов на основе их покупательского поведения.

Можно ли использовать обучение под наблюдением и без наблюдения одновременно?

Обучение с частичным наблюдением – это ситуация, когда для решения общей проблемы вы применяете методы обучения как под наблюдением, так и без него. Само по себе оно составляет еще одну категорию машинного обучения.

Вы можете использовать обучение с частичным наблюдением, когда трудно получить метки для набора данных. У вас может быть меньший объем маркированных данных, но значительный объем немаркированных данных. По сравнению с использованием только набора маркированных данных вы получите большую точность и эффективность, если будете комбинировать методы обучения под наблюдением и без него.

Вот несколько примеров приложений обучения с частичным наблюдением.

Определение мошенничества

В большом наборе транзакционных данных есть подмножество маркированных данных, в которых эксперты подтвердили мошеннические транзакции. Для получения более точного результата решение машинного обучения будет обучаться сначала на немаркированных данных, а затем на данных с метками.

Анализ эмоций

Учитывая масштаб текстового взаимодействия организации с клиентами, может оказаться нерентабельным классифицировать или маркировать настроения по всем каналам. Организация может сначала обучить модель на большей части немаркированных данных, а затем на выборке данных с метками. Это повысит степень уверенности организации в настроении клиентов в рамках бизнеса.

Классификация документов

При применении категорий к большой базе документов их может оказаться слишком много для физической маркировки. Например, это могут быть бесчисленные отчеты, стенограммы или технические характеристики. Вначале обучение работе с немаркированных данными поможет идентифицировать аналогичные документы для маркировки. 

Краткое описание различий: обучение под наблюдением и без наблюдения

 

Контролируемое обучение

Обучение без учителя

Что это

Вы обучаете модель набору входных данных и соответствующему набору парных маркированных выходных данных.

Вы обучаете модель обнаруживать скрытые закономерности в немаркированных данных.

Техники

Логистическая регрессия, линейная регрессия, дерево решений и нейронная сеть.

Кластеризация, изучение ассоциативных правил, плотность вероятности и снижение размерности.

Цель

Прогнозируйте выходные данные на основе известных входных данных.

Определяйте ценную информацию о взаимосвязях между точками входных данных. Затем это можно применять к новым входным данным для получения аналогичной аналитики.

Подход

Минимизируйте ошибку между прогнозируемыми выходными данными и истинными метками.

Находите закономерности, сходства или аномалии в данных.

Как AWS способствует обучению под наблюдением и без наблюдения?

Amazon Web Services (AWS) предусматривает широкий спектр предложений, которые упрощают машинное обучение, независимо от уровня наблюдения. Пользователи могут создавать, запускать и интегрировать решения любого размера, сложности и варианта использования.

Amazon SageMaker – это полноценная платформа для создания решений машинного обучения с нуля. SageMaker обладает полным набором готовых моделей обучения под наблюдением и без наблюдения, возможностью хранения и проведения вычислений, а также полностью управляемую среду.

Примеры функций SageMaker, которые можно использовать в работе, приведены ниже.

  • Используйте Amazon SageMaker автопилот для автоматического изучения различных решений и поиска наилучшей модели для заданного набора данных.
  • Используйте Amazon SageMaker Data Wrangler для выбора данных, анализа данных и преобразования данных для подготовки их к машинному обучению.
  • Используйте эксперименты Amazon SageMaker для анализа и сравнения итераций тренингов по машинному обучению и выбора наиболее эффективной модели.
  • Используйте Amazon SageMaker Clarify для обнаружения и оценки потенциального смещения. Таким образом, разработчики машинного обучения могут устранить потенциальное смещение и объяснить прогнозы моделей.

Создайте аккаунт уже сегодня, чтобы начать работу с машинным обучением под наблюдением и без наблюдения на AWS.

AWS: дальнейшие шаги

Начало разработки с машинным обучением под наблюдением

Как начать работу с машинным обучением под наблюдением на AWS

Подробнее 
Начало разработки с машинным обучением без наблюдения

Как начать работу с машинным обучением без наблюдения на AWS

Подробнее