Что такое конструирование признаков?

Характеристики модели – это входные данные, которые модели машинного обучения (ML) используют во время тренинга и анализа для составления прогнозов. Точность ML-модели зависит от точного набора и состава признаков. Например, в приложении ML, которое рекомендует музыкальный плейлист, признаки могут включать рейтинги песен, какие песни прослушивались ранее, и время прослушивания песен. Конструирование признаков может потребовать значительных инженерных усилий. Конструирование признаков включает извлечение и преобразование переменных из необработанных данных, таких как прайс-листы, описания продуктов и объемы продаж, чтобы вы могли использовать признаки для обучения и прогнозирования. Шаги, необходимые для конструирования признаков, включают извлечение и проверку данных, а затем создание и хранение признаков.  

В чем заключаются трудности конструирования признаков?

Конструирование признаков является сложной задачей, поскольку оно включает в себя сочетание анализа данных, знания бизнес-области и интуицию. При конструировании признаков очень хочется сразу же обратиться к имеющимся данным, но часто следует начать с рассмотрения того, какие данные необходимы, поговорив с экспертами, проведя мозговой штурм и сторонние исследования. Не выполнив эти шаги, вы можете упустить важные переменные-предикторы.

Извлечение данных

Сбор данных – это процесс сбора всех данных, необходимых для машинного обучения. Он может быть утомительным, поскольку данные хранятся во многих источниках, в том числе на ноутбуках, в хранилищах, облаке, внутри приложений и на устройствах. Поиск способов подключения к различным источникам данных может оказаться непростой задачей. Объемы данных также растут экспоненциально, поэтому приходится осуществлять поиск их большого количества. Кроме того, данные имеют совершенно разные форматы и типы в зависимости от источника. Например, видеоданные и табличные данные нелегко использовать вместе.

Создание признаков

Маркировка данных – это процесс идентификации необработанных данных (изображений, текстовых файлов, видео и т.д.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста, чтобы модель машинного обучения могла на них учиться. Например, метки могут указывать, есть ли на фотографии птица или автомобиль, какие слова были произнесены в аудиозаписи или есть ли на рентгеновском снимке опухоль. Маркировка данных необходима для различных сценариев использования, включая компьютерное зрение, обработку естественного языка и распознавание речи.

Хранение признаков

После очистки и маркировки данных команды машинного обучения часто исследуют данные, чтобы убедиться в их правильности и готовности к машинной обработке. Такие визуализации, как гистограммы, графики рассеивания, блочные и усовидные графики, линейные графики и гистограммы, являются полезными инструментами для подтверждения правильности данных. Кроме того, визуализации также помогают командам специалистов по анализу данных проводить их исследовательский анализ. В этом процессе визуализация используется для обнаружения закономерностей, выявления аномалий, проверки гипотезы или предположений. Исследовательский анализ данных не требует формального моделирования; вместо этого команды специалистов по анализу данных могут использовать визуализации для их расшифровки. 

Как AWS может помочь в конструировании признаков?

С помощью Amazon SageMaker Data Wrangler вы можете упростить процесс конструирования признаков, используя единый визуальный интерфейс. Используя инструмент выбора данных SageMaker Data Wrangler, вы можете выбрать нужные вам исходные данные из различных источников данных и импортировать их одним щелчком мыши. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода. Когда подготовка данных будет завершена, вы можете создать полностью автоматизированные рабочие процессы машинного обучения с помощью Amazon SageMaker Pipelines или сохранить эти данные в Amazon SageMaker Feature Store для дальнейшего использования. SageMaker Feature Store – это специально созданный репозиторий, в котором можно хранить признаки и получать к ним доступ, что упрощает их именование, организацию и повторное использование командами. SageMaker Feature Store обеспечивает единое хранилище признаков во время обучения и вывода в реальном времени без необходимости написания дополнительного кода или создания ручных процессов для поддержания согласованности признаков.

Конструирование признаков с AWS: следующие шаги

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация 
Начать разработку в консоли

Начните разработку с использованием машинного обучения в Консоли управления AWS.

Вход