Что такое очистка данных?

Очистка данных – это важный процесс подготовки исходных данных для приложений машинного обучения (ML) и бизнес-аналитики (BI). Необработанные данные могут содержать многочисленные ошибки, которые повлияют на точность моделей машинного обучения и приведут к неверным прогнозам и негативным последствиям для бизнеса. 

Основными этапами очистки данных являются изменение и удаление полей данных с ошибками и пропусками, удаление дублирующейся информации и лишних данных, а также исправление ошибок форматирования, пропусков значений и орфографических ошибок.

Почему важно очищать данные?

Когда компания использует данные для принятия решений, крайне важно, чтобы они были релевантными, полными и точными. Однако наборы данных часто содержат ошибки, которые необходимо удалить перед проведением анализа. Это могут быть ошибки форматирования, например неправильно записанные даты, денежные единицы и другие единицы измерения, которые могут существенно повлиять на прогнозы. Посторонние значения являются отдельной проблемой, поскольку они неизменно искажают результаты. Среди других распространенных ошибок – поврежденные точки данных, пропущенная информация и опечатки. Чистые данные помогают создавать высокоточные модели машинного обучения. 

Чистота и точность данных особо важны для обучения моделей машинного обучения, поскольку использование некачественных наборов данных может привести к ошибочным прогнозам в развернутых моделях. Это основная причина, по которой специалисты по работе с данными уделяют большую часть своего времени подготовке данных для машинного обучения.

Как обеспечить очистку данных?

Процесс очистки данных предусматривает несколько шагов для выявления и исправления проблемных записей. Первый шаг – анализ данных для выявления ошибок. Для этого могут использоваться инструменты качественного анализа, которые используют правила, шаблоны и ограничения для выявления недопустимых значений. Следующий шаг – удаление или исправление ошибок. 

Обычно при очистке данных принимаются меры по устранению следующих ошибок.

  • Дубликаты данных: удалить дублирующуюся информацию.
  • Нерелевантные данные: выявить поля, важные для конкретного вида анализа, и исключить из анализа нерелевантные данные.
  • Посторонние значения: посторонние значения могут значительно понизить производительность модели, поэтому необходимо выявить их и определить соответствующие действия.
  • Недостающие значения: пометить и отбросить или заменить недостающие значения.
  • Структурные ошибки: исправить опечатки и другие несоответствия и привести данные в соответствие с общим шаблоном или конвенцией.

Как AWS может помочь в очистке данных

Amazon SageMaker Data Wrangler – это функция Amazon SageMaker, которая позволяет быстро и с легкостью подготовить данные для МО. С помощью Amazon SageMaker Data Wrangler вы можете проводить каждый из этапов подготовки данных, в том числе отбор, очистку, изучение, выявление отклонений и визуализацию, с помощью одного и того же визуального интерфейса.

Используя инструмент выбора данных SageMaker Data Wrangler, вы можете выбрать нужные вам данные из различных источников данных и импортировать их одним щелчком мыши. После импорта данных вы можете воспользоваться отчетом о качестве и аналитике данных для автоматической проверки данных и выявления аномалий, например дублирующихся строк и утечки целевых данных. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода.

Чтобы начать работу с SageMaker Data Wrangler, прочитайте учебное пособие.

Очистка данных: следующие шаги

Дополнительные ресурсы по продукту
Подробнее о сервисах машинного обучения 
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация 
Начать разработку в консоли

Начните разработку в Консоли управления AWS.

Вход