Что такое очистка данных?
Очистка данных – это важный процесс подготовки исходных данных для приложений машинного обучения (ML) и бизнес-аналитики (BI). Необработанные данные могут содержать многочисленные ошибки, которые повлияют на точность моделей машинного обучения и приведут к неверным прогнозам и негативным последствиям для бизнеса.
Основными этапами очистки данных являются изменение и удаление полей данных с ошибками и пропусками, удаление дублирующейся информации и лишних данных, а также исправление ошибок форматирования, пропусков значений и орфографических ошибок.
Почему важно очищать данные?
Когда компания использует данные для принятия решений, крайне важно, чтобы они были релевантными, полными и точными. Однако наборы данных часто содержат ошибки, которые необходимо удалить перед проведением анализа. Это могут быть ошибки форматирования, например неправильно записанные даты, денежные единицы и другие единицы измерения, которые могут существенно повлиять на прогнозы. Посторонние значения являются отдельной проблемой, поскольку они неизменно искажают результаты. Среди других распространенных ошибок – поврежденные точки данных, пропущенная информация и опечатки. Чистые данные помогают создавать высокоточные модели машинного обучения.
Чистота и точность данных особо важны для обучения моделей машинного обучения, поскольку использование некачественных наборов данных может привести к ошибочным прогнозам в развернутых моделях. Это основная причина, по которой специалисты по работе с данными уделяют большую часть своего времени подготовке данных для машинного обучения.
Как обеспечить очистку данных?
Процесс очистки данных предусматривает несколько шагов для выявления и исправления проблемных записей. Первый шаг – анализ данных для выявления ошибок. Для этого могут использоваться инструменты качественного анализа, которые используют правила, шаблоны и ограничения для выявления недопустимых значений. Следующий шаг – удаление или исправление ошибок.
Обычно при очистке данных принимаются меры по устранению следующих ошибок.
- Дубликаты данных: удалить дублирующуюся информацию.
- Нерелевантные данные: выявить поля, важные для конкретного вида анализа, и исключить из анализа нерелевантные данные.
- Посторонние значения: посторонние значения могут значительно понизить производительность модели, поэтому необходимо выявить их и определить соответствующие действия.
- Недостающие значения: пометить и отбросить или заменить недостающие значения.
- Структурные ошибки: исправить опечатки и другие несоответствия и привести данные в соответствие с общим шаблоном или конвенцией.
Как AWS может помочь в очистке данных
Amazon SageMaker Data Wrangler – это функция Amazon SageMaker, которая позволяет быстро и с легкостью подготовить данные для МО. С помощью Amazon SageMaker Data Wrangler вы можете проводить каждый из этапов подготовки данных, в том числе отбор, очистку, изучение, выявление отклонений и визуализацию, с помощью одного и того же визуального интерфейса.
Используя инструмент выбора данных SageMaker Data Wrangler, вы можете выбрать нужные вам данные из различных источников данных и импортировать их одним щелчком мыши. После импорта данных вы можете воспользоваться отчетом о качестве и аналитике данных для автоматической проверки данных и выявления аномалий, например дублирующихся строк и утечки целевых данных. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода.
Чтобы начать работу с SageMaker Data Wrangler, прочитайте учебное пособие.
Очистка данных: следующие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.