Что такое очистка данных?

Очистка данных – это важный процесс подготовки исходных данных для приложений машинного обучения (ML) и бизнес-аналитики (BI). Необработанные данные могут содержать многочисленные ошибки, которые повлияют на точность моделей машинного обучения и приведут к неверным прогнозам и негативным последствиям для бизнеса.

Основными этапами очистки данных являются изменение и удаление полей данных с ошибками и пропусками, удаление дублирующейся информации и лишних данных, а также исправление ошибок форматирования, пропусков значений и орфографических ошибок.

Почему важно очищать данные?

Когда компания использует данные для принятия решений, крайне важно, чтобы они были релевантными, полными и точными. Однако наборы данных часто содержат ошибки, которые необходимо удалить перед проведением анализа. Это могут быть ошибки форматирования, например неправильно записанные даты, денежные единицы и другие единицы измерения, которые могут существенно повлиять на прогнозы. Посторонние значения являются отдельной проблемой, поскольку они неизменно искажают результаты. Среди других распространенных ошибок – поврежденные точки данных, пропущенная информация и опечатки. Чистые данные помогают создавать высокоточные модели машинного обучения.

Чистота и точность данных особо важны для обучения моделей машинного обучения, поскольку использование некачественных наборов данных может привести к ошибочным прогнозам в развернутых моделях. Это основная причина, по которой специалисты по работе с данными уделяют большую часть своего времени подготовке данных для машинного обучения.

Как обеспечить очистку данных?

Процесс очистки данных предусматривает несколько шагов для выявления и исправления проблемных записей. Первый шаг – анализ данных для выявления ошибок. Для этого могут использоваться инструменты качественного анализа, которые используют правила, шаблоны и ограничения для выявления недопустимых значений. Следующий шаг – удаление или исправление ошибок.

Обычно при очистке данных принимаются меры по устранению следующих ошибок.

Дубликаты данных: удалить дублирующуюся информацию.
Нерелевантные данные: выявить поля, важные для конкретного вида анализа, и исключить из анализа нерелевантные данные.
Посторонние значения: посторонние значения могут значительно понизить производительность модели, поэтому необходимо выявить их и определить соответствующие действия.
Недостающие значения: пометить и отбросить или заменить недостающие значения.
Структурные ошибки: исправить опечатки и другие несоответствия и привести данные в соответствие с общим шаблоном или конвенцией.

Как AWS может помочь в очистке данных

Amazon SageMaker Data Wrangler — это функция Amazon SageMaker, которая позволяет быстро и легко подготовить данные для машинного обучения. С помощью Amazon SageMaker Data Wrangler вы можете проводить каждый из этапов подготовки данных, в том числе отбор, очистку, изучение, выявление отклонений и визуализацию, с помощью одного и того же визуального интерфейса.

Используя инструмент выбора данных SageMaker Data Wrangler, вы можете выбрать нужные вам данные из различных источников данных и импортировать их одним щелчком мыши. После импорта данных вы можете воспользоваться отчетом о качестве и аналитике данных для автоматической проверки данных и выявления аномалий, например дублирующихся строк и утечки целевых данных. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода.

Чтобы начать работу с SageMaker Data Wrangler, ознакомьтесь с учебным пособием.

Очистка данных: следующие шаги

Дополнительные ресурсы к продукту

Подробнее о сервисах машинного обучения

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к Уровню бесплатного пользования AWS.

Регистрация

Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Загрузка

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Что такое очистка данных?