Качество данных AWS Glue

Обеспечьте высокое качество данных в ваших озерах и конвейерах данных

Без надлежащего контроля озера данных могут превратиться в болота данных. Настройка проверок качества данных – утомительный процесс, который занимает много времени, и вдобавок чреват ошибками. Необходимо вручную создавать правила качества данных и писать код для мониторинга конвейеров данных, а также оповещать потребителей данных об ухудшении их качества. Качество данных AWS Glue сокращает усилия по обеспечению качества вручную с нескольких дней до нескольких часов. Сервис автоматически подсчитывает статистику, рекомендует правила качества, осуществляет мониторинг и предупреждает вас, когда обнаруживает проблемы. Для решения скрытых и труднодоступных проблем Качество данных AWS Glue использует алгоритмы машинного обучения. Сочетание преимуществ подхода, основанного на правилах, и машинном обучении, а также бессерверного, масштабируемого и открытого решения позволяет предоставлять высококачественные данные для принятия уверенных бизнес-решений. 

AWS Glue Data Quality overview (Обзор Качества данных AWS Glue) [1:27]

Возможности качества данных AWS Glue

AWS Glue является бессерверным, поэтому вы можете масштабироваться без необходимости управлять инфраструктурой. Он масштабируется для любого объема данных и имеет возможность оплаты по факту использования, что повышает гибкость и снижает затраты. Качество данных AWS Glue использует Deequ, платформу с открытым исходным кодом, созданный Amazon и используемый для управления наборами данных петабайтного масштаба. Благодаря использованию открытого исходного кода Качество данных AWS Glue обеспечивает гибкость и переносимость без блокировки.
Качество данных AWS Glue автоматически рассчитывает статистику для ваших наборов данных. Качество данных AWS Glue использует эту статистику, чтобы рекомендовать набор правил качества, которые проверяют свежесть, точность и целостность данных, а также труднообнаруживаемые ошибки. Вы можете корректировать рекомендуемые правила, отклонять их или добавлять новые по мере необходимости. При обнаружении проблем с качеством сервис Качество данных AWS Glue также оповещает вас, чтобы вы могли принять меры.
Качество данных AWS Glue — умный сервис. Он изучает закономерности статистики данных, собранной за определенный промежуток времени с помощью алгоритмов машинного обучения. Также он обнаруживает аномалии и необычные закономерности и сообщает о них пользователям. Также он автоматически создает правила для отслеживания таких закономерностей для постепенного создания правил качества данных.
Ваши данные хранятся в различных хранилищах, и они перемещаются из одного хранилища в другое. Важен контроль качества данных как после их получения, так и во время их транспортировки. Правила Качества данных AWS Glue можно применять к данным в местах хранения в ваших наборах и озерах данных, а также ко всем конвейерам данных, где данные находятся в движении. Правила можно применять к нескольким наборам данных. Для конвейеров данных, построенных в сервисе Студия AWS Glue, можно применить преобразование для оценки качества всего конвейера за меньшую стоимость, поскольку данные уже хранятся в памяти. Вы также можете определить правила для остановки конвейера в случае ухудшения качества, предотвращая попадание плохих данных в ваши озера.
Используйте более 25 готовых правил качества данных AWS Glue для проверки правильности данных и выявления конкретных данных, вызывающих проблемы. Быстро внедряйте проверки качества данных, позволяющие сравнивать разные пакеты данных в различающихся источниках с помощью готовых правил. Используя извлечение, преобразование и загрузку данных Glue ETL, можно легко устранить эти проблемы и загружать высококачественные данные в репозитории данных.