Качество данных AWS Glue (ознакомительная версия)

Обеспечьте высокое качество данных в ваших озерах и конвейерах данных

Сотни тысяч клиентов создают озера данных, которые могут превратиться в «болота данных» без обеспечения качества данных. Настройка качества данных – это трудоемкий и утомительный процесс. Вы должны вручную анализировать и создавать правила качества данных, а также писать код для оповещения при ухудшении качества. Качество данных AWS Glue сокращает эти ручные усилия по обеспечению качества с нескольких дней до нескольких часов. Качество данных AWS Glue автоматически подсчитывает статистику, рекомендует правила качества, осуществляет мониторинг и предупреждает вас, когда обнаруживает, что качество ухудшилось. Поэтому выявление отсутствующих, несвежих или некачественных данных до того, как они повлияют на ваш бизнес, становится упорядоченным процессом.

Introducing AWS Glue Data Quality (0:29)

Основные возможности

Автоматические рекомендации правил, адаптированные к вашим данным

Начать работу с качеством данных может быть сложно, поскольку для создания правил качества необходимо вручную анализировать данные. Качество данных AWS Glue автоматически рассчитывает статистику для ваших наборов данных. Он использует эту статистику, чтобы рекомендовать набор правил качества, которые проверяют свежесть, точность и целостность данных. Вы можете корректировать рекомендуемые правила, отклонять их или добавлять новые по мере необходимости. При обнаружении проблем с качеством сервис Качество данных AWS Glue также оповещает вас, чтобы вы могли принять меры.

Достижение качества данных в местах хранения и в конвейерах

Ваши данные хранятся в различных хранилищах, и они перемещаются из одного хранилища в другое. Важен контроль качества данных как после их получения, так и во время их транспортировки. Правила Качества данных AWS Glue можно применять к данным в местах хранения в ваших наборах и озерах данных, а также ко всем конвейерам данных, где данные находятся в движении. Для конвейеров данных, построенных на Студии AWS Glue, можно применить преобразование для оценки качества всего конвейера. Вы также можете определить правила для остановки конвейера в случае ухудшения качества, предотвращая попадание плохих данных в ваши озера.

Бессерверное, экономически эффективное качество данных в масштабе петабайта без привязки к конкретным условиям

AWS Glue является бессерверным, поэтому вы можете масштабироваться без необходимости управлять инфраструктурой. Он масштабируется для любого объема данных и имеет возможность оплаты по факту использования, что повышает гибкость и снижает затраты. Качество данных AWS Glue использует Deequ, платформу с открытым исходным кодом, созданный Amazon и используемый для управления наборами данных петабайтного масштаба. Благодаря использованию открытого исходного кода Качество данных AWS Glue обеспечивает гибкость и переносимость без блокировки.