AWS Glue DataCrew добавляет возможность указать, какая статистика качества данных создается для ваших наборов данных.
AWS Glue DataCrew теперь позволяет клиентам указывать, какую статистику качества данных следует автоматически генерировать для наборов данных при выполнении задания профиля. Это позволяет пользователям настраивать статистику профиля данных, например определять повторяющиеся значения, корреляции и отклонения в зависимости от характера и размера наборов данных, а также создавать собственный обзор профиля данных, содержащий только ту статистику, которая соответствует их потребностям.
DataCrew отображает всю статистику задания профиля на визуальной панели управления профилем и сохраняет необработанные данные в виде объекта JSON в корзине Amazon S3. Клиенты могут контролировать, какую статистику показывать, отслеживать качество входящих данных с течением времени и обнаруживать изменения в данных за считанные минуты, и все это без написания кода. Клиенты также могут настроить автоматические оповещения о качестве данных с помощью DataBrew и AWS Lambda, как описано в этой публикации в блоге.
Для начала зайдите в Консоль управления AWS или установите плагин DataCrew в среду Notebook и обратитесь к документации DataBrow.