Интегрированный каталог данных

Каталог данных AWS Glue – это постоянное хранилище метаданных по всем наборам данных клиента, независимо от их местонахождения. В каталоге данных содержатся определения таблиц, определения заданий и прочая контрольная информация, позволяющая управлять средой AWS Glue. В нем автоматически рассчитывается статистика и регистрируются разделы, чтобы запросы, обращенные к данным, выполнялись эффективно и экономично. Каталог также поддерживает расширенную историю для версий схем, позволяя оценить, как менялись данные с течением времени.

Автоматическое обнаружение схем

Сканеры AWS Glue подключаются к исходному или целевому хранилищу данных, проходят по ранжированному списку классификаторов для определения схемы данных, а затем создают метаданные в каталоге данных AWS Glue. Метаданные сохраняются в таблицах каталога данных и используются в процессе подготовки ETL‑заданий. Сканеры сервиса можно запускать по расписанию, по требованию или при наступлении события, чтобы всегда поддерживать метаданные в актуальном состоянии.

Генерация кода

AWS Glue автоматически генерирует код для извлечения, преобразования и загрузки данных. Просто укажите в AWS Glue исходное и целевое хранилище данных, чтобы AWS Glue создал ETL‑скрипт для преобразования, выравнивания и систематизации данных. Код генерируется на Scala или Python и предназначен для использования в Apache Spark.

Очистка и дедупликация данных

AWS Glue помогает очистить и подготовить данные к анализу с помощью преобразования на основе машинного обучения под названием FindMatches для дедупликации и поиска совпадающих записей. Например, с помощью FindMatches сервиса AWS Lake Formation можно найти в базе данных дублирующиеся записи по ресторанам, когда в одной записи указана, скажем, «Пицца Джо» по адресу «Проспект Ленина, 121», а в другой «Пиццерия Джозефа» по адресу «Ленина, 121». Чтобы выполнять такие операции, не обязательно разбираться в машинном обучении. FindMatches просто попросит отметить наборы записей как совпадающие или не совпадающие. За счет этого система будет определять критерии, по которым пара записей считается совпадающей, и построит ML‑преобразование, которое поможет найти дублирующиеся записи в базе данных или совпадающие записи в двух базах данных.

Адреса для разработчиков

Разработчикам, которые предпочитают разрабатывать ETL‑код интерактивно, AWS Glue предоставляет адреса для редактирования, отладки и тестирования сгенерированного кода. Такую работу можно выполнять в привычной IDE или в блокноте. Можно создавать специальные операторы чтения, записи и преобразования и импортировать их в ETL‑задания AWS Glue в виде специальных библиотек. Созданный код можно размещать в нашем репозитории GitHub, который помогает обмениваться наработками с другими разработчиками.

Гибкий планировщик заданий

Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события. Сервис позволяет запускать множество заданий параллельно или указывать зависимости между заданиями для построения сложных ETL‑конвейеров. AWS Glue обрабатывает зависимости между заданиями, фильтрует ошибочные данные и повторно запускает задания в случае сбоев. Все журналы и оповещения отправляются в Amazon CloudWatch, что позволяет централизованно осуществлять мониторинг и получать уведомления.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Перейти на страницу цен

Изучите варианты тарифов на AWS Glue.

Подробнее 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Начать разработку в консоли

Начните разработку с использованием AWS Glue в Консоли управления AWS.

Вход