Интегрированный каталог данных

Каталог данных AWS Glue – это постоянное хранилище метаданных по всем наборам данных клиента, независимо от их местонахождения. В каталоге данных содержатся определения таблиц, определения заданий и прочая контрольная информация, позволяющая управлять средой AWS Glue. В нем автоматически рассчитывается статистика и регистрируются разделы, чтобы запросы, обращенные к данным, выполнялись эффективно и экономично. Каталог также поддерживает расширенную историю для версий схем, позволяя оценить, как менялись данные с течением времени.

Автоматическое обнаружение схем

Сканеры AWS Glue подключаются к исходному или целевому хранилищу данных, проходят по ранжированному списку классификаторов для определения схемы данных, а затем создают метаданные в каталоге данных AWS Glue. Метаданные сохраняются в таблицах каталога данных и используются в процессе подготовки ETL‑заданий. Сканеры сервиса можно запускать по расписанию, по требованию или при наступлении события, чтобы всегда поддерживать метаданные в актуальном состоянии.

Генерация кода

AWS Glue автоматически генерирует код для извлечения, преобразования и загрузки данных. Просто укажите исходное и целевое хранилище данных в сервисе Glue, чтобы он создал ETL‑скрипт для преобразования, выравнивания и систематизации данных. Код генерируется на Scala или Python для среды Apache Spark.

Конечные точки разработки

Для разработчиков, которые решат интерактивно разрабатывать ETL‑код, сервис Glue предлагает конечные точки для редактирования, отладки и тестирования сгенерированного кода. Работать можно в привычной среде IDE или любом редакторе. Можно создавать специальные операторы чтения, записи и преобразования и импортировать их в ETL‑задания в виде пользовательских библиотек. Можно также размещать свой код и использовать наработки других разработчиков в репозитории GitHub.

Гибкий планировщик заданий

Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события. Можно запускать множество заданий параллельно или указывать зависимости между заданиями для построения сложных ETL‑конвейеров. Сервис Glue обрабатывает зависимости между заданиями, фильтрует ошибочные данные и повторно запускает задания в случае сбоев. Все журналы и оповещения отправляются в Amazon CloudWatch, что позволит централизованно осуществлять мониторинг и получать уведомления.

Подробнее о ценах на AWS Glue

Перейти на страницу цен
Готовы приступить к разработке?
Начать работу с AWS Glue
Есть вопросы?
Свяжитесь с нами