AWS Glue – полностью управляемый сервис, позволяющий выполнять извлечение, преобразование и загрузку данных (ETL). Его можно использовать для классификации, очистки, систематизации данных и их надежного перемещения между хранилищами. Сервис AWS Glue позволяет значительно упростить создание ETL-заданий, ускорить работу и снизить расходы. Сервис AWS Glue является бессерверным, поэтому настраивать инфраструктуру и управлять ею не потребуется. Плата начисляется только за ресурсы, потребленные в процессе исполнения заданий.

Готовы начать свой процесс ETL?

Начало работы с AWS Glue
100x100_benefit_ingergration

Каталог данных AWS Glue – это постоянное хранилище метаданных по всем наборам данных клиента, независимо от их местонахождения. В каталоге данных содержатся определения таблиц, определения заданий и прочая контрольная информация, позволяющая управлять средой AWS Glue. Он автоматически рассчитывает статистику и регистрирует разделы, чтобы запросы, обращенные к данным, выполнялись эффективно и экономично. Каталог также поддерживает расширенную историю для версий схем, позволяя оценить, как менялись данные с течением времени.

100x100_benefit_automated

Сканеры AWS Glue подключаются к исходному или целевому хранилищу данных, проходят по ранжированному списку классификаторов для определения схемы данных, а затем создают метаданные в каталоге данных AWS Glue. Метаданные сохраняются в таблицах каталога данных и используются в процессе подготовки ETL-заданий. Сканеры сервиса можно запускать по расписанию, по требованию или при наступлении события, чтобы всегда поддерживать метаданные в актуальном состоянии.

100x100_benefit_code

AWS Glue автоматически генерирует код для извлечения, преобразования и загрузки данных. Просто укажите исходное и целевое хранилище данных в сервисе Glue, чтобы он создал ETL-скрипт для преобразования, выравнивания и систематизации данных. Код генерируется на Python для среды Apache Spark 2.1.

100x100_benefit_tools

Для разработчиков, которые решат интерактивно разрабатывать ETL-код, сервис Glue предлагает конечные точки для редактирования, отладки и тестирования сгенерированного кода. Работать можно в привычной среде IDE или любом редакторе. Вы сможете создавать специальные операторы чтения, записи и преобразования и импортировать их в ETL-задания в виде пользовательских библиотек. Можно также размещать свой код и использовать наработки других разработчиков в нашем репозитории GitHub.

100x100_benefit_monitoring-logging

Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события. Можно запускать несколько заданий параллельно или указывать зависимости между заданиями для построения сложных ETL-конвейеров. Сервис Glue обрабатывает зависимости между заданиями, фильтрует ошибочные данные и повторно запускает задания в случае сбоев. Все журналы и уведомления отправляются в Amazon CloudWatch, что позволит централизованно осуществлять мониторинг и получать уведомления.

Начать работу с AWS Glue очень просто. Просто войдите в Консоль управления AWS и перейдите в раздел «Glue», который расположен в категории «Analytics».

Готовы начать свой процесс ETL?

Начать работу с AWS Glue