AWS Glue
Облако AWS
Начать работу с AWS Glue

AWS Glue – это полностью управляемый сервис извлечения, преобразования и загрузки (ETL), который позволяет клиентам легко подготовить и загрузить свои данные для аналитики. Создать и запустить задание ETL можно за несколько щелчков мышью в Консоли управления AWS. Достаточно указать AWS Glue на свои данные, хранящиеся на AWS, и AWS Glue обнаруживает их и сохраняет соответствующие метаданные (например, определения таблицы и схему данных) в каталоге данных AWS Glue. После каталогизации данные немедленно становятся доступны для поиска, выполнения запросов и операций ETL. AWS Glue генерирует программный код для выполнения процессов преобразования и загрузки данных.

AWS Glue генерирует код на языке Python, который можно править на свое усмотрение и использовать повторно независимо от сервиса. Как только задание ETL будет готово, можно запланировать его запуск в полностью управляемой и масштабируемой среде Apache Spark сервиса AWS Glue. AWS Glue предоставляет гибкий планировщик, который выполняет разрешение зависимостей, мониторинг заданий и генерацию предупреждений.

AWS Glue работает по бессерверной технологии, поэтому не требуется покупать и настраивать инфраструктуру или управлять ею. Он автоматически выделяет среды, необходимые для завершения задания, и клиенты платят только за вычислительные ресурсы, потребляемые во время выполнения заданий ETL. С AWS Glue данные могут быть доступны для аналитики за считаные минуты.

AWS Glue
1:47
Бессерверный, полностью управляемый, оптимизированный для работы в облаке сервис ETL

Готовы начать свой процесс ETL?

Начать работу с AWS Glue


Простота

Простота

AWS Glue автоматизирует большую часть работы по созданию и обслуживанию заданий ETL, а также управлению ими. AWS Glue сканирует источники данных, определяет форматы данных и предлагает схемы данных и преобразования. AWS Glue автоматически генерирует код для выполнения процессов преобразования и загрузки данных.

Интеграция

Интеграция

AWS Glue интегрирован с широкий спектром сервисов AWS. AWS Glue обеспечивает встроенную поддержку данных, хранящихся в Amazon Aurora, Amazon RDS для MySQL, Amazon RDS для Oracle, Amazon RDS для PostgreSQL, Amazon RDS для SQL Server, Amazon Redshift и Amazon S3, а также в базах данных MySQL, Oracle, Microsoft SQL Server и PostgreSQL в облаке Amazon Virtual Private Cloud (Amazon VPC), работающем на Amazon EC2. AWS Glue предлагает встроенную интеграцию с Amazon Athena, Amazon EMR, Amazon Redshift Spectrum и любыми приложениями, совместимыми с Apache Hive Metastore.

Без сервера

Бессерверный

AWS Glue относится к бессерверным сервисам. Не требуется выделять инфраструктуру или управлять ею. Все задачи по выделению, настройке и масштабированию ресурсов, требуемых для выполнения заданий ETL в полностью управляемой среде Apache Spark, AWS Glue выполняет самостоятельно. Вы платите только за ресурсы, используемые во время выполнения заданий.

Удобство для разработчиков

Удобство для разработчиков

AWS Glue генерирует код ETL, используя знакомую многим технологию с применением Python и Spark. Этот код можно править на свое усмотрение и использовать повторно, независимо от сервиса. Можно также импортировать в созданный сервисом код ETL специальные операторы чтения, записи и преобразования. Поскольку код AWS Glue генерируется на основе открытых сред, какие-либо ограничения отсутствуют. Его можно использовать везде.


Шаг 1. Создание каталога данных.
Шаг 1. Создание каталога данных.

Нажмите для увеличения

Зарегистрируйте источники данных в Консоли управления AWS. AWS Glue сканирует все источники данных и создает каталог данных, используя предварительно созданные классификаторы для многих стандартных исходных форматов и типов данных, в т. ч. JSON, CSV, Parquet и других.

Шаг 2. Создание и настройка процессов преобразования.
Шаг 2. Создание и настройка процессов преобразования.

Нажмите для увеличения

Выберите источник данных и место размещения целевых данных. AWS Glue сгенерирует код ETL на Python, в котором будет предусмотрено извлечение данных из источника, преобразование данных согласно целевой схеме данных и их загрузка в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в Консоли, в привычной среде IDE или любом редакторе.

Шаг 3. Планирование и запуск заданий.
Шаг 3. Планирование и запуск заданий.

Нажмите для увеличения

AWS Glue упрощает работу по запуску повторяющихся заданий ETL, позволяет объединять несколько последовательных заданий или выполнять задания по требованию других сервисов, например AWS Lambda. AWS Glue управляет всеми зависимостями между заданиями, автоматически масштабирует используемые для их выполнения ресурсы и повторно запускает задания в случае сбоев.


Подготовьте к анализу журналы навигации или текущих процессов с помощью операций по фильтрации, нормализации и систематизации данных сервиса AWS Glue. AWS Glue создает схемы для слабоструктурированных данных, генерирует код ETL для операций по преобразованию, выравниванию и систематизации данных, а затем регулярно загружает данные в целевые хранилища.

Подготовка и загрузка данных для анализа

Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных на AWS без их перемещения. После каталогизации данные сразу становятся доступны для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

Создание унифицированного представления данных

Использование озер данных для хранения и анализа как структурированных, так и неструктурированных данных, становится все более популярным. При использовании озера данных в Amazon S3 сервис AWS Glue может обеспечить моментальную доступность данных для анализа без их перемещения. Поисковые модули AWS Glue могут обрабатывать данные, хранимые в озере, и обеспечивать синхронизацию с ними каталога данных Glue. Это позволяет напрямую выполнять запросы к данным в озере с помощью Amazon Athena и Amazon Redshift Spectrum. Каталог данных Glue также можно использовать в качестве внешнего каталога Apache Hive Metastore для приложений по работе с большими данными, запущенных в Amazon EMR.

Создание унифицированного представления данных

AWS Glue может запускать выполнение заданий ETL на основании событий, например при поступлении нового пакета данных. К примеру, можно использовать функцию AWS Lambda для запуска задания ETL при появлении новых данных в Amazon S3. Эти новые данные можно регистрировать в каталоге данных AWS Glue в рамках заданий ETL.

Автоматическое выполнение заданий ETL при поступлении данных

Начать работу с AWS Glue очень просто. Просто войдите в Консоль управления AWS и перейдите в раздел «Glue», который расположен в категории «Analytics».

Готовы начать свой процесс ETL?

Начать работу с AWS Glue