AWS Glue

Простой, гибкий и экономичный сервис ETL

AWS Glue – это полностью управляемый сервис извлечения, преобразования и загрузки данных (ETL), который упрощает подготовку и загрузку пользовательских данных для анализа. Создать и запустить задание ETL можно за пару щелчков мышью в Консоли управления AWS. Достаточно указать AWS Glue на свои данные, хранящиеся на AWS, и AWS Glue обнаружит их и сохранит соответствующие метаданные (например, определение таблицы и схему данных) в каталоге данных AWS Glue. После каталогизации данные немедленно становятся доступны для поиска, выполнения запросов и операций ETL.

Знакомство с AWS Glue (1:47)

Преимущества

Меньше хлопот

AWS Glue интегрирован с широким спектром сервисов AWS, что упрощает начало работы. AWS Glue по умолчанию поддерживает данные, хранящиеся в Amazon Aurora и всех других ядрах Amazon RDS, Amazon Redshift и Amazon S3, а также распространенных ядрах СУБД и базах данных в облаке Virtual Private Cloud (Amazon VPC), работающих на Amazon EC2.

Экономичность

AWS Glue относится к бессерверным сервисам. Клиентам не требуется выделять инфраструктуру или управлять ею. Все задачи по выделению, настройке и масштабированию ресурсов, необходимых для выполнения заданий ETL в полностью управляемой и масштабируемой среде Apache Spark, AWS Glue выполняет самостоятельно. Клиент платит только за ресурсы, используемые при выполнении заданий.

Больше мощности

AWS Glue автоматизирует значительную часть работы по созданию и обслуживанию заданий ETL, а также управлению ими. AWS Glue сканирует источники данных, определяет форматы данных, предлагает схемы и преобразования. AWS Glue автоматически генерирует код для выполнения процессов преобразования и загрузки данных.

 

 

Как работает сервис

Выберите источник данных и место назначения. AWS Glue сгенерирует код ETL на Scala или Python, предусматривающий извлечение данных из источника, их преобразование согласно целевой схеме и загрузку в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в консоли, привычной среде IDE или любом редакторе.

Шаг 1. Создание каталога данных
Шаг, на котором выполняется создание каталога данных

Зарегистрируйте источники данных в Консоли управления AWS. AWS Glue отсканирует источники данных и создаст каталог данных, воспользовавшись предварительно созданными классификаторами для многих стандартных исходных форматов и типов данных, включая JSON, CSV, Parquet и другие.

Шаг 2. Создание и настройка процессов преобразования
Шаг, на котором выполняется создание и настройка процессов преобразования данных

Выберите источник данных и место назначения. AWS Glue сгенерирует код ETL на Scala или Python, предусматривающий извлечение данных из источника, их преобразование согласно целевой схеме и загрузку в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в консоли, привычной среде IDE или любом редакторе.

Шаг 3. Планирование и запуск заданий
Шаг, на котором выполняется планирование и запуск заданий

AWS Glue упрощает работу по планированию повторяющихся заданий ETL, позволяет объединять несколько последовательных заданий или выполнять задания по запросу других сервисов, например AWS Lambda. AWS Glue управляет всеми зависимостями между заданиями, автоматически масштабирует используемые для их выполнения ресурсы и повторно запускает задания в случае сбоев.

Подробнее см. на странице сведений о возможностях AWS Glue или в нашей документации по продукту.

Примеры использования

Запросы к озеру данных в Amazon S3

Применение озер данных для хранения и анализа как структурированных, так и неструктурированных данных приобретает все большую популярность. Если вы хотите создать собственное озеро данных в Amazon S3, сервис AWS Glue способен без перемещения данных обеспечить их моментальную доступность для анализа.

Чтобы создать безопасное озеро данных за несколько дней, см. подробнее об AWS Lake Formation.

Диаграмма запросов к озеру данных в Amazon S3

Анализ данных журнала прямо в хранилище

Подготовьте к анализу журналы навигации или текущих процессов, выполнив фильтрацию, нормализацию и систематизацию данных с помощью сервиса AWS Glue. AWS Glue создает схему для слабоструктурированных данных, генерирует код ETL для операций по преобразованию, выравниванию и систематизации данных, а затем регулярно загружает данные в целевые хранилища.

Диаграмма анализа данных журнала прямо в хранилище

Унифицированное представление данных из различных источников

Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных на AWS без перемещения. После каталогизации данные сразу становятся доступны для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

Диаграмма представления данных по всем хранилищам

Конвейеры ETL, управляемые событиями

AWS Glue может запускать выполнение заданий ETL на основании событий – например, при поступлении нового пакета данных. Так, функция AWS Lambda позволяет запускать задания ETL при появлении новых данных в Amazon S3. Кроме того, этот новый набор данных можно зарегистрировать в каталоге данных AWS Glue в рамках заданий ETL.

Диаграмма конвейеров ETL, управляемых событиями
Изображение веб‑страницы
Узнайте о возможностях продукта

Ознакомьтесь с основными возможностями AWS Glue.

Подробнее 
Изображение регистрации аккаунта
Зарегистрируйте бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Изображение инструментов
Начать разработку в консоли

Начните разработку с использованием AWS Glue в Консоли управления AWS.

Вход