AWS Glue

Простой, гибкий и экономичный сервис ETL

AWS Glue – это полностью управляемый сервис извлечения, преобразования и загрузки данных (ETL), который упрощает подготовку и загрузку пользовательских данных для анализа. Создать и запустить задание ETL можно за пару щелчков мышью в Консоли управления AWS. Достаточно указать AWS Glue на свои данные, хранящиеся на AWS, и AWS Glue обнаружит их и сохранит соответствующие метаданные (например, определение таблицы и схему данных) в каталоге данных AWS Glue. После каталогизации данные немедленно становятся доступны для поиска, выполнения запросов и операций ETL.

Знакомство с AWS Glue (1:47)

Преимущества

Меньше хлопот

AWS Glue интегрирован с широким спектром сервисов AWS, что упрощает начало работы. AWS Glue по умолчанию поддерживает данные, хранящиеся в Amazon Aurora и всех других ядрах Amazon RDS, Amazon Redshift и Amazon S3, а также распространенных ядрах СУБД и базах данных в облаке Virtual Private Cloud (Amazon VPC), работающих на Amazon EC2.

Экономичность

AWS Glue относится к бессерверным сервисам. Клиентам не требуется выделять инфраструктуру или управлять ею. Все задачи по выделению, настройке и масштабированию ресурсов, необходимых для выполнения заданий ETL в полностью управляемой и масштабируемой среде Apache Spark, AWS Glue выполняет самостоятельно. Клиент платит только за ресурсы, используемые при выполнении заданий.

Больше мощности

AWS Glue автоматизирует значительную часть работы по созданию и обслуживанию заданий ETL, а также управлению ими. AWS Glue сканирует источники данных, определяет форматы данных, предлагает схемы и преобразования. AWS Glue автоматически генерирует код для выполнения процессов преобразования и загрузки данных.

 

 

Как работает сервис

Выберите источник данных и место назначения. AWS Glue сгенерирует код ETL на Scala или Python, предусматривающий извлечение данных из источника, их преобразование согласно целевой схеме и загрузку в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в консоли, привычной среде IDE или любом редакторе.

Шаг 1. Создание каталога данных
screenshot-glue-step1-data-catalog2b

Зарегистрируйте источники данных в Консоли управления AWS. AWS Glue отсканирует источники данных и создаст каталог данных, воспользовавшись предварительно созданными классификаторами для многих стандартных исходных форматов и типов данных, включая JSON, CSV, Parquet и другие.

Шаг 2. Создание и настройка процессов преобразования
screenshot-glue-step2-etl-generation4

Выберите источник данных и место назначения. AWS Glue сгенерирует код ETL на Scala или Python, предусматривающий извлечение данных из источника, их преобразование согласно целевой схеме и загрузку в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в консоли, привычной среде IDE или любом редакторе.

Шаг 3. Планирование и запуск заданий
screenshot-glue-step3-orchestration2

AWS Glue упрощает работу по планированию повторяющихся заданий ETL, позволяет объединять несколько последовательных заданий или выполнять задания по требованию других сервисов, например AWS Lambda. AWS Glue управляет всеми зависимостями между заданиями, автоматически масштабирует используемые для их выполнения ресурсы и повторно запускает задания в случае сбоев.

Подробнее см. на странице сведений о возможностях AWS Glue или в нашей документации по продукту.

Примеры использования

Запросы к озеру данных в Amazon S3

Применение озер данных для хранения и анализа как структурированных, так и неструктурированных данных приобретает все большую популярность. Если вы хотите создать собственное озеро данных в Amazon S3, сервис AWS Glue способен без перемещения данных обеспечить их моментальную доступность для анализа.

Чтобы создать безопасное озеро данных за несколько дней, узнайте больше о AWS Lake Formation.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Анализ данных журнала прямо в хранилище

Подготовьте к анализу журналы навигации или текущих процессов, выполнив фильтрацию, нормализацию и систематизацию данных с помощью сервиса AWS Glue. AWS Glue создает схему для слабоструктурированных данных, генерирует код ETL для операций по преобразованию, выравниванию и систематизации данных, а затем регулярно загружает данные в целевые хранилища.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Унифицированное представление данных из различных источников

Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных на AWS без перемещения. После каталогизации данные сразу становятся доступны для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Конвейеры ETL, управляемые событиями

AWS Glue может запускать выполнение заданий ETL на основании событий – например, при поступлении нового пакета данных. Так, функция AWS Lambda позволяет запускать задания ETL при появлении новых данных в Amazon S3. Кроме того, этот новый набор данных можно зарегистрировать в каталоге данных AWS Glue в рамках заданий ETL.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Начать работу с AWS

icon1

Регистрация аккаунта AWS

Получите мгновенный доступ к уровню бесплатного пользования AWS.
icon2

Обучение с помощью 10-минутных учебных пособий

Знакомьтесь с сервисами и учитесь с помощью простых учебных пособий.
icon3

Начните разработку с AWS

Начните разработку и запустите собственный проект в AWS с помощью пошаговых руководств.
Готовы приступить к разработке?
Начать работу с AWS Glue
Есть вопросы?
Свяжитесь с нами