AWS Glue

Простой, гибкий и экономичный сервис ETL

AWS Glue – это полностью управляемый сервис извлечения, преобразования и загрузки данных (ETL), который упрощает подготовку и загрузку пользовательских данных для анализа. Создать и запустить задание ETL можно за пару щелчков мышью в Консоли управления AWS. Достаточно указать AWS Glue на свои данные, хранящиеся на AWS, и AWS Glue обнаружит их и сохранит соответствующие метаданные (например, определение таблицы и схему данных) в каталоге данных AWS Glue. После каталогизации данные немедленно становятся доступны для поиска, выполнения запросов и операций ETL. AWS Glue генерирует программный код для выполнения процессов преобразования и загрузки данных.

AWS Glue генерирует программный код, который можно править по своему усмотрению, а также использовать повторно независимо от сервиса. Как только задание ETL будет готово, можно запланировать его запуск в полностью управляемой и масштабируемой среде Apache Spark сервиса AWS Glue. AWS Glue предоставляет гибкий планировщик, который выполняет разрешение зависимостей, мониторинг заданий и генерацию предупреждений.

AWS Glue работает по бессерверной технологии, поэтому покупать и настраивать инфраструктуру или управлять ею не требуется. Он автоматически выделяет среды, необходимые для завершения задания, и клиенты платят только за вычислительные ресурсы, потребляемые во время выполнения заданий ETL. С AWS Glue данные могут быть доступны для аналитики за считаные минуты.

Знакомство с AWS Glue (1:47)

Преимущества

Простота

AWS Glue автоматизирует значительную часть работы по созданию и обслуживанию заданий ETL, а также управлению ими. AWS Glue сканирует источники данных, определяет форматы данных, предлагает схемы и преобразования. AWS Glue автоматически генерирует код для выполнения процессов преобразования и загрузки данных.

Интеграция

AWS Glue интегрирован с широким спектром сервисов AWS, что упрощает начало работы. AWS Glue предоставляет встроенную поддержку данных, сохраненных в сервисах Amazon Aurora и всех прочих движках Amazon RDS, Amazon DynamoDB, Amazon Redshift и Amazon S3, а также в базах данных MySQL, Oracle, Microsoft SQL Server и PostgreSQL, работающих на инстансах Amazon EC2 в облаке Virtual Private Cloud (Amazon VPC). AWS Glue обеспечивает встроенную интеграцию с Amazon Athena, Amazon EMR, Amazon Redshift Spectrum и любыми приложениями, совместимыми с Apache Hive Metastore.

Бессерверная технология

AWS Glue относится к бессерверным сервисам. Клиентам не требуется выделять инфраструктуру или управлять ею. Все задачи по выделению, настройке и масштабированию ресурсов, необходимых для выполнения заданий ETL в полностью управляемой и масштабируемой среде Apache Spark, AWS Glue выполняет самостоятельно. Клиент платит только за ресурсы, используемые при выполнении заданий.

Удобство для разработчиков

AWS Glue генерирует код ETL, используя распространенную технологию с применением Scala, Python и Apache Spark. Этот код можно править по своему усмотрению, а также использовать повторно независимо от сервиса. Кроме того, в созданный сервисом AWS Glue код ETL можно импортировать специальные операторы чтения, записи и преобразования. Код AWS Glue генерируется на основе открытых сред, что обеспечивает отсутствие каких‑либо ограничений. Его можно использовать везде.

Как это работает

Выберите источник данных и место назначения. AWS Glue сгенерирует код ETL на Scala или Python, предусматривающий извлечение данных из источника, их преобразование согласно целевой схеме и загрузку в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в консоли, привычной среде IDE или любом редакторе.

Шаг 1. Создание каталога данных
screenshot-glue-step1-data-catalog2b

Зарегистрируйте источники данных в Консоли управления AWS. AWS Glue отсканирует источники данных и создаст каталог данных, воспользовавшись предварительно созданными классификаторами для многих стандартных исходных форматов и типов данных, включая JSON, CSV, Parquet и другие.

Шаг 2. Создание и настройка процессов преобразования
screenshot-glue-step2-etl-generation4

Выберите источник данных и место назначения. AWS Glue сгенерирует код ETL на Scala или Python, предусматривающий извлечение данных из источника, их преобразование согласно целевой схеме и загрузку в целевое хранилище. Созданный код можно редактировать, исправлять и тестировать в консоли, привычной среде IDE или любом редакторе.

Шаг 3. Планирование и запуск заданий
screenshot-glue-step3-orchestration2

AWS Glue упрощает работу по планированию повторяющихся заданий ETL, позволяет объединять несколько последовательных заданий или выполнять задания по требованию других сервисов, например AWS Lambda. AWS Glue управляет всеми зависимостями между заданиями, автоматически масштабирует используемые для их выполнения ресурсы и повторно запускает задания в случае сбоев.

Подробнее см. на странице сведений о возможностях AWS Glue или в нашей документации по продукту.

Примеры использования

Запросы к озеру данных в Amazon S3

Применение озер данных для хранения и анализа как структурированных, так и неструктурированных данных приобретает все большую популярность. При использовании озера данных в Amazon S3 сервис AWS Glue способен без перемещения данных обеспечить их моментальную доступность для анализа.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Анализ данных журнала прямо в хранилище

Подготовьте к анализу журналы навигации или текущих процессов, выполнив фильтрацию, нормализацию и систематизацию данных с помощью сервиса AWS Glue. AWS Glue создает схему для слабоструктурированных данных, генерирует код ETL для операций по преобразованию, выравниванию и систематизации данных, а затем регулярно загружает данные в целевые хранилища.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Унифицированное представление данных из различных источников

Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных на AWS без перемещения. После каталогизации данные сразу становятся доступны для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Конвейеры ETL, управляемые событиями

AWS Glue может запускать выполнение заданий ETL на основании событий – например, при поступлении нового пакета данных. Так, функция AWS Lambda позволяет запускать задания ETL при появлении новых данных в Amazon S3. Кроме того, этот новый набор данных можно зарегистрировать в каталоге данных AWS Glue в рамках заданий ETL.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Начать работу с AWS

icon1

Зарегистрируйте аккаунт AWS

Получите мгновенный доступ к уровню бесплатного пользования AWS.
icon2

Обучение с помощью 10-минутных учебных пособий

Знакомьтесь с сервисами и учитесь с помощью простых учебных пособий.
icon3

Начните разработку с AWS

Начните разработку и запустите собственный проект в AWS с помощью пошаговых руководств.
Готовы приступить к разработке?
Начать работу с AWS Glue
Есть вопросы?
Свяжитесь с нами