AWS Glue

Простая, масштабируемая, бессерверная интеграция данных

AWS Glue – это бессерверная служба интеграции данных, упрощающая поиск, подготовку и объединение данных для анализа, машинного обучения и разработки приложений. AWS Glue предоставляет все необходимые средства для интеграции данных, так чтобы вы могли приступить к анализированию данных и их использованию уже через несколько минут и не тратить на это целые месяцы.

Интеграция данных представляет собой процесс подготовки и объединения данных для анализа, машинного обучения и разработки приложений. Этот процесс предполагает выполнение множества задач, таких как поиск и извлечение данных из различных источников; расширение, очистку, нормализацию и объединение данных; загрузку и организацию данных в базах данных, хранилищах данных и озерах данных. Такие задачи часто выполняются разными типами пользователей, каждый из которых использует разные продукты.

Визуальные интерфейсы и интерфейсы на основе кода, представленные AWS Glue, упрощают интеграцию данных. Пользователи могут без труда искать данные и получать к ним доступ, используя каталог данных AWS Glue. Инженеры по обработке данных и разработчики ETL (извлечение, преобразование и загрузка) могут использовать AWS Glue Studio для наглядного создания, запуска и мониторинга рабочих процессов ETL с помощью нескольких щелчков. Аналитики и специалисты по работе с данными могут использовать AWS Glue DataBrew для визуального расширения, очистки и нормализации данных без написания кода. С помощью AWS Glue Elastic Views разработчики приложений смогут использовать знакомый язык структурированных запросов (SQL) для объединения и репликации данных по разным хранилищам данных.

Знакомство с AWS Glue (1:47)

Преимущества

Более быстрая интеграция данных

Различные группы внутри организации могут использовать AWS Glue для совместной работы над заданиями интеграции данных, включая извлечение, очистку, нормализацию, объединение, загрузку и выполнение масштабируемых рабочих процессов ETL. Таким образом, сервис AWS Glue сокращает время, необходимое для анализа данных и начала их использования, с месяцев до минут.

Автоматизируйте интеграцию данных с возможностью масштабирования

Сервис AWS Glue автоматизирует большую часть действий, которые необходимо выполнить для интеграции данных. Сервис AWS Glue сканирует источники данных, определяет форматы данных, предлагает схемы хранения данных. Сервис автоматически генерирует код для выполнения процессов преобразования данных и загрузки процессов. AWS Glue можно использовать для упрощения выполнения и управления тысячами заданий ETL или для объединения и реплицирования данных из различных хранилищ данных с помощью SQL.

Без управления серверами

AWS Glue работает в бессерверной среде. Инфраструктура, требующая управления, отсутствует, при этом AWS Glue выделяет, настраивает и масштабирует ресурсы, необходимые для выполнения заданий по интеграции данных. Вы платите только за ресурсы, используемые при выполнении заданий.

Примеры использования


Создавайте конвейеры ETL (извлечение, преобразование и загрузка данных), управляемые событиями

Сервис AWS Glue может запускать задания ETL по мере поступления новых данных. Так, функция AWS Lambda позволяет запускать задания ETL при появлении новых данных в Amazon S3. Кроме того, этот новый набор данных можно зарегистрировать в каталоге данных AWS Glue в рамках заданий ETL.

Диаграмма конвейеров ETL, управляемых событиями

Создавайте унифицированный каталог для поиска данных в разных хранилищах данных

Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных на AWS без перемещения данных. После каталогизации данные сразу становятся доступны для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

Создание и выполнение заданий ELT в AWS Glue

Создавайте, выполняйте и контролируйте задания ETL без написания кода

Сервис AWS Glue Studio упрощает визуальное создание, запуск и мониторинг заданий AWS Glue ETL. Вы можете составлять задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью, а AWS Glue будет автоматически генерировать код. Затем можно использовать панель управления выполнением заданий AWS Glue Studio, чтобы отслеживать выполнение заданий ETL и обеспечивать выполнение заданий должным образом. Подробнее о ценах на AWS Glue Studio здесь.

Визуальный инструмент ETL для разработчиков ETL

Исследуйте данные с самостоятельной подготовкой визуальных данных

Сервис AWS Glue DataBrew позволяет экспериментировать с данными непосредственно из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora и Amazon RDS, а также изучать такие данные. Сервис AWS Glue DataBrew представляет вашему вниманию более 250 предварительно созданных преобразований для автоматизации таких задач по подготовке данных, как фильтрация аномалий, стандартизация форматов и исправление недопустимых значений. После завершения подготовки данных такие данные можно незамедлительно использовать для аналитики и машинного обучения. Подробнее о AWS Glue DataBrew здесь.

Очистка визуальных данных и нормализация данных

Создавайте материализованные представления для объединения и реплицирования данных (в ознакомительной версии)

С помощью AWS Glue Elastic Views вы сможете использовать знакомый SQL для создания материализованных представлений. Используйте эти представления для доступа к данным и объединения данных из нескольких исходных хранилищ данных, а также для сохранения актуальности таких объединенных данных и доступа к ним из целевого хранилища данных. В настоящее время AWS Glue Elastic Views поддерживает Amazon DynamoDB как источник, а также Amazon Aurora и Amazon RDS для отслеживания. В настоящий момент поддерживаются такие цели, как Amazon Redshift, Amazon S3 и Amazon Elasticsearch Service, а также Amazon Aurora, Amazon RDS и Amazon DynamoDB для отслеживания. Узнать подробнее о сервисе AWS Glue Elastic Views можно здесь.

Очистка визуальных данных и нормализация данных

Новые возможности

дата
  • дата
1
Возможности AWS Glue
Ознакомьтесь с возможностями AWS Glue

Ознакомьтесь с основными возможностями AWS Glue.

Подробнее 
Зарегистрировать аккаунт AWS
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начать разработку в консоли
Начать разработку в AWS Glue

Начните разработку с использованием AWS Glue в визуальном интерфейсе ETL.

Вход