AWS Glue

Простая, масштабируемая, бессерверная подготовка данных

AWS Glue – это бессерверный сервис подготовки данных, который позволяет инженерам по обработке данных, разработчикам, специализирующимся на извлечении, трансформации и загрузке данных (extract, transform, and load, ETL), аналитикам данных и специалистам по работе с данными извлекать, очищать, дополнять, нормализовать и загружать данные. Сервис AWS Glue сокращает время, необходимое для запуска анализа данных, с месяцев до минут.

Подготовка данных – это необычайно важный и в то же время трудный процесс. Чтобы подготовить данные к анализу, сначала необходимо извлечь данные из различных источников. Затем такие данные подлежат очистке, преобразованию в требуемый формат и загрузке в базы данных, хранилища данных и озера данных для дальнейшего анализа. Эти задачи часто выполняются разными группами с помощью разных инструментов.

Визуальные интерфейсы и интерфейсы на основе кода, представленные AWS Glue, упрощают подготовку данных. Инженеры по обработке данных и разработчики ETL могут использовать AWS Glue Studio для создания, запуска и мониторинга рабочих процессов ETL с помощью нескольких щелчков. Аналитики и специалисты по работе с данными могут использовать AWS Glue DataBrew для визуальной очистки и нормализации данных без написания кода.

Знакомство с AWS Glue (1:47)

Преимущества

Ускоренная подготовка данных

Сервис AWS Glue предоставляет встроенные инструменты для всех ваших пользователей с целью упрощения подготовки данных к аналитике и машинному обучению. Различные группы внутри организации могут совместно работать над подготовкой данных, включая извлечение, очистку, нормализацию, загрузку и выполнение масштабируемых рабочих процессов ETL. Таким образом, сервис AWS Glue сокращает время, необходимое для запуска анализа данных, с месяцев до минут.

Масштабируемая автоматизация

Сервис AWS Glue автоматизирует большую часть действий, которые необходимо выполнить для подготовки данных. Сервис AWS Glue сканирует источники данных, определяет форматы данных, предлагает схемы хранения данных. Сервис автоматически генерирует код для выполнения процессов преобразования данных и загрузки процессов. Сервис AWS Glue можно использовать для простого запуска тысячи заданий ETL и управления ими, чтобы эффективно подготовить петабайты данных к аналитике и машинному обучению.

Без управления серверами

Сервис AWS Glue запускает Apache Spark и Python в бессерверной среде. Инфраструктура, требующая управления, отсутствует, при этом AWS Glue выделяет, настраивает и масштабирует ресурсы, необходимые для выполнения заданий по подготовке данных. Вы платите только за ресурсы, используемые при выполнении заданий.

Примеры использования


Унифицированное представление данных из различных источников

Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных на AWS без перемещения данных. После каталогизации данные сразу становятся доступны для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

Создание и выполнение заданий ELT в AWS Glue

Конвейеры ETL, управляемые событиями

Сервис AWS Glue может запускать задания ETL по мере поступления новых данных. Так, функция AWS Lambda позволяет запускать задания ETL при появлении новых данных в Amazon S3. Кроме того, этот новый набор данных можно зарегистрировать в каталоге данных AWS Glue в рамках заданий ETL.

Диаграмма конвейеров ETL, управляемых событиями

Задания ETL для больших данных без кодов

Сервис AWS Glue Studio упрощает визуальное создание, запуск и мониторинг заданий AWS Glue ETL. Можно составлять задания ETL, которые перемещают и преобразовывают данные, и запускать их на AWS Glue. Затем можно использовать панель управления выполнением заданий AWS Glue Studio, чтобы отслеживать выполнение заданий ETL и обеспечивать выполнение заданий должным образом. Подробнее о ценах на AWS Glue Studio здесь.

Визуальный инструмент ETL для разработчиков ETL

Самостоятельная подготовка визуальных данных

Сервис AWS Glue DataBrew позволяет экспериментировать с данными непосредственно из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora и Amazon RDS, а также изучать такие данные. Сервис AWS Glue DataBrew представляет вашему вниманию более 250 предварительно созданных преобразований для автоматизации таких задач по подготовке данных, как фильтрация аномалий, стандартизация форматов и исправление недопустимых значений. После завершения подготовки данных такие данные можно незамедлительно использовать для аналитики и машинного обучения. Подробнее о AWS Glue DataBrew здесь.

Очистка визуальных данных и нормализация данных

Новые возможности

дата
  • дата
1
Возможности AWS Glue
Ознакомьтесь с возможностями AWS Glue

Ознакомьтесь с основными возможностями AWS Glue.

Подробнее 
Зарегистрировать аккаунт AWS
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начать разработку в консоли
Начать разработку в AWS Glue

Начните разработку с использованием AWS Glue в визуальном интерфейсе ETL.

Вход