Бесплатное хранение 1 миллиона объектов на уровне бесплатного использования AWS

AWS Glue

Находите, подготавливайте и интегрируйте данные любого масштаба

Начать работу с AWS Glue

Подробнее об AWS Data Integration

Зачем использовать AWS Glue?

Подготовка данных для получения качественных результатов является первым этапом в проектах аналитики или машинного обучения. AWS Glue – бессерверный сервис интеграции данных, с помощью которого можно легко, быстро и экономично подготавливать данные. Вы можете обнаруживать более 70 различных источников данных и подключаться к ним, управлять данными в централизованном каталоге, а также визуально создавать, запускать и отслеживать конвейеры ETL для загрузки данных в озера данных.

Знакомство с AWS Glue (01:54)

Как это работает

AWS Glue — это бессерверный сервис интеграции данных, который упрощает поиск, подготовку, перемещение и интеграцию данных из множества источников для анализа, машинного обучения и разработки приложений.

Варианты движков для интеграции данных
Задания ETL, управляемые событиями
Каталог данных AWS Glue
Бескодовые задания ETL
Мониторинг качества данных и управление им
Подготовка данных

Варианты движков для интеграции данных
Выберите желаемый движок для интеграции данных в AWS Glue, чтобы поддерживать своих пользователей и рабочие нагрузки.

На диаграмме показано, как пользователи AWS Glue могут выбирать варианты интерфейса, чтобы создавать рабочие нагрузки заданий с помощью различных движков для интеграции данных. Отображение четырех разделов: один слева, два посередине и один справа.

Первый раздел слева называется «Источники данных». Он включает следующие источники данных: «Amazon S3», «Amazon DynamoDB», «Базы данных, работающие на Amazon EC2», «Базы данных» и «SaaS».

Стрелка из первого раздела указывает на средний раздел в верхней части схемы под названием «Выбор интерфейсов». Во второй раздел включены три элемента: «AWS Glue Studio», «Блокноты Amazon SageMaker», а также «Блокноты и IDE».

Под вторым разделом расположен следующий текст: «Открытые интерфейсы поддерживают интерактивные рабочие нагрузки и рабочие нагрузки заданий». Этот текст включает стрелку, направленную на описанный ранее второй раздел, расположенный выше, и стрелку, указывающую на третий раздел ниже.

Третий раздел называется «Движки для интеграции данных». Здесь размещен следующий текст: «Выберите желаемый бессерверный масштабируемый движок для обработки данных с автоматическим масштабированием и оплатой по факту использования». В этот раздел включены три названия движков: «AWS Glue for Ray», «AWS Glue for Python Shell» и «AWS Glue for Apache Spark».

Четвертый раздел отображается справа от второго, стрелка указывает со второго раздела на четвертый. В четвертом разделе размещен следующий текст: «Создавайте данные и загружайте их в озера данных и хранилища данных». Этот раздел также включает три элемента: «Amazon Redshift», «Озера данных» и «Хранилища данных».

Нажмите для увеличения
Задания ETL, управляемые событиями
Сервис AWS Glue может запускать ваши задания ETL по мере поступления новых данных. К примеру, вы можете настроить AWS Glue таким образом, чтобы запуск ваших заданий ETL выполнялся тогда, когда новые данные становятся доступными в Простом сервисе хранения данных Amazon (S3).
Каталог данных AWS Glue
Каталог данных можно использовать для быстрого обнаружения данных и поиска различных наборов данных на AWS без перемещения данных. После каталогизации данные сразу становятся доступными для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.
Бескодовые задания ETL
Сервис AWS Glue Studio упрощает визуальное создание, запуск и мониторинг ETL-заданий AWS Glue. Вы можете создавать задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью, а AWS Glue будет автоматически генерировать код.
Мониторинг качества данных и управление им
AWS Glue Data Quality автоматизирует создание правил для качества данных, управление и мониторинг. Это помогает обеспечить высокое качество данных, во всех озерах и каналах передачи данных.

На схеме показано, как с помощью AWS Glue Data Quality создавать рекомендации касательно правил, контролировать качество данных и отправлять оповещения в случае его ухудшения. Три раздела отображаются слева направо.

В первом разделе приведена иллюстрация Каталога данных AWS Glue и AWS Glue ETL. Для Каталога данных AWS Glue приведен следующий текст: «Вносите в каталог все наборы данных из своих озер данных». Для AWS Glue ETL приведен следующий текст: «Интегрируйте и преобразуйте данные из различных источников».

Второй раздел называется «AWS Glue обеспечивает качество данных». В этом разделе три значка. Первый – в виде контрольного списка. Подпись под ним гласит: «Рекомендации касательно правил для обеспечения качества данных. Быстрое начало работы с использованием автоматических рекомендаций для обеспечения качества данных». Второй значок – в виде карандаша. Подпись под ним гласит: «Предварительно подготовленные правила для обеспечения качества данных. Редактируйте или дополняйте рекомендации, используя предварительно подготовленные правила для обеспечения качества данных». На третьем значке изображен колокольчик. Подпись под ним гласит: «Оповещения и действия. Добавляйте оповещения и действия для выполнения при ухудшении качества данных».

В третьем разделе два значка расположены друг над другом. На первом значке изображена столбчатая диаграмма. Под ней написано: «Показатели. Используйте показатели качества данных, чтобы уверенно принимать бизнес-решения». На втором значке изображен символ предупреждения. Под ним написано: «Оповещения. Используйте оповещения, чтобы узнавать об ухудшении качества и принимать меры по исправлению данных»,

Нажмите для увеличения
Подготовка данных
Благодаря AWS Glue DataBrew можно экспериментировать с данными непосредственно из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora и Службу реляционных баз данных Amazon (RDS), а также изучать такие данные. Сервис DataBrew представляет вашему вниманию более 250 предварительно созданных преобразований для автоматизации таких задач по подготовке данных, как фильтрация аномалий, стандартизация форматов и исправление недопустимых значений.

Примеры использования

Упрощение разработки конвейера ETL

Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.

Подробнее об автомасштабировании AWS Glue

Поддержка различных платформ и рабочих нагрузок для обработки

More easily support various data processing frameworks, such as ETL and ELT, and various workloads, including batch, micro-batch, and streaming.

Подробнее о потоковой передаче заданий ETL

Интерактивное изучение, экспериментирование и обработка данных

Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.

Подробнее об интерактивных сеансах AWS Glue

Эффективное обнаружение данных

Quickly identify data across AWS, on premises, and other clouds, and then make it instantly available for querying and transforming.

Подробнее о каталоге данных AWS Glue

Что нового?

Нет результатов

1 …

…

Подробнее об AWS