Зачем использовать AWS Glue?
Подготовка данных для получения качественных результатов является первым этапом в проектах аналитики или машинного обучения. AWS Glue – бессерверный сервис интеграции данных, с помощью которого можно легко, быстро и экономично подготавливать данные. Вы можете обнаруживать более 70 различных источников данных и подключаться к ним, управлять данными в централизованном каталоге, а также визуально создавать, запускать и отслеживать конвейеры ETL для загрузки данных в озера данных.
Знакомство с AWS Glue (01:54)

Как это работает

AWS Glue — это бессерверный сервис интеграции данных, который упрощает поиск, подготовку, перемещение и интеграцию данных из множества источников для анализа, машинного обучения и разработки приложений.

  • Варианты движков для интеграции данных
  • Выберите желаемый движок для интеграции данных в AWS Glue, чтобы поддерживать своих пользователей и рабочие нагрузки.

    На схеме показаны различные варианты движков для обработки данных в AWS Glue.
  • Задания ETL, управляемые событиями
  • Сервис AWS Glue может запускать ваши задания ETL по мере поступления новых данных. К примеру, вы можете настроить AWS Glue таким образом, чтобы запуск ваших заданий ETL выполнялся тогда, когда новые данные становятся доступными в Простом сервисе хранения данных Amazon (S3).

    Схема, показывающая, как сервис AWS Glue может запускать задания ETL по мере поступления новых данных.
  • Каталог данных AWS Glue
  • Каталог данных можно использовать для быстрого обнаружения данных и поиска различных наборов данных на AWS без перемещения данных. После каталогизации данные сразу становятся доступными для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

    Схема, показывающая, как Каталог данных обнаруживает и ищет наборы данных без перемещения данных.
  • Бескодовые задания ETL
  • Сервис AWS Glue Studio упрощает визуальное создание, запуск и мониторинг ETL-заданий AWS Glue. Вы можете создавать задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью, а AWS Glue будет автоматически генерировать код.

    Схема, показывающая, как пользователи могут составлять задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью.
  • Мониторинг качества данных и управление им
  • AWS Glue Data Quality автоматизирует создание правил для качества данных, управление и мониторинг. Это помогает обеспечить высокое качество данных, во всех озерах и каналах передачи данных.

    На схеме показано, как AWS Glue Data Quality автоматически измеряет и контролирует качество данных в озерах и каналах передачи, а также управляет им.
  • Подготовка данных
  • Благодаря AWS Glue DataBrew можно экспериментировать с данными непосредственно из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora и Службу реляционных баз данных Amazon (RDS), а также изучать такие данные. Сервис DataBrew представляет вашему вниманию более 250 предварительно созданных преобразований для автоматизации таких задач по подготовке данных, как фильтрация аномалий, стандартизация форматов и исправление недопустимых значений.

    Схема, показывающая, как сервис DataBrew автоматизирует подготовку данных для пользователей.

Примеры использования

Упрощение разработки конвейера ETL

Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.

Поддержка различных платформ и рабочих нагрузок для обработки

More easily support various data processing frameworks, such as ETL and ELT, and various workloads, including batch, micro-batch, and streaming.

Интерактивное изучение, экспериментирование и обработка данных

Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.

Эффективное обнаружение данных

Quickly identify data across AWS, on premises, and other clouds, and then make it instantly available for querying and transforming.

Что нового?

  • По дате (от новых к старым)
Нет результатов
1

Подробнее об AWS