Зачем использовать AWS Glue?
Подготовка данных для получения качественных результатов является первым этапом в проектах аналитики или машинного обучения. AWS Glue – бессерверный сервис интеграции данных, с помощью которого можно легко, быстро и экономично подготавливать данные. Вы можете обнаруживать более 70 различных источников данных и подключаться к ним, управлять данными в централизованном каталоге, а также визуально создавать, запускать и отслеживать конвейеры ETL для загрузки информации в озера данных. Благодаря встроенным возможностям генеративного искусственного интеллекта вы можете модернизировать задания Spark и быстрее создавать их с помощью интеллектуальных средств разработки ETL и устранения неполадок в Spark.
Introduction to AWS Glue (01:54)

Преимущества AWS Glue

Масштабирование петабайтов данных, оплата по факту использования и неограниченный объем данных
Полные возможности интеграции данных в одном бессерверном сервисе
Гибкая поддержка ETL, ELT, пакетной обработки, потоковой передачи и многого другого без привязки
Поддержка всех пользователей данных: от разработчиков до бизнес-пользователей

Как это работает

AWS Glue — это бессерверный сервис интеграции данных, который упрощает поиск, подготовку, перемещение и интеграцию данных из множества источников для анализа, машинного обучения и разработки приложений.

  • Варианты движков для интеграции данных
  • Выберите желаемый движок для интеграции данных в AWS Glue, чтобы поддерживать своих пользователей и рабочие нагрузки.

    На схеме показаны различные варианты движков для обработки данных в AWS Glue.
  • Задания ETL, управляемые событиями
  • Сервис AWS Glue может запускать ваши задания ETL по мере поступления новых данных. К примеру, вы можете настроить AWS Glue таким образом, чтобы запуск ваших заданий ETL выполнялся тогда, когда новые данные становятся доступными в Простом сервисе хранения данных Amazon (S3).

    Схема, показывающая, как сервис AWS Glue может запускать задания ETL по мере поступления новых данных.
  • Каталог данных AWS Glue
  • Каталог данных можно использовать для быстрого обнаружения данных и поиска различных наборов данных на AWS без перемещения данных. После каталогизации данные сразу становятся доступными для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.

    Схема, показывающая, как Каталог данных обнаруживает и ищет наборы данных без перемещения данных.
  • Бескодовые задания ETL
  • Сервис AWS Glue Studio упрощает визуальное создание, запуск и мониторинг ETL-заданий AWS Glue. Вы можете создавать задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью, а AWS Glue будет автоматически генерировать код.

    Схема, показывающая, как пользователи могут составлять задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью.
  • Мониторинг качества данных и управление им
  • AWS Glue Data Quality автоматизирует создание правил для качества данных, управление и мониторинг. Это помогает обеспечить высокое качество данных, во всех озерах и каналах передачи данных.

    На схеме показано, как AWS Glue Data Quality автоматически измеряет и контролирует качество данных в озерах и каналах передачи, а также управляет им.
  • Подготовка данных
  • Благодаря AWS Glue DataBrew можно экспериментировать с данными непосредственно из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora и Службу реляционных баз данных Amazon (RDS), а также изучать такие данные. Сервис DataBrew представляет вашему вниманию более 250 предварительно созданных преобразований для автоматизации таких задач по подготовке данных, как фильтрация аномалий, стандартизация форматов и исправление недопустимых значений.

    Студия AWS Glue – это инструмент визуальной подготовки данных, который можно использовать для подготовки данных с помощью интерактивного, визуального интерфейса в формате point-and-click без написания кода.

    Схема, показывающая, как сервис DataBrew автоматизирует подготовку данных для пользователей.

Примеры использования

Упрощение разработки конвейера ETL

Избавьтесь от необходимости в управлении удаленной инфраструктурой благодаря автоматическому распределению и управлению работниками, используйте один сервис, который удовлетворит все ваши потребности по интеграции данных.

Поддержка различных платформ и рабочих нагрузок для обработки

Упростите обеспечение поддержки различных платформ обработки данных, таких как ETL и ELT, и различных рабочих нагрузок, включая пакеты, микропакеты и потоки.

Интерактивное изучение, экспериментирование и обработка данных

Используя интерактивные сеансы AWS Glue, специалисты по работе с данными могут в интерактивном режиме изучать и подготавливать данные с использованием интегрированной среды разработки (IDE) или выбранного блокнота.

Эффективное обнаружение данных

Быстро идентифицируйте данные в AWS, локальной среде или других облаках, а затем делайте их сразу же доступными для опроса и преобразования.

Что нового?

  • По дате (от новых к старым)
Нет результатов
1

Подробнее об AWS