В чем преимущества Glue?

При использовании AWS Glue начисляется посекундная плата на основе почасового тарифа за использование поисковых ботов (обнаружение данных), а также заданий на извлечение, преобразование и загрузку (ETL) (обработка и загрузка данных). При использовании каталога данных AWS Glue начисляется упрощенная ежемесячная плата за хранение метаданных и доступ к ним. Хранение первого миллиона объектов и первый миллион обращений к ним не оплачиваются. При использовании адреса разработки для интерактивной разработки кода ETL начисляется посекундная плата на основе почасового тарифа. Интерактивные сеансы AWS Glue DataBrew оплачиваются по количеству сеансов, а задания DataBrew – поминутно. Использование реестра AWS Glue Schema предоставляется без дополнительной оплаты.

Примечание. Цены могут отличаться в зависимости от региона AWS.

  • Задания ETL и интерактивные сеансы
  • Примеры расчета цен

    Задание ETL. Рассмотрим задание AWS Glue Apache Spark, которое выполняется в течение 15 минут и использует шесть DPU. Стоимость 1 DPU‑часа составляет 0,44 USD. Поскольку задание выполнялось в течение 1/4 часа и использовало шесть DPU, вы оплатите AWS следующую сумму: 6 DPU * 1/4 часа * 0,44 USD или 0,66 USD.

    Блокноты заданий и интерактивные сеансы AWS Glue Studio. Предположим, что вы используете блокнот в AWS Glue Studio для интерактивной разработки кода ETL. По умолчанию для интерактивного сеанса выделяется пять DPU. Если сеанс длится 24 минуты (2/5 часа), будет начислена плата в размере 5 DPU * 2/5 часа по 0,44 USD за 1 DPU‑час, то есть 0,88 USD.

    ML‑преобразования. Как и в случае с запуском заданий в AWS Glue, стоимость передачи данных ML‑преобразований (включая FindMatches) может меняться в зависимости от размера и содержимого файлов данных, а также от количества и типов используемых узлов. В следующем примере мы использовали FindMatches, чтобы интегрировать информацию о достопримечательностях из различных источников. С пакетом данных объемом ~11 000 000 строк (1,6 ГБ), данных о метках (примеры полных совпадений и несовпадений) объемом ~8000 строк (641 КБ) и при условии использования 16 инстансов типа G.2x генерация меток пройдет за 34 минуты и будет стоить 8,23 USD, оценка метрики займет 11 минут при стоимости 2,66 USD, а выполнение задания FindingMatches завершится за 32 минуты и обойдется в 7,75 USD.

  • Каталог данных
  • Примеры расчета цен

    Расчет стоимости для каталога данных AWS Glue на уровне бесплатного пользования. Предположим, в течение месяца вы храните в каталоге данных миллион таблиц и выполняете миллион запросов на доступ к ним. Вы заплатите 0 USD, поскольку это соответствует уровню бесплатного пользования каталогом данных AWS Glue. Хранение первого миллиона объектов и первый миллион запросов в месяц не оплачиваются.

    Расчет стоимости для каталога данных AWS Glue. Теперь предположим, что объем использования хранилища не изменился и по‑прежнему составляет один миллион таблиц в месяц, однако количество запросов выросло до двух миллионов в месяц. Предположим также, что для поиска новых таблиц вы применяете сканеры, которые работают в течение 30 минут и используют 2 DPU.

    Плата за хранение по‑прежнему составляет 0 USD, поскольку хранение первого миллиона таблиц не оплачивается. Первый миллион запросов также не оплачивается. Вы заплатите 1 USD за один миллион запросов сверх уровня бесплатного пользования. За работу сканеров начисляется плата в размере 0,44 USD за DPU‑час, поэтому вы заплатите 2 DPU * 1/2 часа по 0,44 USD за DPU‑час, то есть 0,44 USD.

    Если вы создаете статистику по таблицам Glue на протяжении 10 минут и используете для этого 1 DPU, вам будет выставлен счет за 1 DPU * 1/6 часа * 0,44 USD за DPU-час, что составляет 0,07 USD.

    Если вы сжимаете таблицы Apache Iceberg в течение 30 минут и используете 2 DPU, вам будет выставлен счет за 2 DPU * 1/2 часа * 0,44 USD за DPU-час, то есть 0,44 USD.

  • Сканеры
  • Интерактивные сеансы DataBrew
  • Примеры расчета цен

    Расчет стоимости для AWS Glue DataBrew. Стоимость каждого интерактивного сеанса продолжительностью 30 минут составляет 1,00 USD. Если вы начнете сеанс в 9:00, немедленно покинете консоль и вернетесь с 9:20 по 9:30, это будет 1 сеанс на общую сумму 1 USD.

    Если вы начнете сеанс в 9:00 и будете работать в консоли DataBrew до 9:50, выйдете из области проекта DataBrew и вернетесь для последнего взаимодействия в 10:15, это займет 3 сеанса, и вам будет выставлен счет в размере 1 USD за сеанс на общую сумму 3 USD.

  • Задания DataBrew
  • Примеры расчета цен

    AWS Glue DataBrew. Если задание DataBrew выполняется в течение 10 минут с использованием 5 узлов DataBrew, стоимость составляет 0,40 USD. Поскольку задание выполнялось в течение 1/6 часа с использованием 5 узлов, будет начислена плата в размере 5 узлов * 1/6 часа по 0,48 USD за узел, то есть 0,40 USD.

  • Качество данных
  • Функция «Качество данных AWS Glue» повышает доверие к вашим данным, помогая вам достичь высокого качества данных. Она автоматически измеряет, отслеживает качество данных в ваших озерах и конвейерах данных и управляет им, упрощая выявление недостающих, устаревших или некачественных данных.

    Вы можете получить доступ к функциям качества данных из Каталога данных и AWS Glue Studio, а также через API AWS Glue.

    Цены на управление качеством данных наборов данных, каталогизированных в каталоге данных.

    Вы можете выбрать набор данных из каталога данных и создать рекомендации. Это действие создаст задачу рекомендации, для которой будут предоставлены устройства обработки данных (DPU). Получив рекомендации, вы можете изменить или добавить новые правила и составить их расписание. Эти задачи называются задачами качества данных, для которых вы будете предоставлять DPU. Вам потребуется не менее двух DPU с минимальной продолжительностью оплаты в 1 минуту.

    Цены на управление качеством данных наборов данных, обрабатываемых в AWS Glue ETL.

    Вы также можете добавить эти проверки качества данных в задачи ETL, чтобы предотвратить попадание некачественных данных в ваши озера данных. Эти правила качества данных будут содержаться в задачах ETL, в результате чего увеличится время выполнения или потребление DPU. В качестве альтернативы можно использовать гибкое исполнение для рабочих нагрузок, на которые не распространяется действие SLA.

    Цены на обнаружение аномалий в AWS Glue ETL.

    Обнаружение аномалий.
    За время, необходимое для обнаружения аномалий, на каждый статистический показатель в дополнение к вашим DPU для задач ETL потребуется одно DPU. В среднем на обнаружение аномалии по одной статистике уходит от 10 до 20 секунд. Предположим, что вы настроили два правила (правило 1: объем данных должен превышать 1000 записей; правило 2: количество столбцов должно быть больше 10) и один анализатор (анализатор 1: мониторинг полноты столбца). Эта конфигурация создаст три статистики: количество строк, количество столбцов и процент полноты столбца. С вас будет взиматься плата за 3 дополнительных DPU за время, необходимое для обнаружения аномалий (минимум 1 секунда). Подробную информацию см. в примере 4.

    Переподготовка.
    Возможно, вы захотите исключить запуски задач или статистик обнаружения аномалий, чтобы алгоритм обнаружения аномалий точно прогнозировал последующие аномалии. С этой целью в AWS Glue предусмотрена возможность исключать или включать статистику. На переобучение модели в течение необходимого для этого времени потребуется одно DPU. В среднем переподготовка каждой статистики занимает от 10 секунд до 20 минут. Подробную информацию см. в примере 5.

    Хранение статистики.
    За хранение собранной статистики плата не взимается. Максимально допустимое количество статистик для одного аккаунта: 100 000. Срок хранения составляет 2 года.

    Дополнительные расходы.
    AWS Glue обрабатывает данные непосредственно из Amazon Simple Storage Service (Amazon S3). При считывании данных с помощью AWS Glue не взимается дополнительная плата за хранение. Плата по стандартному тарифу начисляется только за хранение данных в Amazon S3, запросы и передачу данных. В соответствии с вашей конфигурацией временные файлы, результаты качества данных и файлы перемешивания хранятся в выбранной вами корзине S3 и оплачиваются по стандартным тарифам S3.


    При использовании каталога данных вы платите по стандартным тарифам для Каталога данных. Подробную информацию см. в разделе о каталоге данных, хранении и запросах.

    Примеры расчета цен

    Пример 1. Получение рекомендаций для таблицы в Каталоге данных

    Например, рассмотрим задание рекомендации с 5 DPU, которое выполняется за 10 минут. Вы заплатите за 5 DPU * 1/6 часа * 0,44 USD, что составляет 0,37 USD.

    Пример 2. Оценка качества данных таблицы в Каталоге данных

    После просмотра рекомендаций вы можете отредактировать их, если это необходимо, а затем запланировать выполнение задания качества данных путем предоставления DPU. Например, рассмотрим задание оценки качества данных с 5 DPU, которое выполняется за 20 минут.
    Вы заплатите за 5 DPU * 1/3 часа * 0,44 USD, что составляет 0,73 USD.

    Пример 3. Оценка качества данных в задании ETL AWS Glue

    Вы также можете добавить эти проверки качества данных в задания ETL AWS Glue, чтобы предотвратить попадание некачественных данных в ваши озера данных. Это можно сделать, добавив задание Data Quality Transform в AWS Glue Studio или используя API AWS Glue в коде, который вы создаете в блокнотах AWS Glue Studio. Рассмотрим задание AWS Glue, выполняемое там, где правила качества данных настроены в рамках конвейера, которое выполняется 20 минут (1/3 часа) с 6 DPU. Вы заплатите за 6 DPU * 1/3 часа * 0,44 USD, что составляет 0,88 USD. Кроме того, вы можете использовать Flex, за что взимается плата за 6 DPU * 1/3 часа * 0,29 USD, что составляет 0,58 USD.

    Пример 4. Оценка качества данных в задаче AWS Glue ETL с помощью функции Обнаружения аномалий

    Рассмотрим задачу AWS Glue, которая считывает данные из Amazon S3, преобразует данные и проверяет качество данных перед загрузкой в Amazon Redshift. Предположим, что этот конвейер состоял из 10 правил и 10 анализаторов, в результате чего было собрано 20 статистик. Кроме того, предположим, что процесс извлечения, преобразования, загрузки, сбора статистики, оценки качества данных займет 20 минут. Если функция обнаружения аномалий не включена, с клиента будет взиматься плата за 6 DPU * 1/3 часа (20 минут) * 0,44 USD, что составляет 0,88 USD (A). Если функция обнаружения аномалий включена, мы добавим 1 DPU на каждую статистику, а обнаружение аномалий займет в среднем 15 секунд. В этом примере взимается плата за 20 статистик: 1 DPU * 15/3600 (0,0041 час/статистика) * 0,44 USD (стоимость за DPU-час) = 0,037 USD (B). Общая стоимость задачи составит: 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.

    Пример 5. Переподготовка

    Предположим, в задаче Glue обнаружена аномалия. Вы решили исключить аномалию из модели, чтобы алгоритм обнаружения аномалий точно прогнозировал последующие аномалии. Для этого можно переобучить модель, исключив эту статистику аномалий. За время, необходимое для переобучения модели, на каждую статистику потребуется 1 DPU. В среднем это может занять 15 секунд. Таким образом, если вы исключаете 1 точку данных, вы получите 1 статистику * 1 DPU * 15/3600 (0,0041 час/статистика) * 0,44 = 0,00185 USD.

Примечание. Цены могут отличаться в зависимости от региона.

Подробнее о доступности сервиса AWS Glue см. в таблице глобальных регионов.