AWS Glue

Возможности AWS Glue

Уведомление о прекращении поддержки

Начиная с 30 апреля 2026 года новые клиенты не смогут получить доступ к AWS Glue для Ray. Если вы хотите воспользоваться этой функцией, зарегистрируйтесь до 30 апреля 2026 года. Чтобы узнать о возможностях, аналогичных возможностям AWS Glue для Ray, ознакомьтесь с Amazon EKS. Подробнее см. здесь.

В чем преимущества Glue?

AWS Glue – это бессерверный масштабируемый сервис интеграции данных, упрощающий поиск, подготовку, перемещение и интеграцию данных из множества источников для анализа, машинного обучения и разработки приложений. С помощью генеративного искусственного интеллекта AWS Glue предоставляет все необходимые средства для интеграции данных, чтобы вы могли получить аналитические сведения и приступить к использованию данных уже через несколько минут, не тратя на это целые месяцы. С AWS Glue настраивать инфраструктуру и управлять ею не требуется. Плата начисляется только за ресурсы, используемые при выполнении заданий.

Обнаружение
4
Подготовка
8
Интеграция
10
Преобразование
3
Оптимизация
6

Обнаружение

Открыть все

Каталог данных AWS Glue – это постоянное хранилище метаданных для всех наборов данных, независимо от их местонахождения. В каталоге данных содержатся определения таблиц, определения заданий, схемы и прочая контрольная информация, позволяющая управлять средой AWS Glue. В нем автоматически рассчитывается статистика и регистрируются разделы, чтобы запросы, обращенные к данным, выполнялись эффективно и экономично. Каталог также поддерживает расширенную историю для версий схем, позволяя оценить, как менялись данные с течением времени.

Сканеры AWS Glue подключаются к исходному или целевому хранилищу данных, проходят по ранжированному списку классификаторов для определения схемы данных, а затем создают метаданные в каталоге данных AWS Glue. Метаданные сохраняются в таблицах каталога данных и используются в процессе подготовки заданий извлечения, преобразования и загрузки (ETL). Сканеры сервиса можно запускать по расписанию, по требованию или при наступлении события, чтобы всегда поддерживать метаданные в актуальном состоянии.

Реестр схем AWS Glue – бессерверная функция AWS Glue, которая позволяет без дополнительной оплаты проверять и контролировать изменение потоковых данных с помощью зарегистрированных схем Apache Avro. Через сериализаторы и десериализаторы, лицензированные компанией Apache, реестр схем AWS Glue интегрируется с приложениями Java, разработанными для Apache Kafka, Управляемой потоковой передачи Amazon для Apache Kafka (Amazon MSK), Потоков данных Amazon Kinesis, Apache Flink, Аналитики данных Amazon Kinesis для Apache Flink и AWS Lambda. Если приложения потоковой передачи данных интегрированы с реестром схем AWS Glue, вы можете оптимизировать качество данных и предотвратить неожиданные изменения с помощью проверок совместимости, которые управляют развитием схемы. Кроме того, можно создавать или обновлять таблицы и разделы AWS Glue с использованием схем, которые хранятся в реестре.

Автомасштабирование, которое является бессерверной возможностью этого сервиса, динамически масштабирует ресурсы в зависимости от увеличения и уменьшения рабочей нагрузки. Благодаря автоматическому масштабированию, вашему заданию назначается исполнитель только при необходимости. По мере выполнения задания и проведения сложных преобразований AWS Glue добавляет и удаляет ресурсы в зависимости от того, насколько делимой является рабочая нагрузка. Больше не нужно беспокоиться о чрезмерном выделении ресурсов, тратить время на оптимизацию количества сотрудников или платить за простаивающие ресурсы.

Подготовка

Открыть все

Каталог AWS Glue упрощает очистку и подготовку данных к анализу, и для этого вам не нужно быть экспертом в машинном обучении. Функция FindMatches убирает повторы и находит записи, которые не полностью соответствуют друг другу. Например, с помощью FindMatches можно найти в базе данных дублирующиеся записи по ресторанам, когда в одной записи указана, скажем, «Пицца Джо» по адресу «Проспект Ленина, 121», а в другой – «Пиццерия Джозефа» по адресу «Ленина, 121». FindMatches попросит отметить наборы записей как совпадающие или не совпадающие. За счет этого система будет определять критерии, по которым пара записей считается совпадающей, и создаст задание ETL, которое поможет найти дублирующиеся записи в базе данных или совпадающие записи в двух базах данных.

Разработчикам, которые предпочитают создавать ETL‑код интерактивно, AWS Glue предоставляет адреса для редактирования, отладки и тестирования сгенерированного кода. Вы можете использовать свою любимую интегрированную среду разработки (IDE) или ноутбук. Можно создавать специальные операторы чтения, записи и преобразования и импортировать их в ETL‑задания AWS Glue в виде специальных библиотек. Созданный код можно размещать в нашем репозитории GitHub, который помогает обмениваться наработками с другими разработчиками. Интерактивные сеансы AWS Glue Interactive Sessions, которые являются бессерверной возможностью этого сервиса, упрощают разработку заданий по интеграции данных. Они могут также исследовать данные, экспериментировать с ними и обрабатывать их в интерактивном режиме с помощью интегрированной среды разработки или блокнота на свой выбор.

AWS Glue DataBrew предоставляет интерактивный визуальный интерфейс для таких пользователей, как специалисты по обработке и анализу данных, предоставляя им возможность очистки и нормализации данных без написания кода. Можно легко визуализировать, очищать и нормализовать данные прямо из озера данных, хранилищ данных и баз данных, например из Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Aurora и Amazon Relational Database Service (Amazon RDS). Можно выбрать из более чем 250 встроенных преобразований для объединения, сведения и перестановки данных, а также для автоматизации задач подготовки данных, применяя сохраненные преобразования непосредственно к новым входящим данным.

Функция обнаружения конфиденциальных данных AWS Glue помогает определять, идентифицировать и обрабатывать конфиденциальные данные в конвейере и озере данных. После идентификации вы можете исправлять их путем редактирования, замены или отправки сообщений о персональных (PII) и других типах данных, которые считаются конфиденциальными. Обнаружение конфиденциальных данных AWS Glue упрощает идентификацию и маскировку конфиденциальных данных, в том числе персональных (например, имени, номера страхового полиса, адреса, электронной почты и сведений водительского удостоверения).

Разработчикам нравится Python за легкость использования и богатую коллекцию встроенных библиотек для обработки данных. Они хотят использовать знакомый тип примитива Python для обработки больших наборов данных. AWS Glue для Ray помогает инженерам данных обрабатывать большие наборы данных с помощью языка Python и его популярных библиотек. AWS Glue для Ray использует Ray.io, унифицированную вычислительную платформу с открытым исходным кодом, которая помогает масштабировать рабочие нагрузки Python от одного узла до сотен. AWS Glue для Ray работает без сервера, поэтому управлять инфраструктурой не требуется.

AWS Glue помогает создавать нестандартные визуальные преобразования, которые можно определять и многократно использовать, а также делиться логикой ETL. С помощью AWS Glue Custom Visual Transforms инженеры данных могут писать и передавать специфическую для бизнеса логику Apache Spark, снижая зависимость от разработчиков Spark и упрощая актуализацию ETL. Такие преобразования доступны для всех заданий в аккаунте AWS, как визуальных, так и основанных на коде.

AWS Glue предоставляет инструментарий генеративного искусственного интеллекта для автоматического анализа заданий Spark и составления планов обновления до новых версий. Эти возможности сокращают время и усилия, затрачиваемые на поддержание современных, безопасных и высокопроизводительных заданий Spark за счет автоматизации процедур идентификации и обновления сценариев и конфигураций.

AWS Glue использует генеративный искусственный интеллект для быстрого выявления и устранения проблем в заданиях Spark. Решение анализирует метаданные заданий, журналы выполнения и конфигурации, чтобы выявлять первопричины и предоставлять практические рекомендации, сокращая время устранения неполадок с нескольких дней до нескольких минут.

Интеграция

Открыть все

Интерактивные сеансы AWS Glue Interactive Sessions, которые являются бессерверной возможностью этого сервиса, упрощают разработку заданий по интеграции данных. Интерактивные сеансы AWS Glue дают инженерам данных возможность интерактивного изучения и подготовки данных. Они могут также исследовать данные, экспериментировать с ними и обрабатывать их в интерактивном режиме с помощью интегрированной среды разработки или блокнота на свой выбор.

Блокноты заданий AWS Glue Studio – это бессерверные блокноты, требующие минимальной настройки в AWS Glue Studio, благодаря чему разработчики могут быстро приступить к работе. Блокноты заданий Glue Studio предоставляют встроенный интерфейс для интерактивных сеансов AWS Glue, что дает пользователям возможность сохранять код блокнота и планировать его выполнение в виде заданий AWS Glue.

Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события. Сервис позволяет запускать множество заданий параллельно или указывать зависимости между заданиями для построения сложных ETL‑конвейеров. AWS Glue обрабатывает зависимости между заданиями, фильтрует ошибочные данные и повторно запускает задания в случае сбоев. Все журналы и оповещения отправляются в Amazon CloudWatch, что позволяет централизованно осуществлять мониторинг и получать уведомления. Управляемые рабочие процессы Amazon для Apache Airflow (MWAA) – это управляемый сервис для Apache Airflow, который позволяет использовать текущую знакомую вам платформу Apache Airflow для организации рабочих процессов. С помощью MWAA объедините несколько процессов ETL, основанных на различных технологиях, в единый сложный рабочий процесс ETL.

AWS Glue интегрируется с Git, широко используемой системой контроля версий с открытым исходным кодом. Вы можете использовать GitHub и AWS CodeCommit для хранения истории изменений в заданиях AWS Glue и применения текущих практик DevOps для их развертывания. Интеграция Git в задания AWS Glue действует для всех типов заданий AWS Glue, как визуальных, так и в виде кода. Она реализована в виде интеграции с GitHub и CodeCommit, что упрощает использование инструментов автоматизации, таких как Jenkins и AWS CodeDeploy, для развертывания заданий AWS Glue.

AWS Glue Flex – это класс гибкого выполнения заданий, который позволяет снизить стоимость несрочных рабочих нагрузок по интеграции данных (например, предварительных заданий, тестирования и загрузки данных) до 35 %. AWS Glue имеет два класса выполнения заданий: стандартный и гибкий. Класс стандартного выполнения идеально подходит для чувствительных ко времени рабочих нагрузок, требующих быстрого запуска заданий и выделенных ресурсов. AWS Glue Flex подходит для нечувствительных ко времени заданий, время начала и завершения которых может меняться.

AWS Glue нативно поддерживает три платформы с открытым исходным кодом: Apache Hudi, Apache Iceberg и Linux Foundation Delta Lake. Они помогают управлять данными с поддержкой согласованности транзакций для использования в озере данных на основе Amazon S3.

Сервис Качество данных AWS Glue помогает вам повышать качество данных и укреплять уверенность в их правильности. Он автоматически измеряет, отслеживает качество данных в ваших озерах и конвейерах данных, а также управляет им. Также он автоматически вычисляет статистические показатели, дает рекомендации по правилам обеспечения качества, отслеживает случаи понижения качества и предупреждает вас о них, упрощает идентификацию отсутствующих, несвежих или некачественных данных до того, как они повлияют на ваш бизнес.

AWS Glue 5.0 и более поздние версии упрощают обеспечение безопасности и управление транзакционными озерами данных, предоставляя контроль доступа на уровне таблиц, столбцов и строк. Задания Apache Spark могут взаимодействовать с таблицами Apache Iceberg, Apache Hudi и Delta.

Интеграция самоуправляемых источников баз данных с Amazon Redshift с нулевым использованием ETL дает возможность анализировать петабайты транзакционных данных, устраняя необходимость создавать сложные конвейеры данных и управлять ими. Через несколько минут после записи данных в самоуправляемые базы данных Oracle, SQL Server, MySQL или PostgreSQL они реплицируются в Amazon Redshift. К выбранным базам данных и таблицам для репликации данных в Amazon Redshift можно применить фильтрацию данных. Это позволит адаптировать репликацию к вашим конкретным потребностям. Подробнее см. здесь.

AWS Glue обеспечивает интеграцию с нулевым использованием ETL, чтобы вы могли связать несколько источников данных со своей аналитической средой. В частности, вы можете интегрировать данные из DynamoDB, корпоративных приложений SaaS (таких как Salesforce, SAP и ServiceNow) и самоуправляемых баз данных (включая Oracle, MySQL, SQL Server и PostgreSQL) в хранилище данных Amazon Redshift или хранилище в озере данных Amazon SageMaker. Интеграция с нулевым использованием ETL устраняет сложность, связанную с созданием, эксплуатацией и обслуживанием традиционных конвейеров данных. Изменения, внесенные в источнике, реплицируются в течение нескольких минут, что гарантирует актуальность данных без ручного вмешательства. Благодаря интеграции с нулевым использованием ETL вы получаете доступ к свежим данным для аналитики, отчетности, а также приложений искусственного интеллекта и машинного обучения. Это позволяет более оперативно анализировать данные и своевременно принимать решения.

Преобразование

Открыть все

AWS Glue Studio позволяет создавать высокомасштабируемые задания ETL для распределенной обработки без экспертных знаний по Apache Spark. Вы определяете нужный процесс ETL в редакторе заданий, используя визуальный механизм перетаскивания, а затем AWS Glue автоматически генерирует код для извлечения, преобразования и загрузки данных. Код генерируется на Scala или Python и предназначен для использования в Apache Spark.

Создавайте задания ETL на естественном языке с помощью интеграции данных Amazon Q в AWS Glue. Просто опишите свои потребности в преобразовании данных и получите автоматически сгенерированный код Apache Spark, который можно настраивать, тестировать и развертывать в виде производственных заданий.

Задания бессерверных ETL-операций с потоковыми данными в AWS Glue непрерывно получают данные из источников потоковой передачи, таких как Amazon Kinesis и Amazon MSK, «на лету» очищают и преобразуют их и за считаные секунды делают доступными в целевом хранилище данных для дальнейшего анализа. Эта возможность предназначена для обработки данных событий, например потоковых данных событий IoT, истории посещений и сетевых журналов. Потоковые ETL-задания в AWS Glue можно использовать для расширения и агрегации данных, объединения источников пакетных и потоковых данных, а также выполнения ряда сложных аналитических задач и операций машинного обучения.

Оптимизация

Открыть все

Каталог данных AWS Glue поддерживает оптимизацию таблиц Apache Iceberg. Подробнее об использовании фреймворка Iceberg в AWS Glue можно узнать здесь.

Каталог данных AWS Glue поддерживает все стратегии сжатия: binpack, сортировку и z-порядок. Стратегия компактирования binpack повышает производительность за счет оптимизации размера файлов, сжатие с сортировкой улучшает эффективность выполнения запросов путем сокращения сканируемых файлов, а z-образный порядок обеспечивает многомерное отсечение файлов.

Каталог данных AWS Glue поддерживает оптимизатор хранения снимков, который помогает снизить затраты на хранение, автоматически сохраняя только актуальные снимки и удаляя устаревшие или ненужные снимки вместе с их базовыми файлами.

Каталог данных AWS Glue поддерживает периодическую идентификацию и удаление ненужных файлов без ссылок, освобождая хранилище.

Каталог данных AWS Glue поддерживает вычисление и обновление множества различных значений (NDV) для каждого столбца в таблицах Iceberg. Это улучшает оптимизацию запросов, управление данными и производительность, что особенно полезно для инженеров данных и исследователей, работающих с большими наборами данных.

Каталог данных AWS Glue поддерживает статистику на уровне столбцов в таких форматах данных, как Parquet, ORC, JSON, ION, CSV и XML. Аналитические сервисы AWS, включая Amazon Redshift и Amazon Athena, используют статистику по столбцам для построения планов выполнения запросов и выбора наиболее оптимального, что улучшает производительность обработки запросов.

Дальнейшие шаги

Цены

Просмотрите цены, воспользуйтесь Калькулятором цен AWS или даже запросите ценовое предложение

Ознакомьтесь с ценами на AWS Glue

Консоль

Начните разработку с использованием AWS Glue в Консоли управления AWS

Вход

Возможности AWS Glue

Уведомление о прекращении поддержки

В чем преимущества Glue?

Обнаружение

Подготовка

Интеграция

Преобразование

Оптимизация

Дальнейшие шаги

Просмотрите цены, воспользуйтесь Калькулятором цен AWS или даже запросите ценовое предложение

Начните разработку с использованием AWS Glue в Консоли управления AWS

Подробнее

Ресурсы

Разработчики

Поддержка

Возможности AWS Glue

Уведомление о прекращении поддержки

В чем преимущества Glue?

Обнаружение

Обнаружение и поиск по всем вашим наборам данных AWS

Автоматическое обнаружение схем

Управление схемами и их принудительное применение для потоков данных

Автоматическое масштабирование в зависимости от рабочей нагрузки

Подготовка

Дедупликация и очистка данных с помощью встроенных средств машинного обучения (ML)

Редактирование, отладка и тестирование кода ETL с помощью интерактивных сеансов

Нормализация данных без кода с помощью визуального интерфейса

Определение, обнаружение и исправление конфиденциальных данных

Масштабирование имеющегося кода Python с помощью Ray

Создание нестандартных визуальных преобразований

Модернизация заданий Apache Spark с помощью обновлений GenAI (предварительная версия)

Ускорение отладки с помощью средств устранения неполадок GenAI (предварительная версия)

Интеграция

Упрощение разработки заданий по интеграции данных

Встроенные блокноты заданий

Создание комплексных конвейеров ETL с помощью простого планирования заданий

Применение и развертывание передовых разработок DevOps с интеграцией Git

Сокращение затрат на несрочные рабочие нагрузки благодаря гибкому выполнению заданий

Чтение, вставка, обновление и удаление файлов в озере данных

Обеспечьте высокое качество данных в своих озерах и конвейерах данных

Предоставляйте детализированный контроль доступа к озеру данных

Анализируйте данные из самоуправляемых баз с помощью интеграции с нулевым использованием ETL

Интегрируйте данные из нескольких источников без операционных накладных расходов

Преобразование

Визуальное преобразование данных с помощью интерфейса с возможностью перетаскивания

Генерация кода ETL с помощью интеграции данных Amazon Q

Очистка и преобразование потоковых данных «на лету»

Оптимизация

Оптимизация таблиц Apache Iceberg

Компактирование

Хранение снимков

Удаление файлов без ссылок

Статистика Apache Iceberg

Оптимизация производительности запросов к таблицам каталога данных Glue

Дальнейшие шаги

Просмотрите цены, воспользуйтесь Калькулятором цен AWS или даже запросите ценовое предложение

Начните разработку с использованием AWS Glue в Консоли управления AWS

Подробнее

Ресурсы

Разработчики

Поддержка