Обнаружение

Обнаружение и поиск по всем вашим наборам данных AWS

Каталог данных AWS Glue – это постоянное хранилище метаданных для всех наборов данных, независимо от их местонахождения. В каталоге данных содержатся определения таблиц, определения заданий, схемы и прочая контрольная информация, позволяющая управлять средой AWS Glue. В нем автоматически рассчитывается статистика и регистрируются разделы, чтобы запросы, обращенные к данным, выполнялись эффективно и экономично. Каталог также поддерживает расширенную историю для версий схем, позволяя оценить, как менялись данные с течением времени.

Автоматическое обнаружение схем

Сканеры AWS Glue подключаются к исходному или целевому хранилищу данных, проходят по ранжированному списку классификаторов для определения схемы данных, а затем создают метаданные в каталоге данных AWS Glue. Метаданные сохраняются в таблицах каталога данных и используются в процессе подготовки ETL‑заданий. Сканеры сервиса можно запускать по расписанию, по требованию или при наступлении события, чтобы всегда поддерживать метаданные в актуальном состоянии.

Управление схемами и их принудительное применение для потоков данных

AWS Glue Schema Registry – бессерверная функция AWS Glue, которая позволяет без дополнительной оплаты проверять и контролировать изменение потоковых данных с помощью зарегистрированных схем Apache Avro. Через сериализаторы и десериализаторы, лицензированные компанией Apache, реестр схем интегрируется с приложениями на Java, разработанные для Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink и AWS Lambda. Если приложения потоковой передачи данных интегрированы с реестром схем, вы можете оптимизировать качество данных и предотвратить неожиданные изменения с помощью проверок совместимости, которые управляют развитием схемы. Кроме того, можно создавать или обновлять таблицы и разделы AWS Glue с использованием схем, которые хранятся в реестре.

Автоматическое масштабирование в зависимости от рабочей нагрузки

Автоматическое масштабирование в AWS Glue, которое является бессерверной возможностью этого сервиса, динамически масштабирует ресурсы в зависимости от увеличения и уменьшения рабочей нагрузки. Благодаря автоматическому масштабированию, вашему заданию назначается исполнитель только при необходимости. По мере выполнения задания и проведения сложных преобразований AWS Glue добавляет и удаляет ресурсы в зависимости от того, насколько делимой является рабочая нагрузка. Больше не нужно беспокоиться о чрезмерном выделении ресурсов, тратить время на оптимизацию количества сотрудников или платить за простаивающие ресурсы.

Трансформация

Визуальное преобразование данных с помощью интерфейса с возможностью перетаскивания

AWS Glue Studio позволяет создавать высокомасштабируемые задания ETL для распределенной обработки без экспертных знаний по Apache Spark. Вы определяете нужный процесс ETL в редакторе заданий, используя визуальный механизм перетаскивания, а затем AWS Glue автоматически генерирует код для извлечения, преобразования и загрузки данных. Код генерируется на Scala или Python и предназначен для использования в Apache Spark.

Создание комплексных конвейеров ETL с помощью простого планирования заданий

Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события. Сервис позволяет запускать множество заданий параллельно или указывать зависимости между заданиями для построения сложных ETL‑конвейеров. AWS Glue обрабатывает зависимости между заданиями, фильтрует ошибочные данные и повторно запускает задания в случае сбоев. Все журналы и оповещения отправляются в Amazon CloudWatch, что позволяет централизованно осуществлять мониторинг и получать уведомления.

Очистка и преобразование потоковых данных «на лету»

Задания бессерверных ETL-операций с потоковыми данными в AWS Glue непрерывно получают данные из источников потоковой передачи, таких как Amazon Kinesis и Amazon MSK, «на лету» очищают и преобразуют их и за считаные секунды делают доступными в целевом хранилище данных для дальнейшего анализа. Эта возможность предназначена для обработки данных событий, например потоковых данных событий IoT, истории посещений и сетевых журналов. Потоковые ETL-задания в AWS Glue можно использовать для расширения и агрегации данных, объединения источников пакетных и потоковых данных, а также выполнения ряда сложных аналитических задач и операций машинного обучения.

Репликация

Совмещение и репликация данных из различных источников с помощью SQL

AWS Glue Elastic Views позволяет создавать представления данных, находящихся в разных типах хранилищ данных AWS, и материализовать представления в выбранном целевом хранилище данных. Вы можете использовать AWS Glue Elastic Views для создания материализованных представлений путем написания запросов на PartiQL. PartiQL – это совместимый с SQL язык написания запросов с открытым исходным кодом, который можно использовать для создания запросов и работы с данными независимо от того, какую структуру имеют данные: табличную или свободную (в формате текста). Вы можете писать запросы PartiQL в интерактивном режиме с помощью редактора запросов в консоли управления AWS или создавать их через API или CLI.

AWS Glue Elastic Views поддерживает Amazon DynamoDB в качестве источника (вскоре будет добавлена поддержка Amazon Aurora и Amazon RDS), а также Amazon Redshift, Amazon OpenSearch Service и Amazon S3 в качестве целевых объектов (вскоре будет добавлена поддержка Amazon Aurora, Amazon RDS и Amazon DynamoDB). Вы можете сократить время, необходимое на разработку, предоставив материализованные представления другим пользователям для использования в их приложениях. AWS Glue Elastic Views постоянно отслеживает изменения данных в ваших исходных хранилищах данных и автоматически вносит соответствующие изменения в целевые хранилища. Узнать подробнее о сервисе AWS Glue Elastic Views можно здесь.

Подготовка

Дедупликация и очистка данных с помощью встроенных средств машинного обучения

Каталог AWS Glue упрощает очистку и подготовку данных к анализу, и для этого вам не нужно быть экспертом в машинном обучении. Функция FindMatches убирает повторы и находит записи, которые не полностью соответствуют друг другу. Например, с помощью FindMatches можно найти в базе данных дублирующиеся записи по ресторанам, когда в одной записи указана, скажем, «Пицца Джо» по адресу «Проспект Ленина, 121», а в другой «Пиццерия Джозефа» по адресу «Ленина, 121». FindMatches просто попросит отметить наборы записей как совпадающие или не совпадающие. За счет этого система будет определять критерии, по которым пара записей считается совпадающей, и создаст задание ETL, которое поможет найти дублирующиеся записи в базе данных или совпадающие записи в двух базах данных.

Редактирование, отладка и тестирование кода ETL с помощью адресов для разработчиков

Разработчикам, которые предпочитают разрабатывать ETL‑код интерактивно, AWS Glue предоставляет адреса для редактирования, отладки и тестирования сгенерированного кода. Такую работу можно выполнять в привычной IDE или в блокноте. Можно создавать специальные операторы чтения, записи и преобразования и импортировать их в ETL‑задания AWS Glue в виде специальных библиотек. Созданный код можно размещать в нашем репозитории GitHub, который помогает обмениваться наработками с другими разработчиками.

Нормализация данных без кода с помощью визуального интерфейса

AWS Glue DataBrew предоставляет интерактивный визуальный интерфейс для таких пользователей, как специалисты по обработке и анализу данных, предоставляя им возможность очистки и нормализации данных без написания кода. Можно легко визуализировать, очищать и нормализовать данные прямо из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, Amazon Aurora и Amazon RDS. Можно выбрать из более чем 250 встроенных преобразований для объединения, сведения и перестановки данных, а также для автоматизации задач подготовки данных, применяя сохраненные преобразования непосредственно к новым входящим данным.

Упрощение разработки заданий по интеграции данных

Интерактивные сеансы AWS Glue Interactive Sessions, которые являются бессерверной возможностью этого сервиса, упрощают разработку заданий по интеграции данных. Интерактивные сеансы AWS Glue дают инженерам данных возможность интерактивного изучения и подготовки данных. Они могут исследовать данные, экспериментировать с ними и обрабатывать их в интерактивном режиме с помощью интегрированной среды разработки или ноутбука на свой выбор.

Встроенные блокноты заданий

Блокноты заданий AWS Glue Studio – это бессерверные блокноты, требующие минимальной настройки в AWS Glue Studio, благодаря чему разработчики могут быстро приступить к работе. Блокноты заданий Glue Studio предоставляют встроенный интерфейс для интерактивных сеансов AWS Glue, что дает пользователям возможность сохранять код блокнота и планировать его выполнение в виде заданий AWS Glue.

Определение, обнаружение и исправление конфиденциальных данных

Функция обнаружения конфиденциальных данных AWS Glue дает возможность определять, идентифицировать и обрабатывать конфиденциальные данные в конвейере и озере данных. После идентификации вы можете исправлять их путем редактирования, замены или отправки сообщений о персональных (PII) и других типах данных, которые считаются конфиденциальными. Обнаружение конфиденциальных данных AWS Glue упрощает идентификацию и маскировку конфиденциальных данных, в том числе персональных, например имени, номера страхового полиса, адреса, электронной почты и сведений водительского удостоверения.

Цены на AWS Glue
Перейти на страницу цен

Изучите варианты тарифов на AWS Glue.

Подробнее 
Зарегистрировать аккаунт AWS
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начать разработку в консоли
Начать разработку в консоли

Начните разработку с использованием AWS Glue в Консоли управления AWS.

Вход