AWS Glue – это полностью управляемый ETL-сервис, который позволяет легко перемещать данные между хранилищами данных. AWS Glue упрощает и автоматизирует сложные и отнимающие много времени задачи, которые связаны с обнаружением данных, преобразованием, привязкой, а также планированием заданий. AWS Glue проводит пользователя через процесс перемещения данных с помощью простой в использовании консоли, которая помогает разбираться с источниками данных, готовить данные для анализа и безопасно загружать их из источников данных в целевые объекты.
AWS Glue интегрирован с сервисами Amazon S3, Amazon RDS и Amazon Redshift, а также может подключаться к любому JDBC-совместимому хранилищу данных. AWS Glue автоматически сканирует ваши источники данных, определяет форматы данных, а затем предлагает соответствующие схемы и правила преобразования, так что пользователю не нужно тратить время на задание необходимых параметров для потоков данных вручную. Затем можно изменить правила преобразования, если это необходимо, с помощью уже знакомых инструментов и технологий, таких как Python, Spark, Git и предпочитаемой интегрированной среды разработки (IDE), а также поделиться ими с другими пользователями AWS Glue. AWS Glue обеспечивает планирование заданий ETL, а также осуществляет выделение ресурсов и масштабирование инфраструктуры, необходимой для быстрого и эффективного выполнения заданий ETL при любом масштабе. Не нужно управлять серверами, при этом плата будет начисляться только за ресурсы, использованные для выполнения заданий ETL.
Подпишитесь здесь, чтобы получать самую последнюю информацию о доступности сервиса по электронной почте.
Шаг 1. Создание каталога данных
С помощью Консоли управления AWS зарегистрируйте источники данных для AWS Glue. AWS Glue сканирует все источники данных и создает каталог данных, используя предварительно настроенные классификаторы стандартных источников и типов данных, в т. ч. JSON, CSV, Parquet других. Можно добавить собственные классификаторы или выбрать классификаторы, созданные сообществом AWS Glue для добавления к своим операциям сканирования.
Шаг 2. Создание и изменение преобразованных данных
Затем необходимо выбрать источник данных и конечный объект, после чего AWS Glue сгенерирует код на Python для извлечения данных из источника, преобразует данные в соответствии со схемой конечного объекта и загрузит их в конечный объект. Автоматически сгенерированный код позволяет обрабатывать общие ошибки, такие как неверные данные или аппаратный сбой. Этот код можно отредактировать с помощью предпочитаемой среды разработки IDE и протестировать его работу с использованием собственных образцов данных. Также можно просмотреть код, предоставленный другими пользователями AWS Glue, и вставить его в задания.
Шаг 3. Планирование и запуск заданий
Наконец, можно использовать гибкий планировщик AWS Glue, чтобы запускать потоки на повторяющейся основе в ответ на триггеры или даже в ответ на события AWS Lambda. AWS Glue автоматически распределяет задания ETL между узлами Apache Spark, так что при увеличении объема данных время выполнения заданий ETL остается неизменным. AWS Glue координирует выполнение заданий в правильной последовательности и автоматически повторно запускает задания, завершившиеся со сбоями. AWS Glue эластично масштабирует инфраструктуру, необходимую для своевременного выполнения заданий и минимизации затрат.
Готово.
Вот и все! После запуска заданий ETL сервис AWS Glue позволяет отслеживать изменения в метаданных, такие как определения схемы и форматы данных, что позволяет поддерживать актуальное состояние заданий ETL.
Конференции AWS re:Invent – это самые крупные собрания международного сообщества AWS. Конференция позволяет узнать больше о сервисах AWS и изучить рекомендации по их использованию. На конференции re:Invent 2016 мы анонсировали сервис AWS Glue. Смотрите семинары ниже, чтобы узнать подробнее о AWS Glue и других связанных решениях в сфере аналитики, или ознакомьтесь с полным списком имевших большой успех семинаров по большим данным.
Зарегистрируйтесь по ссылке для использования AWS Glue в ознакомительном режиме. Как только заявка будет одобрена, вы получите бесплатный доступ к сервису.