AWS Glue – это полностью управляемый ETL-сервис, который позволяет легко перемещать данные между хранилищами данных. AWS Glue упрощает и автоматизирует сложные и отнимающие много времени задачи, которые связаны с обнаружением данных, преобразованием, привязкой, а также планированием заданий. AWS Glue проводит пользователя через процесс перемещения данных с помощью простой в использовании консоли, которая помогает разбираться с источниками данных, готовить данные для анализа и безопасно загружать их из источников данных в целевые объекты.

AWS Glue интегрирован с сервисами Amazon S3, Amazon RDS и Amazon Redshift, а также может подключаться к любому JDBC-совместимому хранилищу данных. AWS Glue автоматически сканирует ваши источники данных, определяет форматы данных, а затем предлагает соответствующие схемы и правила преобразования, так что пользователю не нужно тратить время на задание необходимых параметров для потоков данных вручную. Затем можно изменить правила преобразования, если это необходимо, с помощью уже знакомых инструментов и технологий, таких как Python, Spark, Git и предпочитаемой интегрированной среды разработки (IDE), а также поделиться ими с другими пользователями AWS Glue. AWS Glue обеспечивает планирование заданий ETL, а также осуществляет выделение ресурсов и масштабирование инфраструктуры, необходимой для быстрого и эффективного выполнения заданий ETL при любом масштабе. Не нужно управлять серверами, при этом плата будет начисляться только за ресурсы, использованные для выполнения заданий ETL.

Знакомство с AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Знакомство с AWS Glue

Подпишитесь здесь, чтобы получать самую последнюю информацию о доступности сервиса по электронной почте.

Шаг 1. Создание каталога данных

С помощью Консоли управления AWS зарегистрируйте источники данных для AWS Glue. AWS Glue сканирует все источники данных и создает каталог данных, используя предварительно настроенные классификаторы стандартных источников и типов данных, в т. ч. JSON, CSV, Parquet других. Можно добавить собственные классификаторы или выбрать классификаторы, созданные сообществом AWS Glue для добавления к своим операциям сканирования.


Шаг 1. Автоматическое создание каталога данных
Шаг 1. Автоматическое создание каталога данных

Щелкните для увеличения изображения


Шаг 2. Создание и изменение преобразованных данных

Затем необходимо выбрать источник данных и конечный объект, после чего AWS Glue сгенерирует код на Python для извлечения данных из источника, преобразует данные в соответствии со схемой конечного объекта и загрузит их в конечный объект. Автоматически сгенерированный код позволяет обрабатывать общие ошибки, такие как неверные данные или аппаратный сбой. Этот код можно отредактировать с помощью предпочитаемой среды разработки IDE и протестировать его работу с использованием собственных образцов данных. Также можно просмотреть код, предоставленный другими пользователями AWS Glue, и вставить его в задания.


Шаг 2. Создание преобразованных данных
Шаг 2. Создание преобразованных данных

Щелкните для увеличения изображения


Шаг 3. Планирование и запуск заданий

Наконец, можно использовать гибкий планировщик AWS Glue, чтобы запускать потоки на повторяющейся основе в ответ на триггеры или даже в ответ на события AWS Lambda. AWS Glue автоматически распределяет задания ETL между узлами Apache Spark, так что при увеличении объема данных время выполнения заданий ETL остается неизменным. AWS Glue координирует выполнение заданий в правильной последовательности и автоматически повторно запускает задания, завершившиеся со сбоями. AWS Glue эластично масштабирует инфраструктуру, необходимую для своевременного выполнения заданий и минимизации затрат.


Шаг 3. Планирование и запуск заданий
Шаг 3. Планирование и запуск заданий

Щелкните для увеличения изображения


Готово.

Вот и все! После запуска заданий ETL сервис AWS Glue позволяет отслеживать изменения в метаданных, такие как определения схемы и форматы данных, что позволяет поддерживать актуальное состояние заданий ETL.

reinvent-hkt-banner-01

Конференции AWS re:Invent – это самые крупные собрания международного сообщества AWS. Конференция позволяет узнать больше о сервисах AWS и изучить рекомендации по их использованию. На конференции re:Invent 2016 мы анонсировали сервис AWS Glue. Смотрите семинары ниже, чтобы узнать подробнее о AWS Glue и других связанных решениях в сфере аналитики, или ознакомьтесь с полным списком имевших большой успех семинаров по большим данным.

AWS Glue – это полностью управляемый ETL-сервис, который упрощает работу с источниками данных, подготовку данных для анализа и их надежную загрузку в хранилища. На этом семинаре мы представляем AWS Glue, предоставляет обзор его компонентов и обсуждаем, как можно использовать этот сервис для упрощения и автоматизации процессов ETL. Мы также расскажем, когда можно будет попробовать работу с сервисом и как зарегистрироваться на ознакомительную версию.

Смотрите видео здесь »

 

Для быстрого и эффективного анализа больших данных требуется хранилище, оптимизированное для обработки и масштабирования объемных пакетов данных. Amazon Redshift – быстрое хранилище данных петабайтного масштаба, которое упрощает анализ всех данных и сокращает его стоимость, и все это во много раз дешевле стоимости традиционных хранилищ данных. На этом семинаре мы подробно изучим вопрос хранения данных в Amazon Redshift для анализа больших данных. Мы расскажем о рекомендациях по использованию технологии столбцового хранения и возможностей параллельной обработки Amazon Redshift, которые позволяют добиться высокой пропускной способности и производительности выполнения запросов. Мы также обсудим, как разработать оптимальные схемы, эффективно загружать данные и управлять рабочими нагрузками.

Смотрите видео здесь »

 

В мире производятся постоянно возрастающие объемы все более разнообразных больших данных, и все это с большей скоростью. Потребителям и компаниям помимо классической пакетной обработки требуется анализ динамичных данных за секунды (или даже миллисекунды). AWS предоставляет множество технологий, позволяющих решать проблемы, связанные с большими данными. Но какие сервисы стоит использовать? Почему, когда и как? На этом семинаре мы упростим обработку больших данных и представим ее как «шину данных», включающую различные стадии обработки: сбор, хранение, обработка и визуализация. Затем мы обсудим, как выбрать для каждой стадии правильную технологию на основе таких критериев, как структура данных, задержка запросов, стоимость, частота запросов, размер элементов, объем данных, надежность и т. п. Наконец, мы представим эталонную архитектуру, шаблоны проектирования и рекомендации по соединению этих технологий для решения проблем с большими данными за адекватную плату.

Смотрите видео здесь »

 

Зарегистрируйтесь по ссылке для использования AWS Glue в ознакомительном режиме. Как только заявка будет одобрена, вы получите бесплатный доступ к сервису.

Регистрация на ознакомительный режим