Научитесь работать с Amazon EMR, Amazon Redshift, Amazon Kinesis, Amazon Athena и другими платформами AWS, предназначенными для обработки больших данных и создания сред для работы с ними

Курс Big Data on AWS знакомит с облачными решениями платформы AWS для больших данных, такими как Amazon EMR, Amazon Redshift, Amazon Kinesis и другими. В этом курсе показано использование сервиса Amazon EMR для обработки данных с помощью разнообразных инструментов Hadoop, таких как Hive и Hue. Курс учит создавать среды больших данных, работать с сервисами Amazon DynamoDB, Amazon Redshift, Amazon QuickSight, Amazon Athena и Amazon Kinesis, а также применять рекомендации по проектированию безопасных и экономичных сред больших данных.

Уровень

Средний

Форма проведения

Classroom, очное или онлайн-занятие

Продолжительность

3 дня

Этот курс поможет сформировать следующие навыки.

  • Встраивать решения AWS в системы для работы с большими данными.
  • Использовать Apache Hadoop в контексте Amazon EMR.
  • Идентифицировать компоненты кластера Amazon EMR.
  • Запускать и настраивать кластер Amazon EMR.
  • Использовать с сервисом Amazon EMR распространенные инфраструктуры программирования, таких как Hive, Pig и Streaming.
  • Упрощать работу с Amazon EMR с помощью интерфейса Hue.
  • Использовать анализ в памяти с помощью Spark на Amazon EMR.
  • Выбирать подходящие варианты для хранения данных на AWS.
  • Определять преимущества использования Amazon Kinesis для обработки больших данных в режиме, близком к реальному времени.
  • Эффективно хранить и анализировать данные с помощью Amazon Redshift.
  • Анализировать расходы и безопасность решений в сфере больших данных, а также управлять этими аспектами.
  • Определять варианты сбора, передачи и сжатия данных.
  • Использовать возможности Amazon Athena для спонтанных аналитических запросов.
  • Использовать AWS Glue для автоматизации рабочих процессов ETL.
  • Использовать ПО визуализации для отображения данных и очередей с помощью Amazon QuickSight.
  • Оркестрировать рабочие процессы больших данных с помощью AWS Data Pipeline.

Этот курс предназначен для:

  • ответственных за проектирование и реализацию решений для больших данных, то есть архитекторов решений и администраторов SysOp;
  • специалистов по обработке и анализу данных, заинтересованных в изучении сервисов и архитектурных схем, применяемых в решениях в области больших данных на AWS.

Для прохождения данного курса рекомендуется иметь следующую подготовку.

  • Базовый уровень знаний по технологиям работы с большими данными, включая Apache Hadoop, HDFS и запросы SQL/NoSQL
  • Участникам рекомендуется пройти бесплатный онлайн-курс Big Data Technology Fundamentals или обладать аналогичным опытом работы
  • Практический опыт работы с основными сервисами AWS и реализации публичного облака
  • Участникам рекомендуется пройти курс AWS Technical Essentials или обладать аналогичным опытом работы
  • Понимание принципов хранения данных, систем реляционных баз данных и проектирования баз данных.

Этот курс включает следующие формы обучения.

  • Курс с преподавателем
  • Практикумы

Этот курс позволяет применить новые навыки и знания в рабочей среде при выполнении разнообразных практических заданий.

Примечание. Содержание курса может незначительно меняться в зависимости от региона проведения и/или используемого языка.

День 1

  • Обзор больших данных
  • Получение
  • Потоковая передача больших данных и Amazon Kinesis
  • Использование Amazon Kinesis для потоковой передачи и анализа журналов Apache Server
  • Решения хранилищ
  • Использование Amazon Athena для анализа данных журналов
  • Знакомство с Apache Hadoop и Amazon EMR

День 2

  • Использование Amazon Elastic MapReduce
  • Хранение данных и запросы к ним в DynamoDB
  • Среды программирования Hadoop
  • Обработка серверных журналов с помощью Hive в Amazon EMR
  • Оптимизация работы с Amazon EMR с помощью интерфейса Hue
  • Запуск скриптов Pig в Hue на базе Amazon EMR
  • Spark в Amazon EMR
  • Обработка данных нью-йоркского таксопарка с помощью Spark в Amazon EMR

День 3

  • Использование AWS Glue для автоматизации рабочих процессов ETL
  • Amazon Redshift и большие данные
  • Визуализация и оркестрация больших данных
  • Управление расходами в Amazon EMR
  • Обеспечение безопасности решений для больших данных.
  • Шаблоны проектирования больших данных
Big Data Thumbnail

Перейти на aws.training