Научитесь работать с Amazon EMR, Amazon Redshift, Amazon Kinesis, Amazon Athena и другими платформами AWS, предназначенными для обработки больших данных и создания сред для работы с ними

Учебный курс Big Data on AWS знакомит с облачными решениями AWS для больших данных, такими как Amazon EMR, Amazon Redshift, Amazon Kinesis и другие платформы AWS для работы с большими данными. В этом курсе показано использование сервиса Amazon EMR для обработки данных с помощью разнообразных инструментов Hadoop, таких как Hive и Hue. Вы научитесь создавать среды больших данных, работать с сервисами Amazon DynamoDB, Amazon Redshift, Amazon QuickSight, Amazon Athena и Amazon Kinesis, а также применять рекомендации по проектированию безопасных и экономичных сред больших данных.

Уровень

Средний

Форма проведения

С преподавателем, очное или виртуальное занятие

Продолжительность

3 дня

Этот курс поможет сформировать следующие навыки.

  • Встраивать решения AWS в систему для обработки больших данных.
  • Использовать Apache Hadoop в контексте Amazon EMR.
  • Идентифицировать компоненты кластера Amazon EMR.
  • Запускать и настраивать кластер Amazon EMR.
  • Использовать с сервисом Amazon EMR распространенные инфраструктуры программирования, таких как Hive, Pig и Streaming.
  • Упрощать работу с Amazon EMR с помощью интерфейса Hue.
  • Использовать анализ в памяти с помощью Spark на Amazon EMR.
  • Выбирать подходящие варианты для хранения данных на AWS.
  • Определять преимущества использования Amazon Kinesis для обработки больших данных в режиме, близком к реальному времени.
  • Эффективно хранить и анализировать данные с помощью Amazon Redshift.
  • Анализировать и контролировать расходы и уровень безопасности решений в сфере больших данных.
  • Обеспечивать безопасность решения в сфере больших данных.
  • Определять варианты сбора, передачи и сжатия данных.
  • Использовать возможности Amazon Athena для спонтанных аналитических запросов.
  • Использовать ПО визуализации для отображения данных и очередей с помощью Amazon QuickSight.
  • Оркестрировать рабочие процессы больших данных с помощью AWS Data Pipeline.

Этот курс предназначен для:

  • ответственных за проектирование и реализацию решений для больших данных, то есть архитекторов решений;
  • специалистов по обработке и анализу данных, заинтересованных в изучении сервисов и архитектурных схем, применяемых в решениях для больших данных на AWS.

Для прохождения данного курса рекомендуется иметь следующую подготовку.

  • Базовый уровень знаний по технологиям работы с большими данными, включая Apache Hadoop, MapReduce, HDFS и запросы SQL/NoSQL
  • Участникам рекомендуется пройти бесплатный онлайн-курс Big Data Technology Fundamentals или обладать аналогичным опытом работы
  • Практический опыт работы с основными сервисами AWS и реализации публичного облака
  • Участникам рекомендуется пройти курс AWS Technical Essentials или обладать аналогичным опытом работы
  • Понимание принципов хранения данных, систем реляционных баз данных и проектирования баз данных.

Этот курс включает следующие формы обучения.

  • Курс с преподавателем
  • Практикумы

Этот курс позволяет применить новые навыки и знания в рабочей среде при выполнении разнообразных практических заданий.

Примечание. Содержание курса может незначительно меняться в зависимости от региона проведения и/или используемого языка.

День 1

  • Обзор больших данных
  • Сбор и пересылка больших данных
  • Потоковая передача больших данных и Amazon Kinesis
  • Практическое занятие 1. Использование Amazon Kinesis для потоковой передачи и анализа данных журналов сервера Apache
  • Решения для хранения больших данных
  • Обработка и анализ больших данных
  • Практическое занятие 2. Использование Amazon Athena для выполнения запросов к данным журналов в Amazon S3

День 2

  • Apache Hadoop и Amazon EMR
  • Практическое занятие 3. Хранение данных и выполнение запросов к ним в Amazon DynamoDB
  • Использование Amazon EMR.
  • Среды программирования Hadoop
  • Практическое занятие 4. Обработка серверных журналов с помощью Hive в Amazon EMR
  • Веб-интерфейсы в Amazon EMR
  • Практическое занятие 5. Запуск скриптов Pig в Hue на базе Amazon EMR
  • Apache Spark в Amazon EMR
  • Практическое занятие 6. Обработка данных такси Нью-Йорка с помощью Spark в Amazon EMR

День 3

  • Amazon Redshift и большие данные
  • Визуализация и оркестрация больших данных
  • Практическое занятие 7. Использование TIBCO Spotfire для визуализации данных
  • Управление расходами при работе с большими данными
  • Обеспечение безопасности развертываний в Amazon
  • Шаблоны проектирования больших данных
Big Data Thumbnail

Перейти на aws.training