了解如何使用 Amazon EMR、Amazon Redshift、Amazon Kinesis、Amazon Athena 及其他 AWS 大數據平台來處理資料和建立大數據環境。

AWS 上的大數據介紹以雲端為基礎的大數據解決方案,例如 Amazon EMR、Amazon Redshift、Amazon Kinesis 及其他 AWS 大數據平台。在本課程中,我們為您介紹如何使用 Amazon EMR 以 Hive 和 Hue 這類廣泛的 Hadoop 工具生態系統處理資料。授課內容還包括如何建立大數據環境,使用 Amazon DynamoDB、Amazon Redshift、Amazon Quicksight、Amazon Athena 和 Amazon Kinesis,以及利用最佳實務來設計具安全性和成本效益的大數據環境。

等級

中級

形式

課堂、現場或虛擬教室

長度

3 天

您在本課程中將學習:

  • 將 AWS 解決方案融入大數據生態系統。
  • 利用 Amazon EMR 環境中的 Apache Hadoop。
  • 識別 Amazon EMR 叢集的元件。
  • 啟動和設定 Amazon EMR 叢集。
  • 利用 Amazon EMR 的常用程式設計框架,包括 Hive、Pig 和 Streaming。
  • 利用 Hue 改善 Amazon EMR 的易用性。
  • 在 Amazon EMR 透過 Spark 使用記憶體內分析。
  • 選擇適當的 AWS 資料儲存體選項。
  • 識別針對幾乎即時的大數據處理使用 Amazon Kinesis 的好處。
  • 利用 Amazon Redshift 有效率地存放和分析資料。
  • 了解和管理大數據解決方案的費用和安全。
  • 識別導入、傳輸和壓縮資料等選項。
  • 利用 Amazon Athena 進行臨機操作查詢分析。
  • 利用 AWS Glue 來自動化 ETL 工作負載。
  • 透過 Amazon QuickSight 使用視覺化軟體描述資料和查詢。
  • 使用 AWS Data Pipeline 協調大數據工作流程。

本課程適用於:

  • 負責設計和實作大數據解決方案的個人,即解決方案架構師和系統操作管理員
  • 對了解 AWS 大數據解決方案背後服務和架構模式感興趣的資料科學家和資料分析師

我們建議參加此課程的人必須符合以下先決條件:

  • 熟悉大數據技術的基本知識,包括 Apache Hadoop、HDFS 和 SQL/NoSQL 查詢
  • 學員應完成免費大數據技術基礎知識數位培訓或具備同等經驗
  • 具有核心 AWS 服務和公有雲端實作工作經驗
  • 學員應完成 AWS Technical Essentials 課程或具備同等經驗
  • 了解資料倉儲、關聯式資料庫系統和資料庫設計的基本知識

本課程將結合以下方式授課:

  • 講師指導下的培訓 (ILT)
  • 實作實驗室

本課程讓您透過各種實作練習來測試新技能,並將學到的知識應用到您的工作環境。

注意:課程大綱根據授課區域位置和/或語言而略有不同。

第 1 天

  • 大數據概觀
  • 導入
  • 大數據串流和 Amazon Kinesis
  • 使用 Amazon Kinesis 串流和分析 Apache 伺服器日誌
  • 儲存解決方案
  • 使用 Amazon Athena 分析日誌資料
  • Apache Hadoop 和 Amazon EMR 簡介

第 2 天

  • 使用 Amazon Elastic MapReduce
  • 在 DynamoDB 存放和查詢資料
  • Hadoop 程式設計框架
  • 在 Amazon EMR 以 Hive 處理伺服器日誌
  • 利用 Hue 簡化 Amazon EMR 體驗
  • 在 Amazon EMR 上的 Hue 執行 Pig 指令碼
  • Amazon EMR 上的 Spark
  • 在 Amazon EMR 使用 Spark 處理紐約計程車資料集

第 3 天

  • 使用 AWS Glue 來自動化 ETL 工作負載
  • Amazon Redshift 和大數據
  • 大數據的視覺化及編製
  • 管理 Amazon EMR 成本
  • 保護大數據解決方案的安全
  • 大數據設計模式
Big Data Thumbnail

前往 aws.training