了解如何使用 Amazon EMR、Amazon Redshift、Amazon Kinesis、Amazon Athena 及其他 AWS 大數據平台來處理資料和建立大數據環境。

Big Data on AWS 介紹以雲端為基礎的大數據解決方案,例如 Amazon EMR、Amazon Redshift、Amazon Kinesis 及其他 AWS 大數據平台。在本課程中,我們為您介紹如何使用 Amazon EMR 以 Hive 和 Hue 這類廣泛的 Hadoop 工具生態系統處理資料。授課內容還包括如何建立大數據環境,使用 Amazon DynamoDB、Amazon Redshift、Amazon Quicksight、Amazon Athena 和 Amazon Kinesis,以及利用最佳實務來設計具安全性和成本效益的大數據環境。

等級

中級

形式

講師指導、現場或虛擬教室

長度

3 天

您在本課程中將學習:

  • 將 AWS 解決方案融入大數據生態系統。
  • 利用 Amazon EMR 環境中的 Apache Hadoop。
  • 識別 Amazon EMR 叢集的元件。
  • 啟動和設定 Amazon EMR 叢集。
  • 利用 Amazon EMR 的常用程式設計框架,包括 Hive、Pig 和 Streaming。
  • 利用 Hue 改善 Amazon EMR 的易用性。
  • 在 Amazon EMR 透過 Spark 使用記憶體內分析。
  • 選擇適當的 AWS 資料儲存體選項。
  • 識別針對幾乎即時的大數據處理使用 Amazon Kinesis 的好處。
  • 利用 Amazon Redshift 有效率地存放和分析資料。
  • 了解和管理大數據解決方案的費用和安全。
  • 保護大數據解決方案的安全。
  • 識別導入、傳輸和壓縮資料等選項。
  • 利用 Amazon Athena 進行臨機操作查詢分析。
  • 透過 Amazon QuickSight 使用視覺化軟體描述資料和查詢。
  • 使用 AWS Data Pipeline 協調大數據工作流程。

本課程適用於:

  • 負責設計和實作大數據解決方案的個人,即解決方案架構師
  • 對了解 AWS 大數據解決方案背後服務和架構模式感興趣的資料科學家和資料分析師

我們建議參加此課程的人必須符合以下先決條件:

  • 熟悉大數據技術的基本知識,包括 Apache Hadoop、MapReduce、HDFS 和 SQL/NoSQL 查詢
  • 學員應完成免費 Big Data Technology Fundamentals Web 課程培訓或具備同等經驗
  • 具有核心 AWS 服務和公有雲端實作工作經驗
  • 學員應完成 AWS Technical Essentials 課程或具備同等經驗
  • 了解資料倉儲、關聯式資料庫系統和資料庫設計的基本知識

本課程將結合以下方式授課:

  • 講師指導下的培訓 (ILT)
  • 實作實驗室

本課程讓您透過各種實作練習來測試新技能,並將學到的知識應用到您的工作環境。

注意:課程大綱根據授課區域位置和/或語言而略有不同。

第 1 天

  • 大數據概觀
  • 大數據導入和傳輸
  • 大數據串流和 Amazon Kinesis
  • 實驗室 1:使用 Amazon Kinesis 串流和分析 Apache 伺服器日誌資料
  • 大數據儲存解決方案
  • 大數據處理和分析
  • 實驗室 2:使用 Amazon Athena 查詢來自 Amazon S3 的日誌資料

第 2 天

  • Apache Hadoop 和 Amazon EMR
  • 實驗室 3:在 Amazon DynamoDB 上存放和查詢資料
  • 使用 Amazon EMR
  • Hadoop 程式設計框架
  • 實驗室 4:在 Amazon EMR 以 Hive 處理伺服器日誌
  • Amazon EMR 上的 Web 界面
  • 實驗室 5:在 Amazon EMR 上的 Hue 執行 Pig 指令碼
  • Amazon EMR 上的 Apache Spark
  • 實驗室 6:在 Amazon EMR 上使用 Spark 處理紐約計程車資料

第 3 天

  • Amazon Redshift 和大數據
  • 大數據的視覺化及編製
  • 實驗室 7:使用 TIBCO Spotfire 視覺化資料
  • 管理大數據成本
  • 保護 Amazon 部署的安全
  • 大數據設計模式
Big Data Thumbnail

前往 aws.training