影片:A Technical Introduction to Amazon EMR(AWS re:Invent,2015年 10 月,總長度:50 分鐘)

Amazon EMR 提供受管的框架,能讓您以輕鬆、安全,又經濟實惠的方式,在 AWS 執行 Apache Hadoop、Apache Spark 以及 Presto 等資料處理框架。在此簡報中,您將學到在雲端執行這些框架的關鍵設計原則,以及 Amazon ENR 提供的功能集。我們會討論去耦運算與儲存的好處,以及可以透過哪些策略,在降低成本的情況下利用雲端所提供的規模與並行度。另外,AOL 的資深軟體工程師會說明他們如何使用這些策略將 Hadoop 工作負載遷移至 AWS 雲端,並分享過程中的心得。

 

影片:Amazon EMR, Deep Dive and Best Practices(AWS re:Invent,2015 年 10 月,總長度:49 分鐘)

在此簡報中,我們將為您介紹 Amazon EMR 的設計模式,例如使用 Amazon S3 而非 HDFS、利用長期與短期的叢集,以及其他 Amazon 架構最佳實務。我們會談論如何動態擴展或縮減叢集,並介紹調整叢集的方法。我們也會分享如何讓 Amazon EMR 叢集符合成本效益的最佳實務。最後,我們會深入探討一些最近推出的內容,讓您了解我們最新的功能。

  1. 開發資料處理應用程式。您可以使用 Java、Hive (類似 SQL 語言)、Pig (資料處理語言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。Amazon EMR 提供程式碼範例和教學,幫助您快速上手。
  2. 上傳您的應用程式和資料到 Amazon S3。如果要上傳大量的資料,您可能要考慮使用 AWS Import/Export Snowball,以使用實體儲存裝置來上傳資料;或是使用 AWS Direct Connect 來建立從您的資料中心到 AWS 的專用網路連線。如果您願意,還可以直接將資料寫入正在執行的叢集。
  3. 設定和啟動您的叢集。使用 AWS 管理主控台AWS CLI軟體開發套件或者 API,指定要在叢集中佈建的 Amazon EC2 執行個體數目、要使用的執行個體類型 (標準、記憶體增強型、CPU 增強型、高 I/O 等等)、要安裝的應用程式 (Hive、Pig、HBase 等等) 以及應用程式與資料的位置。您可以使用引導操作安裝其他軟體或者更改預設設定。
  4. 監控叢集 (選用)您可以使用管理主控台、命令列界面、開發套件或者 API 監控叢集的運行狀況和進度。EMR 與 Amazon CloudWatch 整合,可用於監控/發出警示,並支援熱門的監控工具,例如 Ganglia。您可以隨時根據資料的多寡在叢集新增/移除容量。對於故障診斷,您可以使用主控台的簡易偵錯 GUI
  5. 擷取輸出。在叢集上擷取 Amazon S3 或 HDFS 的輸出。使用工具 (如 Tableau 和 MicroStrategy) 以視覺化方式顯示資料。Amazon EMR 會在處理完成時自動終止叢集。另一種方法是,讓叢集持續執行並給予更多的工作量。

準備好啟動第一個叢集嗎?

按一下這裡,使用 Amazon EMR 管理主控台啟動叢集。如果您想以範例資料執行範例應用程式,前往 Create Cluster 頁面上的進階叢集組態,按一下右上角的灰色 "Configure Sample Application" 按鈕。

如需逐步文字教學,按一下這裡。此教學會逐步解說如何建立叢集以計算文字檔中文字的出現頻率。

開始使用 Amazon EMR

建立免費帳戶

需要協助嗎?詢問我們!

您需要建構概念驗證或調校 EMR 應用程式這方面的協助嗎?AWS 有專門的 EMR 全球支援團隊。如果您想要深入了解短期 (2–6 週) 付費支援服務,請聯絡我們

Big Data on AWS 課程旨在透過實作經驗,教導您如何使用 Amazon Web Services 處理大數據工作負載。AWS 將說明如何執行 Amazon EMR 工作,透過 Pig 和 Hive 這類 Hadoop 工具的廣泛生態系統處理資料。同時,AWS 還會教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在雲端建立大數據環境,了解 Amazon Kinesis 的好處,以及利用最佳實務設計出適用於分析、安全且經濟實惠的大數據環境。若要進一步了解大數據課程,按一下這裡

如果您打算一天處理超過 1 TB 的資料,EMR 訓練營就很適合您。訓練營是概念證明和知識轉移的現場研討會,由專門負責 EMR 的 AWS 解決方案架構師親自指導。如需進一步了解,按一下這裡聯絡我們

Scale Unlimited 為需要快速學習如何使用 EMR 和其他大數據技術的公司提供自訂現場培訓。如需進一步了解,按一下這裡