影片:A Technical Introduction to Amazon EMR(AWS re:Invent,2015年 10 月,總長度:50 分鐘)
Amazon EMR 提供受管的框架,能讓您以輕鬆、安全,又經濟實惠的方式,在 AWS 執行 Apache Hadoop、Apache Spark 以及 Presto 等資料處理框架。在此簡報中,您將學到在雲端執行這些框架的關鍵設計原則,以及 Amazon ENR 提供的功能集。我們會討論去耦運算與儲存的好處,以及可以透過哪些策略,在降低成本的情況下利用雲端所提供的規模與並行度。另外,AOL 的資深軟體工程師會說明他們如何使用這些策略將 Hadoop 工作負載遷移至 AWS 雲端,並分享過程中的心得。
影片:Amazon EMR, Deep Dive and Best Practices(AWS re:Invent,2015 年 10 月,總長度:49 分鐘)
在此簡報中,我們將為您介紹 Amazon EMR 的設計模式,例如使用 Amazon S3 而非 HDFS、利用長期與短期的叢集,以及其他 Amazon 架構最佳實務。我們會談論如何動態擴展或縮減叢集,並介紹調整叢集的方法。我們也會分享如何讓 Amazon EMR 叢集符合成本效益的最佳實務。最後,我們會深入探討一些最近推出的內容,讓您了解我們最新的功能。
- 開發資料處理應用程式。您可以使用 Java、Hive (類似 SQL 語言)、Pig (資料處理語言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。Amazon EMR 提供程式碼範例和教學,幫助您快速上手。
- 上傳您的應用程式和資料到 Amazon S3。如果要上傳大量的資料,您可能要考慮使用 AWS Import/Export Snowball,以使用實體儲存裝置來上傳資料;或是使用 AWS Direct Connect 來建立從您的資料中心到 AWS 的專用網路連線。如果您願意,還可以直接將資料寫入正在執行的叢集。
- 設定和啟動您的叢集。使用 AWS 管理主控台、AWS CLI、軟體開發套件或者 API,指定要在叢集中佈建的 Amazon EC2 執行個體數目、要使用的執行個體類型 (標準、記憶體增強型、CPU 增強型、高 I/O 等等)、要安裝的應用程式 (Hive、Pig、HBase 等等) 以及應用程式與資料的位置。您可以使用引導操作安裝其他軟體或者更改預設設定。
- 監控叢集 (選用)。您可以使用管理主控台、命令列界面、開發套件或者 API 監控叢集的運行狀況和進度。EMR 與 Amazon CloudWatch 整合,可用於監控/發出警示,並支援熱門的監控工具,例如 Ganglia。您可以隨時根據資料的多寡在叢集新增/移除容量。對於故障診斷,您可以使用主控台的簡易偵錯 GUI。
- 擷取輸出。在叢集上擷取 Amazon S3 或 HDFS 的輸出。使用工具 (如 Tableau 和 MicroStrategy) 以視覺化方式顯示資料。Amazon EMR 會在處理完成時自動終止叢集。另一種方法是,讓叢集持續執行並給予更多的工作量。
您需要建構概念驗證或調校 EMR 應用程式這方面的協助嗎?AWS 有專門的 EMR 全球支援團隊。如果您想要深入了解短期 (2–6 週) 付費支援服務,請聯絡我們。
Scale Unlimited 為需要快速學習如何使用 EMR 和其他大數據技術的公司提供自訂現場培訓。如需進一步了解,按一下這裡。