Amazon EMR 上的 Apache Spark

Apache Spark 是常用於大數據工作負載的開放原始碼、分散式處理系統。Apache Spark 利用記憶體內快取和優化執行以獲得快速效能，且支援一般批次處理、串流分析、機器學習、圖形資料庫及臨機操作查詢。

Amazon EMR 原本就支援 Hadoop YARN 上的 Apache Spark，您可以從 AWS 管理主控台、AWS CLI 或 Amazon EMR API，輕鬆快速地建立受管的 Apache Spark 叢集。不僅如此，您也可以利用其他的 Amazon EMR 功能，包括使用 Amazon EMR 檔案系統 (EMRFS) 快速連接 Amazon S3、與 Amazon EC2 競價市場整合，以及調整命令大小以輕鬆在叢集中新增或移除執行個體。您還可以使用 Apache Zeppelin，針對使用 Apache Spark 的資料探索來建立互動和協作式的筆記本。

開始在 Amazon EMR 上使用 Apache Spark

建立免費帳戶

需要協助嗎？詢問我們！

AWS 大數據部落格上的 Apache Spark

Spark 能夠為精準醫學的資料提供技術支援嗎？

使用 Apache Spark 分析 Amazon DynamoDB 上的資料

優化 Spark-Streaming 以有效率地處理 Amazon Kinesis Streams

透過 spark-submit 提交使用者應用程式

使用 SQL 與 Spark Streaming 直接查詢 Amazon Kinesis Streams

使用 S3 支援的筆記型電腦搭配 Amazon EMR 上的 Spark 執行外部 Zeppelin 執行個體

特色與優點

效能飛快

透過使用 Directed Acyclic Graph (DAG) 執行引擎，Apache Spark 即可為資料轉換建立有效的查詢計劃。Apache Spark 也將輸入、輸出和中繼資料存放在記憶體內做為恢復分散式資料集 (RDD)，可供快速處理，不但無需 I/O 成本，也大幅提升重複性或互動式工作負載的效能。

快速開發應用程式

Apache Spark 原本就支援 Java、Scala 和 Python，為您提供各種不同的語言來建置應用程式。另外，您可以使用 Spark SQL 模組提交 SQL 或 HiveQL 查詢到 Apache Spark。除了執行應用程式之外，您可以使用 Apache Spark API，直接在叢集的 Apache Spark 殼層中與 Python 或 Scala 互動。您也可以使用 Zeppelin 針對資料探索和視覺化建立互動和協作式的筆記本。

建立各種工作流程

Apache Spark 包含數個程式庫，協助建置適用於機器學習 (MLlib)、串流處理 (Spark Streaming) 和圖形處理 (GraphX) 的應用程式。這些現成的程式庫在 Apache Spark 生態系統中緊密整合，可用來解決各種使用案例。

與 Amazon EMR 功能集整合

使用 Amazon EMR Step API 提交 Apache Spark 任務、使用 Apache Spark 搭配 EMRFS 直接存取 Amazon S3 中的資料、使用 Amazon EC2 競價型容量節省成本，以及啟動長時間執行或暫時性叢集以因應您的工作負載。Amazon EMR 在 Hadoop YARN 上安裝並管理 Apache Spark，您也可以在叢集上新增其他 Hadoop 生態系統應用程式。按一下此處了解有關 Amazon EMR 功能的詳細資訊。

客戶成功案例

Yelp

Yelp 廣告定位團隊制訂一個預測模式來判斷使用者與廣告互動的可能性。Yelp 利用在 Amazon EMR 上使用 Apache Spark 處理大量資料以訓練機器學習模型，提高了收益和廣告點擊率。

The Washington Post

華盛頓郵報 (The Washington Post) 在 Amazon EMR 上使用 Apache Spark 建置支援網站推薦引擎的模型，以促進讀者互動和提升滿意度。他們利用 Amazon EMR 與 Amazon S3 的效能連線，以近乎即時的速度更新模型。

Intent Media

Intent Media 營運一個平台來廣告旅遊商業網站。資料團隊在 Amazon EMR 上使用 Apache Spark 和 MLlib，每天導入數 TB 的電子商務資料，並使用這些資料為他們的決策服務提供技術支援，以優化客戶收益。按一下此處可進一步了解。

Krux

作為針對客戶深入剖析的資料管理平台的一部分，Krux 使用 Apache Spark 來執行許多機器學習和一般處理工作負載。Krux 利用暫時性 Amazon EMR 叢集搭配 Amazon EC2 競價型容量來節省成本，並使用 Amazon S3 搭配 EMRFS 作為 Apache Spark 的資料層。

閱讀其他資訊 >>