Apache Spark 是常用於大數據工作負載的開放原始碼、分散式處理系統。Apache Spark 利用記憶體內快取和優化執行以獲得快速效能,且支援一般批次處理、串流分析、機器學習、圖形資料庫及臨機操作查詢。

Amazon EMR 原本就支援 Hadoop YARN 上的 Apache Spark,您可以從 AWS 管理主控台、AWS CLI 或 Amazon EMR API,輕鬆快速地建立受管的 Apache Spark 叢集。不僅如此,您也可以利用其他的 Amazon EMR 功能,包括使用 Amazon EMR 檔案系統 (EMRFS) 快速連接 Amazon S3、與 Amazon EC2 競價市場和 AWS Glue 資料型錄整合,以及使用 Auto Scaling 在叢集新增或移除執行個體。同時,可以透過 Apache Zeppelin 使用 Apache Spark 建立資料探索的互動和協作筆記本,然後使用 Apache MXNet 等深度學習架構搭配 Spark 應用程式。

Spark-logo-192x100px
S3_Sketch_Available

透過使用 Directed Acyclic Graph (DAG) 執行引擎,Apache Spark 即可為資料轉換建立有效的查詢計劃。Apache Spark 也將輸入、輸出和中繼資料存放在記憶體內做為恢復分散式資料集 (RDD),可供快速處理,不但無須 I/O 成本,也大幅提升重複性或互動式工作負載的效能。

S3_Sketch_HighPerformance

Apache Spark 原本就支援 Java、Scala 和 Python,為您提供各種不同的語言來建置應用程式。另外,您可以使用 Spark SQL 模組提交 SQL 或 HiveQL 查詢到 Apache Spark。除了執行應用程式之外,您可以使用 Apache Spark API,直接在叢集的 Apache Spark 殼層中與 Python 或 Scala 互動。您也可以使用 Zeppelin 針對資料探索和視覺化建立互動和協作式的筆記本。此外,您可以使用 Amazon EMR 主控台中的 Spark 應用程式歷史記錄或叢集上的原生 Spark UI 和歷史記錄伺服器調整和偵錯工作負載。

S3_Sketch_Simple

Apache Spark 包含數個程式庫,協助建置適用於機器學習 (MLlib)、串流處理 (Spark Streaming) 和圖形處理 (GraphX) 的應用程式。這些現成的程式庫在 Apache Spark 生態系統中緊密整合,可用來解決各種使用案例。此外,您可以使用 Apache MXNet 等深度學習架構搭配 Spark 應用程式。

Benefit_Workflow_Green

使用 Amazon EMR Step API 提交 Apache Spark 任務、使用 Apache Spark 搭配 EMRFS 直接存取 Amazon S3 中的資料、使用 Amazon EC2 競價型容量節省成本,使用 Auto Scaling 動態新增和移除容量,以及啟動長時間執行或暫時性叢集以因應您的工作負載。您也可以使用 Amazon EMR 安全組態輕鬆設定 Spark 加密和 Kerberos 身份驗證。此外,您還可以使用 AWS Glue 資料型錄存放 Spark SQL 表中繼資料。Amazon EMR 在 Hadoop YARN 上安裝並管理 Apache Spark,您也可以在叢集上新增其他 Hadoop 生態系統應用程式。按一下這裡了解有關 Amazon EMR 功能的詳細資訊。


Yelp

Yelp 廣告定位團隊制訂一個預測模式來判斷使用者與廣告互動的可能性。Yelp 利用在 Amazon EMR 上使用 Apache Spark 處理大量資料以訓練機器學習模型,提高了收益和廣告點擊率。

The Washington Post

華盛頓郵報 (The Washington Post) 在 Amazon EMR 上使用 Apache Spark 建置支援網站推薦引擎的模型,以促進讀者互動和提升滿意度。他們利用 Amazon EMR 與 Amazon S3 的效能連線,以近乎即時的速度更新模型。

Intent Media

Intent Media 營運一個平台來廣告旅遊商業網站。資料團隊在 Amazon EMR 上使用 Apache Spark 和 MLlib,每天導入數 TB 的電子商務資料,並使用這些資料為他們的決策服務提供技術支援,以優化客戶收益。按一下這裡可進一步了解。

Krux

作為針對客戶深入剖析的資料管理平台的一部分,Krux 使用 Apache Spark 來執行許多機器學習和一般處理工作負載。Krux 利用暫時性 Amazon EMR 叢集搭配 Amazon EC2 競價型容量來節省成本,並使用 Amazon S3 搭配 EMRFS 作為 Apache Spark 的資料層。

閱讀其他資訊 »

GumGum

GumGum 是一個圖像內置和螢幕內置廣告平台,在 Amazon EMR 上使用 Spark 進行庫存預測、處理點擊流記錄及臨機操作分析 Amazon S3 中的未結構化資料。Spark 的效能增強節省了 GumGum 在這些工作流程上的時間和金錢。
 

閱讀其他資訊 »

Hearst Corporation

Hearst Corporation 是大型的多元化媒體和資訊公司,擁有超過 200 個 Web 內容上客戶檢視的內容。Hearst 的編輯人員在 Amazon EMR 上使用 Apache Spark Streaming,可掌握高點閱率文章和引領趨勢主題的即時脈動。
 

閱讀其他資訊 »

CrowdStrike

CrowdStrike 提供終端節點保護以阻止違規。他們使用 Amazon EMR 搭配 Spark 來處理數百 TB 的事件資料,將它們彙整成主機上更高層級的行為描述。CrowdStrike 可從該資料有效的利用事件資料,並識別是否存在惡意活動。
 

閱讀其他資訊 »


在 Amazon EMR 上使用 Spark Streaming,取用和處理來自 Amazon KinesisApache Kafka 或其他資料串流的即時資料。以容錯方式執行串流分析,並將結果寫入 Amazon S3 或叢集上的 HDFS。

 

Amazon EMR 上的 Apache Spark 包含用於各種可擴展機器學習演算法的 MLlib,或者您可以使用自己的程式庫。透過在任務期間將資料集存放在記憶體內,Spark 對於機器學習工作負載中常見的重複性查詢具有絕佳的效能。

 

 

使用 Spark SQL 搭配 SQL 或 HiveQL,提供低延遲、互動式查詢。Amazon EMR 上的 Apache Spark 可利用 EMRFS,所以您可以臨機操作存取 Amazon S3 中的資料集。您也可以透過 ODBC 和 JDBC,利用 Zeppelin 筆記本或 BI 工具。