Apache Spark 是常用於大數據工作負載的開放原始碼、分散式處理系統。Apache Spark 利用記憶體內快取和優化執行以獲得快速效能,且支援一般批次處理、串流分析、機器學習、圖形資料庫及臨機操作查詢。

Amazon EMR 原本就支援 Hadoop YARN 上的 Apache Spark,您可以從 AWS 管理主控台、AWS CLI 或 Amazon EMR API,輕鬆快速地建立受管的 Apache Spark 叢集。不僅如此,您也可以利用其他的 Amazon EMR 功能,包括使用 Amazon EMR 檔案系統 (EMRFS) 快速連接 Amazon S3、與 Amazon EC2 競價市場整合,以及調整命令大小以輕鬆在叢集中新增或移除執行個體。您還可以使用 Apache Zeppelin,針對使用 Apache Spark 的資料探索來建立互動和協作式的筆記本。

透過使用 Directed Acyclic Graph (DAG) 執行引擎,Apache Spark 即可為資料轉換建立有效的查詢計劃。Apache Spark 也將輸入、輸出和中繼資料存放在記憶體內做為恢復分散式資料集 (RDD),可供快速處理,不但無需 I/O 成本,也大幅提升重複性或互動式工作負載的效能。

Apache Spark 原本就支援 Java、Scala 和 Python,為您提供各種不同的語言來建置應用程式。另外,您可以使用 Spark SQL 模組提交 SQL 或 HiveQL 查詢到 Apache Spark。除了執行應用程式之外,您可以使用 Apache Spark API,直接在叢集的 Apache Spark 殼層中與 Python 或 Scala 互動。您也可以使用 Zeppelin 針對資料探索和視覺化建立互動和協作式的筆記本。

Apache Spark 包含數個程式庫,協助建置適用於機器學習 (MLlib)、串流處理 (Spark Streaming) 和圖形處理 (GraphX) 的應用程式。這些現成的程式庫在 Apache Spark 生態系統中緊密整合,可用來解決各種使用案例。

使用 Amazon EMR Step API 提交 Apache Spark 任務、使用 Apache Spark 搭配 EMRFS 直接存取 Amazon S3 中的資料、使用 Amazon EC2 競價型容量節省成本,以及啟動長時間執行或暫時性叢集以因應您的工作負載。Amazon EMR 在 Hadoop YARN 上安裝並管理 Apache Spark,您也可以在叢集上新增其他 Hadoop 生態系統應用程式。按一下此處了解有關 Amazon EMR 功能的詳細資訊。


Yelp

Yelp 廣告定位團隊制訂一個預測模式來判斷使用者與廣告互動的可能性。Yelp 利用在 Amazon EMR 上使用 Apache Spark 處理大量資料以訓練機器學習模型,提高了收益和廣告點擊率。

The Washington Post

華盛頓郵報 (The Washington Post) 在 Amazon EMR 上使用 Apache Spark 建置支援網站推薦引擎的模型,以促進讀者互動和提升滿意度。他們利用 Amazon EMR 與 Amazon S3 的效能連線,以近乎即時的速度更新模型。

Intent Media

Intent Media 營運一個平台來廣告旅遊商業網站。資料團隊在 Amazon EMR 上使用 Apache Spark 和 MLlib,每天導入數 TB 的電子商務資料,並使用這些資料為他們的決策服務提供技術支援,以優化客戶收益。按一下此處可進一步了解。

Krux

作為針對客戶深入剖析的資料管理平台的一部分,Krux 使用 Apache Spark 來執行許多機器學習和一般處理工作負載。Krux 利用暫時性 Amazon EMR 叢集搭配 Amazon EC2 競價型容量來節省成本,並使用 Amazon S3 搭配 EMRFS 作為 Apache Spark 的資料層。

閱讀其他資訊 >>

GumGum

GumGum 是一個圖像內置和螢幕內置廣告平台,在 Amazon EMR 上使用 Spark 進行庫存預測、處理點擊流記錄及臨機操作分析 Amazon S3 中的未結構化資料。Spark 的效能增強節省了 GumGum 在這些工作流程上的時間和金錢。

閱讀其他資訊 >>

Hearst Corporation

Hearst Corporation 是大型的多元化媒體和資訊公司,擁有超過 200 個 Web 內容上客戶檢視的內容。Hearst 的編輯人員在 Amazon EMR 上使用 Apache Spark Streaming,可掌握高點閱率文章和引領趨勢主題的即時脈動。

CrowdStrike

CrowdStrike 提供終端節點保護以阻止違規。他們使用 Amazon EMR 搭配 Spark 來處理數百 TB 的事件資料,將它們彙整成主機上更高層級的行為描述。CrowdStrike 可從該資料有效的利用事件資料,並識別是否存在惡意活動。

閱讀其他資訊 >>


在 Amazon EMR 上使用 Spark Streaming,取用和處理來自 Amazon Kinesis、Apache Kafka 或其他資料串流的即時資料。以容錯方式執行串流分析,並將結果寫入 Amazon S3 或叢集上的 HDFS。

 

Amazon EMR 上的 Apache Spark 包含用於各種可擴展機器學習演算法的 MLlib,或者您可以使用自己的程式庫。透過在任務期間將資料集存放在記憶體內,Spark 對於機器學習工作負載中常見的重複性查詢具有絕佳的效能。

使用 Spark SQL 搭配 SQL 或 HiveQL,提供低延遲、互動式查詢。Amazon EMR 上的 Apache Spark 可利用 EMRFS,所以您可以臨機操作存取 Amazon S3 中的資料集。您也可以透過 ODBC 和 JDBC,利用 Zeppelin 筆記本或 BI 工具。