Apache Spark ist ein verteiltes Open-Source-Verarbeitungssystem, das häufig für große Datenmengen verwendet wird. Apache Spark nutzt In-Memory-Cache-Speicherung und eine optimierte Ausführung für hohe Performance und unterstützt allgemeine Batch-Verarbeitung, Streaming-Analysen, maschinelles Lernen, Graph-Datenbanken und Ad-hoc-Abfragen. 

Apache Spark für Hadoop YARN wird in Amazon EMR nativ unterstützt und Sie können verwaltete Apache Spark-Cluster schnell und problemlos über die AWS Management Console, AWS CLI oder die Amazon EMR-API erstellen. Außerdem können Sie zusätzliche Amazon EMR-Funktionen nutzen, einschließlich schneller Amazon S3-Konnektivität mithilfe des Amazon EMR File System (EMRFS), Integration mit dem Amazon EC2 Spot-Markt und Größenänderungsbefehlen, um Instances problemlos zu Ihrem Cluster hinzuzufügen bzw. von diesem zu entfernen. Des Weiteren können Sie Apache Zeppelin zum Erstellen interaktiver und kollaborativer Notebooks für die Datenexploration mit Apache Spark nutzen.

Durch die Verwendung einer DAG-Ausführungs-Engine (gerichteter, azyklischer Graph) können mit Apache Spark effiziente Abfragepläne für Datentransformationen erstellt werden. Apache Spark speichert außerdem Eingabe-, Ausgabe- und Zwischendaten im Arbeitsspeicher als RDDs (Resilient Distributed Dataset), wodurch eine schnelle Verarbeitung ohne E/A-Kosten möglich wird, durch die die Performance iterativer oder interaktiver Workloads gesteigert werden kann.

Apache Spark unterstützt nativ Java, Scala und Python, sodass Ihnen eine Reihe von Sprachen zur Verfügung stehen, um Ihre Anwendungen zu erstellen. Außerdem können Sie mit dem Spark SQL-Modul SQL- oder HiveQL-Abfragen an Apache Spark senden. Zusätzlich zum Ausführen von Anwendungen können Sie die Apache Spark-API interaktiv mit Python oder Scala direkt in der Apache Spark-Shell in Ihrem Cluster verwenden. Des Weiteren können Sie Zeppelin zum Erstellen interaktiver und kollaborativer Notebooks für die Datenexploration und -visualisierung verwenden.

Apache Spark umfasst mehrere Bibliotheken, die Sie beim Erstellen von Anwendungen für maschinelles Lernen (MLlib), Stream-Verarbeitung (Spark Streaming) und Graph-Verarbeitung (GraphX) unterstützen. Diese Bibliotheken sind umfassend in das Apache Spark-System integriert und können sofort für eine Vielzahl von Anwendungsfällen genutzt werden.

Übermitteln Sie Apache Spark-Jobs mit der Amazon EMR Step-API, verwenden Sie Apache Spark mit EMRFS, um direkt auf Daten in Amazon S3 zuzugreifen, sparen Sie Kosten durch die Verwendung von Amazon EC2 Spot Capacity und nutzen Sie langlebige bzw. kurzlebige Cluster entsprechend Ihrem Workload. Amazon EMR installiert und verwaltet Apache Spark für Hadoop YARN; und Sie können zusätzlich andere Hadoop-Systemanwendungen zu Ihrem Cluster hinzufügen. Klicken Sie hier, um weitere Informationen zu den Funktionen von Amazon EMR zu erhalten.


Yelp

Das Team für gezielte Werbung von Yelp erstellt Prognosemodelle, um die Wahrscheinlichkeit zu ermitteln, mit der ein Benutzer auf eine Werbung reagiert. Durch die Verwendung von Apache Spark zusammen mit Amazon EMR zum Verarbeiten großer Datenmengen, um Modelle für maschinelles Lernen zu trainieren, konnte Yelp den Umsatz steigern und die Klickraten bei Anzeigen verbessern.

Washington Post

Die Washington Post verwendet Apache Spark zusammen mit Amazon EMR, um Modelle zu erstellen, die die Empfehlungs-Engine der Website unterstützen, um die Verbundenheit und Zufriedenheit der Leser zu verbessern. Die Zeitung verwendet die performante Konnektivität von Amazon EMR mit Amazon S3 zum Aktualisieren von Modellen nahezu in Echtzeit.

Intent Media

Intent Media betreibt eine Plattform für Werbung auf Reise-Websites. Das Datenteam verwendet Apache Spark und MLlib zusammen mit Amazon EMR, um täglich Terabytes an E-Commerce-Daten zu verarbeiten und diese Informationen für ihre Entscheidungsservices zur Optimierung des Kundenumsatzes zu nutzen. Klicken Sie hier, um weitere Informationen anzuzeigen.

Krux

Krux verwendet Apache Spark als Teil der eigenen Datenverwaltungsplattform für Kundeneinblicke, um zahlreiche Workloads für maschinelles Lernen und allgemeine Verarbeitung auszuführen. Krux verwendet kurzlebige Amazon EMR-Cluster mit Amazon EC2 Spot Capacity, um Kosten zu sparen, und verwendet Amazon S3 mit EMRFS als Datenlayer für Apache Spark.

Weitere Informationen >>

GumGum

GumGum, eine Plattform für bild- und bildschirmintegrierte Werbung, verwendet Spark zusammen mit Amazon EMR zur Prognose des Inventars, der Verarbeitung von Click-Stream-Protokollen und der Ad-hoc-Analyse unstrukturierter Daten in Amazon S3. Die Performance-Verbesserungen durch Spark ermöglichten es GumGum, bei diesen Workflows Zeit und Geld zu sparen.

Weitere Informationen >>

Hearst Corporation

Hearst Corporation, ein großes, breit aufgestelltes Medien- und Informationsunternehmen, hat Kunden, die Inhalte auf über 200 Internetpräsenzen ansehen. Mithilfe von Apache Spark Streaming zusammen mit Amazon EMR kann das Redaktionsteam von Hearst in Echtzeit verfolgen, welche Artikel gut ankommen und welche Themen im Trend liegen.

CrowdStrike

CrowdStrike bietet Schutz für Endgeräte, um Übergriffe zu vermeiden. Das Unternehmen verwendet Amazon EMR zusammen mit Spark, um mehrere Hundert Terabytes an Ereignisdaten zu verarbeiten und diese in Verhaltensbeschreibungen auf höherer Ebene auf den Hosts bereitzustellen. Anhand dieser Daten kann CrowdStrike Ereignisdaten zusammenfassen und bösartige Aktivitäten ermitteln.

Weitere Informationen >>


Verwenden und verarbeiten Sie Echtzeitdaten von Amazon Kinesis, Apache Kafka oder anderen Daten-Streams mit Spark Streaming für Amazon EMR. Führen Sie fehlertolerante Streaming-Analysen durch und schreiben Sie die Ergebnisse in Amazon S3 oder HDFS im Cluster.

 

Apache Spark für Amazon EMR umfasst MLlib für zahlreiche skalierbare Algorithmen für maschinelles Lernen. Alternativ können Sie Ihre eigenen Bibliotheken verwenden. Spark bietet durch die Speicherung von Datensätzen im Arbeitsspeicher während eines Jobs eine hohe Performance bei iterativen Abfragen, die bei Workloads für maschinelles Lernen häufig vorkommen.

Verwenden Sie Spark SQL für interaktive Abfragen mit niedriger Latenz mit SQL oder HiveQL. Apache Spark für Amazon EMR kann EMRFS nutzen, sodass Sie Ad-hoc-Zugriff auf Ihre Datensätze in Amazon S3 erhalten. Außerdem können Sie Zeppelin-Notebooks oder BI-Tools über ODBC- und JDBC-Verbindungen nutzen.