Apache Spark ist ein verteiltes Open-Source-Verarbeitungssystem, das häufig für große Datenmengen verwendet wird. Apache Spark nutzt In-Memory-Cache-Speicherung und eine optimierte Ausführung für hohe Performance und unterstützt allgemeine Batch-Verarbeitung, Streaming-Analysen, maschinelles Lernen, Graph-Datenbanken und Ad-hoc-Abfragen. 

Apache Spark für Hadoop YARN wird in Amazon EMR nativ unterstützt und Sie können verwaltete Apache Spark-Cluster schnell und problemlos über die AWS Management Console, AWS CLI oder die Amazon EMR-API erstellen. Außerdem können Sie zusätzliche Amazon EMR-Funktionen nutzen, wie etwa eine schnelle Amazon S3-Konnektivität mittels Amazon EMR File System (EMRFS), die Integration in den Amazon EC2 Spot-Markt und den AWS Glue-Datenkatalog sowie Auto Scaling, um Ihrem Cluster auf einfache Weise Instances hinzuzufügen bzw. sie daraus zu entfernen. Sie können Apache Zeppelin außerdem zum Erstellen interaktiver und kooperativer Notizbücher zur Datenexploration mit Apache Spark einsetzen oder Deep-Learning-Frameworks wie Apache MXNet zusammen mit Ihren Spark-Anwendungen verwenden.

Spark-logo-192x100px
S3_Sketch_Available

Durch die Verwendung einer DAG-Ausführungs-Engine (gerichteter, azyklischer Graph) können mit Apache Spark effiziente Abfragepläne für Datentransformationen erstellt werden. Apache Spark speichert außerdem Eingabe-, Ausgabe- und Zwischendaten im Arbeitsspeicher als RDDs (Resilient Distributed Dataset), wodurch eine schnelle Verarbeitung ohne E/A-Kosten möglich wird, durch die die Performance iterativer oder interaktiver Workloads gesteigert werden kann.

S3_Sketch_HighPerformance

Apache Spark unterstützt nativ Java, Scala und Python, sodass Ihnen eine Reihe von Sprachen zur Verfügung stehen, um Ihre Anwendungen zu erstellen. Außerdem können Sie mit dem Spark SQL-Modul SQL- oder HiveQL-Abfragen an Apache Spark senden. Zusätzlich zum Ausführen von Anwendungen können Sie die Apache Spark-API interaktiv mit Python oder Scala direkt in der Apache Spark-Shell in Ihrem Cluster verwenden. Des Weiteren können Sie Zeppelin zum Erstellen interaktiver und kollaborativer Notebooks für die Datenexploration und -visualisierung verwenden. Außerdem können Sie Ihre Verarbeitungslasten mithilfe des Spark-Anwendungsverlaufs in der Amazon EMR-Konsole oder der nativen Spark-UI und des Verlaufsservers auf Ihrem Cluster optimieren und debuggen.

S3_Sketch_Simple

Apache Spark umfasst mehrere Bibliotheken, die Sie beim Erstellen von Anwendungen für maschinelles Lernen (MLlib), Stream-Verarbeitung (Spark Streaming) und Graph-Verarbeitung (GraphX) unterstützen. Diese Bibliotheken sind umfassend in das Apache Spark-System integriert und können sofort für eine Vielzahl von Anwendungsfällen genutzt werden. Zudem können Sie Deep-Learning-Frameworks wie Apache MXNet mit Ihren Sparks-Anwendungen verwenden.

Benefit_Workflow_Green

Übermitteln Sie Apache Spark-Aufträge mit der Amazon EMR Step-API, verwenden Sie Apache Spark mit EMRFS, um direkt auf Daten in Amazon S3 zuzugreifen, sparen Sie Kosten durch die Verwendung von Amazon EC2 Spot-Kapazität, fügen Sie mit Auto Scalingdynamisch Kapazität hinzu und entfernen Sie sie wieder, und nutzen Sie je nach Verarbeitungslast lang- oder kurzlebige Cluster. Die Spark-Verschlüsselung und Kerberos-Authentifizierung können Sie außerdem problemlos mithilfe einer Amazon EMR-Sicherheitskonfiguration konfigurieren. Außerdem können Sie den AWS Glue-Datenkatalog verwenden, um Spark SQL-Tabellenmetadaten zu speichern. Amazon EMR installiert und verwaltet Apache Spark für Hadoop YARN; und Sie können zusätzlich andere Hadoop-Systemanwendungen zu Ihrem Cluster hinzufügen. Klicken Sie hier, um weitere Informationen zu den Funktionen von Amazon EMR zu erhalten.


Yelp

Das Team für gezielte Werbung von Yelp erstellt Prognosemodelle, um die Wahrscheinlichkeit zu ermitteln, mit der ein Benutzer auf eine Werbung reagiert. Durch die Verwendung von Apache Spark zusammen mit Amazon EMR zum Verarbeiten großer Datenmengen, um Modelle für maschinelles Lernen zu trainieren, konnte Yelp den Umsatz steigern und die Klickraten bei Anzeigen verbessern.

Washington Post

Die Washington Post verwendet Apache Spark zusammen mit Amazon EMR, um Modelle zu erstellen, die die Empfehlungs-Engine der Website unterstützen, um die Verbundenheit und Zufriedenheit der Leser zu verbessern. Die Zeitung verwendet die performante Konnektivität von Amazon EMR mit Amazon S3 zum Aktualisieren von Modellen nahezu in Echtzeit.

Intent Media

Intent Media betreibt eine Plattform für Werbung auf Reise-Websites. Das Datenteam verwendet Apache Spark und MLlib zusammen mit Amazon EMR, um täglich Terabytes an E-Commerce-Daten zu verarbeiten und diese Informationen für ihre Entscheidungsservices zur Optimierung des Kundenumsatzes zu nutzen. Klicken Sie hier, um weitere Informationen anzuzeigen.

Krux

Krux verwendet Apache Spark als Teil der eigenen Datenverwaltungsplattform für Kundeneinblicke, um zahlreiche Workloads für maschinelles Lernen und allgemeine Verarbeitung auszuführen. Krux verwendet kurzlebige Amazon EMR-Cluster mit Amazon EC2 Spot Capacity, um Kosten zu sparen, und verwendet Amazon S3 mit EMRFS als Datenlayer für Apache Spark.

Weitere Informationen »

GumGum

GumGum, eine Plattform für bild- und bildschirmintegrierte Werbung, verwendet Spark zusammen mit Amazon EMR zur Prognose des Inventars, der Verarbeitung von Click-Stream-Protokollen und der Ad-hoc-Analyse unstrukturierter Daten in Amazon S3. Die Performance-Verbesserungen durch Spark ermöglichten es GumGum, bei diesen Workflows Zeit und Geld zu sparen.
 

Weitere Informationen »

Hearst Corporation

Hearst Corporation, ein großes, breit aufgestelltes Medien- und Informationsunternehmen, hat Kunden, die Inhalte auf über 200 Internetpräsenzen ansehen. Mithilfe von Apache Spark Streaming zusammen mit Amazon EMR kann das Redaktionsteam von Hearst in Echtzeit verfolgen, welche Artikel gut ankommen und welche Themen im Trend liegen.
 

Weitere Informationen »

CrowdStrike

CrowdStrike bietet Schutz für Endgeräte, um Übergriffe zu vermeiden. Das Unternehmen verwendet Amazon EMR zusammen mit Spark, um mehrere Hundert Terabytes an Ereignisdaten zu verarbeiten und diese in Verhaltensbeschreibungen auf höherer Ebene auf den Hosts bereitzustellen. Anhand dieser Daten kann CrowdStrike Ereignisdaten zusammenfassen und bösartige Aktivitäten ermitteln.
 

Weitere Informationen »


Verwenden und verarbeiten Sie Echtzeitdaten von Amazon Kinesis, Apache Kafka oder anderen Daten-Streams mit Spark Streaming für Amazon EMR. Führen Sie fehlertolerante Streaming-Analysen durch und schreiben Sie die Ergebnisse in Amazon S3 oder HDFS im Cluster.

 

Apache Spark für Amazon EMR umfasst MLlib für zahlreiche skalierbare Algorithmen für maschinelles Lernen. Alternativ können Sie Ihre eigenen Bibliotheken verwenden. Spark bietet durch die Speicherung von Datensätzen im Arbeitsspeicher während eines Jobs eine hohe Performance bei iterativen Abfragen, die bei Workloads für maschinelles Lernen häufig vorkommen.

 

 

Verwenden Sie Spark SQL für interaktive Abfragen mit niedriger Latenz mit SQL oder HiveQL. Apache Spark für Amazon EMR kann EMRFS nutzen, sodass Sie Ad-hoc-Zugriff auf Ihre Datensätze in Amazon S3 erhalten. Außerdem können Sie Zeppelin-Notebooks oder BI-Tools über ODBC- und JDBC-Verbindungen nutzen.