Amazon EMR
Einfache Ausführung und Skalierung von Apache Spark, Trino und anderen Big-Data-Workloads
Warum Amazon EMR?
Amazon EMR ist ein Service zur Verarbeitung von Big Data, der Analytik-Workloads mit unübertroffener Flexibilität und Skalierbarkeit beschleunigt. EMR bietet leistungsoptimierte Laufzeiten für Apache Spark, Trino, Apache Flink und Apache Hive, wodurch Kosten und Verarbeitungszeiten drastisch reduziert werden. Der Service lässt sich nahtlos in AWS integrieren und vereinfacht so Data-Lake-Workflows und Architekturen auf Unternehmensebene. Mit integrierter automatischer Skalierung, intelligenter Überwachung und verwalteter Infrastruktur können Sie sich mit EMR darauf konzentrieren, Erkenntnisse zu extrahieren, anstatt Cluster zu verwalten. So erhalten Sie effizient Analytik im Petabyte-Bereich, ohne den Betriebsaufwand herkömmlicher Lösungen.

Flexible Bereitstellungsoptionen
Warum EMR Serverless?
Mit Amazon EMR Serverless ist es für Datenanalysten und Entwicklern einfach, Open-Source-Frameworks wie Apache Spark für Big-Data-Analytik auszuführen, ohne Cluster oder Server konfigurieren, verwalten und skalieren zu müssen. EMR Serverless ist der schnellste Weg, die ersten Schritte mit allen Features und Vorteilen von Amazon EMR zu gehen, ohne dass Experten für die Planung und Verwaltung von Clustern erforderlich sind.
Warum Amazon EMR in Amazon EC2?
Amazon EMR in Amazon EC2 bietet die Kontrolle über die Cluster-Konfiguration und unterstützt Cluster mit langer Laufzeit, sodass es sich perfekt für kontinuierliche Datenverarbeitungsaufgaben eignet, für die bestimmte Hardwaresetups erforderlich sind. Sie können benutzerdefinierte Anwendungen zusammen mit beliebten Frameworks wie Apache Spark und Trino installieren und gleichzeitig eine breite Palette von EC2-Instance-Typen anbieten, um sowohl Kosten als auch Leistung zu optimieren. Die Integration mit anderen AWS-Services und die Möglichkeit, Spot Instances zu verwenden, machen es zu einer kostengünstigen Lösung für Unternehmen, die eine detaillierte Kontrolle über ihre Big-Data-Operationen benötigen.
Warum Amazon EMR in Amazon EKS?
Amazon EMR in Amazon Elastic Kubernetes Service (EKS) ermöglicht es Ihnen, Apache Spark-Jobs bei Bedarf über EKS zu übermitteln, ohne dass Cluster bereitgestellt werden müssen. Mit EMR in EKS können Sie Ihre analytische Workloads auf denselben Amazon EKS-Clustern wie Ihre anderen Kubernetes-basierten Anwendungen ausführen, um die Ressourcennutzung zu verbessern und die Infrastrukturverwaltung zu vereinfachen.
Verarbeiten Sie Ihre Daten mit Amazon EMR in der nächsten Generation von Amazon SageMaker
Amazon EMR ist in der nächsten Generation von Amazon SageMaker verfügbar, sodass Sie Apache Spark, Trino und andere Open-Source-Analytik-Frameworks mühelos in einer einheitlichen Daten- und KI-Entwicklungsumgebung ausführen können.

Vorteile
Kosteneffiziente Big-Data-Verarbeitung
Amazon EMR kombiniert leistungsoptimiertes Apache Spark für eine schnellere, kosteneffiziente Verarbeitung mit der Flexibilität bei der Auswahl von Instance-Typen, einschließlich Spot Instances, und vollständig verwaltetem automatischem Auto Scaling, die den Cluster dynamisch an die richtige Größe anpasst, wodurch eine Überbereitstellung vermieden und die Gesamtausgaben reduziert werden.
Schnellere Gewinnung von Erkenntnissen und Leistungsoptimierung
Amazon EMR bietet im Vergleich zu Open-Source-Apache-Spark eine bis zu 3,9-mal bessere Leistung und behält gleichzeitig die API-Kompatibilität bei. Es ermöglicht Kunden, Open-Source-Frameworks ihrer Wahl einzusetzen – Apache Spark, Trino, Apache Flink oder Apache Hive. EMR unterstützt beliebte Open-Table-Formate wie Iceberg, Hudi und Delta, um schneller Erkenntnisse zu gewinnen.
Beispiellose Flexibilität bei der Bereitstellung
EMR bietet verschiedene Bereitstellungmöglichkeiten, darunter EMR Serverless für vollständig verwaltete, infrastrukturfreie Verarbeitung, EMR in EC2 für eine feinkörnige Clustersteuerung und EMR on EKS für native Big-Data-Workloads von Kubernetes. Ganz gleich, ob Sie kurzfristige Cluster für On-Demand-Jobs oder Cluster mit langer Laufzeit für persistente Aufgaben ausführen, EMR passt sich Ihren betrieblichen Anforderungen an und optimiert gleichzeitig die Kosten durch flexible Ressourcenzuweisung und effiziente Skalierung.
Datenverarbeitung in Amazon SageMaker optimieren
Amazon EMR in der nächsten Generation von Amazon SageMaker ermöglicht es Ihnen, Open-Source-Frameworks wie Apache Spark, Trino und Apache Flink auszuführen, sodass Sie Analytik-Workloads mühelos skalieren können – und das alles ohne Bereitstellung oder Verwaltung der Infrastruktur. Mit den EMR-Funktionen in Amazon SageMaker können Sie Datenverarbeitung und Modellentwicklung vereinheitlichen und so durchgängige Workflows von der Rohdatentransformation bis zur KI-Bereitstellung in einer einzigen kollaborativen Umgebung ermöglichen.