Veröffentlicht am: Oct 1, 2021
Sie können jetzt Open-Source-Frameworks wie Apache Spark, Apache Hive und Presto, die auf Amazon-EMR-Clustern ausgeführt werden, direkt von Amazon-SageMaker-Studio-Notebooks aus verwenden, um Datenanalytik und Machine Learning im Petabyte-Bereich durchzuführen. Amazon EMR installiert und konfiguriert automatisch Open-Source-Frameworks und bietet eine leistungsoptimierte Laufzeit, die mit Open-Source-Standards kompatibel und schneller als diese ist. Zum Beispiel ist Spark 3.0 auf Amazon EMR 1,7x schneller als sein Open-Source-Äquivalent. Amazon SageMaker Studio bietet eine einzige webbasierte visuelle Oberfläche, über die Sie alle ML-Entwicklungsschritte ausführen können, die zum Vorbereiten von Daten sowie zum Erstellen, Trainieren und Bereitstellen von Modellen erforderlich sind. Die Analyse, Umwandlung und Aufbereitung großer Datenmengen ist ein grundlegender Schritt in jedem Datenwissenschafts- und ML-Workflow. Mit dieser Version können beliebte Frameworks wie Apache Spark, Hive und Presto, die auf EMR-Clustern laufen, direkt von Sagemaker Studio aus verwendet werden, um Datenwissenschafts- und ML-Workflows zu vereinfachen.
Mit dieser Version können Sie nun eine Liste von EMR-Clustern direkt von SageMaker Studio aus visuell durchsuchen und mit wenigen Mausklicks eine Verbindung zu ihnen herstellen. Sobald Sie mit einem EMR-Cluster verbunden sind, können Sie Spark SQL, Scala, Python und HiveQL verwenden, um Daten interaktiv abzufragen, zu untersuchen und zu visualisieren, und Apache-Spark-, Hive- und Presto-Aufträge zur Datenverarbeitung ausführen. Die Aufträge laufen schnell, weil sie die EMR-leistungsoptimierten Versionen von Spark, Hive und Presto verwenden. Darüber hinaus können Cluster je nach Workload automatisch nach oben oder unten skaliert und mit Spot-Instances und Graviton2-basierten Prozessoren integriert werden, um die Kosten zu senken. Schließlich können sich Sagemaker-Studio-Benutzer authentifizieren, wenn sie eine Verbindung zu Amazon-EMR-Clustern mit LDAP-basierten Anmeldeinformationen oder Kerberos herstellen.
Diese Funktionen werden von EMR 5.9.0 und höher unterstützt und sind generell in allen AWS-Regionen verfügbar, in denen SageMaker Studio verfügbar ist. Um mehr zu erfahren, sehen Sie sich die Demo Interactive data processing on Amazon EMR from Amazon SageMaker an, lesen Sie den Blog Perform interactive data engineering and data science workflows from Amazon SageMaker Studio notebooks oder die SageMaker-Studio-Dokumentation hier.