Verwenden Sie Apache Spark auf Amazon EMR Serverless direkt in Amazon Sagemaker Studio

Veröffentlicht am: 4. Sept. 2024

Sie können jetzt Datenanalytik und Machine Learning im Petabyte-Bereich auf Amazon EMR Serverless direkt von Amazon SageMaker Studio Notebooks aus ausführen. EMR Serverless stellt automatisch die erforderlichen Ressourcen bereit und skaliert sie, sodass Sie sich auf Ihre Daten und Modelle konzentrieren können, ohne Cluster konfigurieren, optimieren oder verwalten zu müssen. EMR Serverless installiert und konfiguriert automatisch Open-Source-Frameworks und bietet eine leistungsoptimierte Laufzeit, die mit Open-Source-Standards kompatibel und schneller als diese ist.

Mit dieser Version können Sie EMR-Serverless-Anwendungen jetzt direkt in SageMaker Studio visuell erstellen und durchsuchen und mit wenigen Klicks eine Verbindung zu ihnen herstellen. Sobald die EMR-Serverless-Anwendung verbunden ist, können Sie Spark SQL, Scala und Python verwenden, um Daten interaktiv abzufragen, zu untersuchen und zu visualisieren und Apache Spark-Jobs auszuführen, um Daten direkt aus Studio Notebooks zu verarbeiten. Aufträge werden schnell ausgeführt, weil sie die EMR-leistungsoptimierten Versionen von Spark verwenden. Zum Beispiel ist Spark auf EMR 7.1 4,5-mal schneller als sein Open-Source-Äquivalent. EMR Serverless bietet fein abgestuftes Auto Scaling, das die Rechen- und Speicherressourcen entsprechend den Anforderungen Ihrer Anwendung bereitstellt und schnell skaliert.

Diese Features werden von SageMaker Distribution 1.10 und höher unterstützt und sind generell in allen AWS-Regionen verfügbar, in denen SageMaker Studio verfügbar ist. Um mehr zu erfahren, lesen Sie den Blog Use LangChain with PySpark for Processing documents at massive scale with Amazon SageMaker Studio and EMR Serverless, oder die SageMaker-Studio-Dokumentation hier.

Verwenden Sie Apache Spark auf Amazon EMR Serverless direkt in Amazon Sagemaker Studio

Lernen

Ressourcen

Entwickler

Hilfe