Veröffentlicht am: Dec 21, 2020
Amazon SageMaker Studio ist die erste integrierte Entwicklungsumgebung (Integrated Development Environment, IDE) für Machine Learning. Mit einem einzigen Klick können Datenwissenschaftler und Entwickler schnell SageMaker Studio-Notebooks einrichten, um Datensätze zu erkunden und vorzubereiten, um Machine Learning-Modelle auf einen Blick zu entwickeln, zu schulen und bereitzustellen. Amazon EMR ist ein Webservice, mit dem große Datenmengen schnell und kostengünstig verarbeitet werden können. Ab heute können Kunden Studio-Notebooks verwenden, um Amazon EMR-Cluster einfach und sicher zu verbinden und riesige Datenmengen zur Analyse und Berichterstellung, Modellschulung oder Inferenz vorzubereiten.
Datenvorbereitung ist ein kritischer Schritt im Machine Learning-Workflow. Mit SageMaker Studio haben Sie Zugriff auf eine Reihe von Tools zur Datenvorbereitung basierend auf Ihrer Präferenz. Wenn Sie eine visuelle Schnittstelle bevorzugen, können Sie Amazon SageMaker Data Wrangler zur Verbindung mit Amazon S3, Amazon RedShift oder Amazon Athena verwenden, zum Zugriff, der Visualisierung und Analyse von Daten von SageMaker Studio. Wenn Sie lieber einen Code schreiben, können Sie auch SageMaker Studio-Notebooks verwenden, um Daten interaktiv mit Bibliotheken und SDKs vorzubereiten, oder große Datenmenge in Batch mit Amazon SageMaker Processing mit eingebautem Spark-Container verarbeiten. Wenn Sie es aber bevorzugen, Studio-Notebooks mit bestehenden EMR-Clustern zu verbinden, um auf Daten zuzugreifen und sie zu verarbeiten, müssen Sie die Umgebung manuell einrichten, Ihren eigenen Sparkmagic-Kernel verwenden, Ziel-Cluster-Informationen konfigurieren, Tools wie Kerberos zur Authentifizierung installieren, bevor Sie Ihre Spark-Aufgaben ausführen oder Ihre Hive-Tabellen abfragen.
Amazon SageMaker Studio wird jetzt mit eingebauten Tools verbunden, die es schnell und einfach machen, Ihr Notebook mit einem EMR-Cluster zur Verarbeitung großer Datenmengen sicher zu verbinden. Sie können eine Studio-Notebook von einem eingebauten SageMaker-Image mit PySpark-Kernel erstellen, integrierte Befehle zur Verbindung mit einem EMR-Cluster verwenden und anfangen, Daten in wenigen Schritten abzufragen, zu analysieren und zu verarbeiten. Für hinzugefügte Sicherheit können wir mit EMR-Clustern mit Kerberos-Authentifizierung verbinden. Die Funktion ist jetzt in allen AWS-Regionen verfügbar, in denen Amazon SageMaker Studio verfügbar ist. Weitere Informationen finden Sie in der Dokumentation zu Amazon SageMaker Studio.