Veröffentlicht am: Dec 1, 2021
Amazon SageMaker Studio ist die erste vollständig integrierte Entwicklungsumgebung (Integrated Development Environment, IDE) für Machine Learning (ML). Sie bietet eine einzige webbasierte visuelle Oberfläche, über die Sie alle ML-Entwicklungsschritte ausführen können, die zum Vorbereiten von Daten sowie zum Erstellen, Trainieren und Bereitstellen von Modellen erforderlich sind. Wir haben vor kurzem die Möglichkeit eingeführt, Amazon-EMR-Cluster direkt im SageMaker-Studio-Notebook visuell zu durchsuchen und eine Verbindung mit ihnen herzustellen. Ab sofort können Sie Ihre in EMR ausgeführten Apache-Spark-Aufträge direkt über SageMaker-Studio-Notebooks mit nur einem Klick überwachen und debuggen. Außerdem können Sie jetzt EMR-Cluster direkt über SageMaker Studio erkennen, eine Verbindung mit ihnen herstellen sowie sie erstellen, beenden und verwalten. Die standardmäßige Integration mit EMR ermöglicht es Ihnen daher, interaktive Datenaufbereitung und Machine Learning in Petabyte-Größenordnung direkt in einem einzigen universellen SageMaker-Studio-Notebook durchzuführen.
Die Analyse, Umwandlung und Aufbereitung großer Datenmengen ist ein grundlegender Schritt in jedem Datenwissenschafts- und ML-Workflow. Data Worker wie Datenwissenschaftler und Datentechniker nutzen Apache Spark, Hive und Presto, die in EMR ausgeführt werden, zur schnellen Datenaufbereitung. Bis heute konnten diese Data Worker über Studio-Notebooks im selben Konto problemlos eine Verbindung mit EMR-Clustern herstellen. Sie mussten jedoch komplexe Sicherheitsregeln und Web-Proxys einrichten, um eine Verbindung über Konten hinweg herzustellen oder um ihre in EMR ausgeführten Apache-Spark-Aufträge zu überwachen und zu debuggen. Wenn diese Data Worker EMR-Cluster erstellen wollten, die auf ihre spezifischen Workloads zugeschnitten waren, mussten sie entweder ihren Administrator bitten, diese zu erstellen, oder sie mussten auf andere Tools umsteigen und über detaillierte technische Kenntnisse über Netzwerk-, Rechen- und Clusterkonfiguration verfügen, um selbst Cluster zu erstellen. Dieser Prozess war nicht nur mühsam und störend für ihre Workflows, sondern lenkte sie auch davon ab, sich auf ihre Datenaufbereitungsaufgaben zu konzentrieren. Obwohl dies unwirtschaftlich war, ließen viele Kunden daher persistente Cluster in Erwartung der anfallenden Workload unabhängig von der aktiven Nutzung weiterlaufen.
Ab heute können Data Worker direkt von SageMaker Studio aus EMR-Cluster in Einzelkonten und kontenübergreifenden Konfigurationen erkennen und eine Verbindung mit ihnen herstellen. Außerdem können Data Worker jetzt mit einem Klick auf die Benutzeroberfläche von Apache Spark zugreifen, um in EMR ausgeführte Apache-Spark-Aufträge direkt in SageMaker-Studio-Notebooks zu überwachen und zu debuggen, was ihren Debugging-Workflow erheblich vereinfacht. Kunden können auch AWS Service Catalog verwenden, um vorkonfigurierte Vorlagen zu definieren und an ausgewählte Data Worker weiterzugeben, damit diese EMR-Cluster direkt über SageMaker Studio erstellen können. Kunden können die Integritätsschutzmaßnahmen für Organisation, Sicherheit, Computing und Netzwerk vollständig kontrollieren, wenn Data Worker diese Vorlagen verwenden. Data Worker können visuell eine Reihe von Vorlagen durchsuchen, die ihnen zur Verfügung gestellt werden, sie für ihre spezifischen Workloads anpassen, EMR-Cluster on demand erstellen und sie mit nur wenigen Klicks direkt über SageMaker Studio beenden. Kunden können diese Funktionen nutzen, um ihren Workflow zur Datenaufbereitung zu vereinfachen und EMR-Cluster für interaktive Workloads in SageMaker Studio optimal zu nutzen.
Diese Funktionen sind in den folgenden AWS-Regionen allgemein verfügbar und es fallen keine zusätzlichen Gebühren für die Nutzung an: USA Ost (Nord-Virginia und Ohio), USA West (Nordkalifornien und Oregon), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (Stockholm), Europa (Paris) und Europa (London), Asien-Pazifik (Mumbai), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney) und Asien-Pazifik (Tokio) sowie Südamerika (São Paulo). Weitere Informationen finden Sie in diesem Blogbeitrag und im Benutzerhandbuch zu SageMaker-Studio-Notebooks.