Veröffentlicht am: Jan 21, 2022
Amazon SageMaker Pipelines ist ein vollständig verwalteter Service, der es Kunden ermöglicht, ihre Modellentwicklungsschritte als Workflows zu definieren und zu orchestrieren. Wir freuen uns, Ihnen heute einen neuen Schritt-Typ vorstellen zu können, der es Ingenieuren für Machine Learning ermöglicht, Datenverarbeitungsanwendungen mit Open Source Frameworks wie Apache Spark, Presto und Hive auf Amazon EMR-Clustern auszuführen.
SageMaker Pipelines bietet bereits eine Vielzahl von Schritten (z .B. Verarbeitung, Training, Modellregistrierung, Rückruf usw.). Diese Schritte ermöglichen es den Kunden, ihren Workflow für die Modellentwicklung flexibel zu definieren. Häufig möchten Kunden Open-Source-Frameworks wie Spark, Hive und Presto, die auf EMR laufen, verwenden, um Datenverarbeitungsaufgaben (Feature-Engineering) auf dem EMR-Cluster im Modellentwicklungsprozess auszuführen. Mit dem neu eingeführten SageMaker Pipelines EMR-Schritt können Kunden diese Aufgaben als EMR-Jobs auf einem EMR-Cluster einreichen. Der SageMaker Pipeline EMR-Schritt erfordert vom Kunden die Angabe der Cluster-ID des EMR-Clusters und der Ausführungseigenschaft für den EMR-Job, der auf dem Cluster ausgeführt werden soll. Sagemaker Pipelines kümmert sich um den Aufbau einer sicheren Verbindung, die Übermittlung der EMR-Workloads und deren aktive Verfolgung bis zum Abschluss. Sobald er erstellt ist, kann der SageMaker Pipelines EMR-Schritt zusammen mit anderen SageMaker Pipelines-Schritten in den ML-Modellentwicklungsworkflow integriert werden.
Diese Funktion ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker angeboten wird. Um zu starten, erstellen Sie eine neue SageMaker Pipeline aus dem SageMaker Studio oder der Befehlszeilenschnittstelle mit EMR-Schritt. Um mehr zu erfahren, besuchen Sie unsere Dokumentationsseite.