Veröffentlicht am: Jan 28, 2022
Amazon SageMaker Autopilot erstellt, trainiert und optimiert automatisch die besten Modelle für maschinelles Lernen auf der Grundlage Ihrer Daten, während Sie die volle Kontrolle und Transparenz behalten. Ab heute bietet SageMaker Autopilot Unterstützung für das Dateiformat Apache Parquet. Apache Parquet ist ein kostenloses und spaltenorientiertes Open-Source-Datenspeicherformat für das Apache Hadoop-Ökosystem. Es bietet effiziente Datenkomprimierungs- und Codierungsschemata mit verbesserter Leistung. Diese neue Funktion ermöglicht die Erstellung von SageMaker Autopilot-Experimenten mit Dateien, die im Dateiformat Apache Parquet gespeichert sind.
Wenn Sie ein Autopilot-Experiment mit dieser Version erstellen, können Sie einen Amazon S3-Speicherort für Eingabe-Parquet-Daten angeben, der entweder auf eine einzelne Parquet-Datei oder eine Manifestdatei verweist, die Metadaten enthält und auf mehrere Parquet-Dateien verweist. Autopilot kann bis zu 2 GB komprimierte Daten für jede Parquet-Datei am Eingabespeicherort oder -manifest akzeptieren. Sie können das standardmäßige Service-Limit von 2 GB für eine komprimierte Datei im Parquet-Format erhöhen, indem Sie eine Anfrage zur Erhöhung des Service-Limits in der AWS-Support-Center-Konsole stellen. Wenn Sie einen Amazon-S3-Ordner oder eine Manifestdatei mit mehreren Parquet-Dateien als Eingabe angeben, wird die standardmäßige 2-GB-Grenze für jede Parquet-Datei separat durchgesetzt. Diese Version enthält auch Unterstützung für die Verarbeitung großer Parquet-Datasätze. SageMaker Autopilot nimmt automatisch eine Unterteilung der unkomprimierten Daten vor, die in der/den Parquet-Datei(en) gespeichert sind, um die maximal unterstützte Grenze zu erreichen, wobei ein Ungleichgewicht zwischen den Klassen berücksichtigt und seltene Klassenetiketten erhalten werden.
Das Parquet-Dateiformat wird in allen AWS-Regionen unterstützt, in denen SageMaker Autopilot verfügbar ist. Weitere Informationen finden Sie in den Themen zu Daten- und Problemtypen und Kontingenten im Amazon SageMaker Autopilot-Entwicklerhandbuch und zu ContentType in der AutoMLChannel-API-Referenz. Einen tieferen Einblick erhalten Sie in unserem Blogbeitrag und in unseremBeispiel-Notizbuch, das eine Vorschau auf diese neue Funktion enthält. Um mit SageMaker Autopilot zu arbeiten, lesen Sie den Abschnitt Einfühgung oder greifen Sie auf Autopilot in SageMaker Studio zu.