Veröffentlicht am: Dec 7, 2022
Amazon SageMaker Feature Store unterstützt jetzt die Möglichkeit, Feature-Gruppen im Offline-Store im Apache-Iceberg-Tabellenformat zu erstellen. Der Offline-Store enthält historische ML-Funktionen, die in logische Feature-Gruppen unterteilt sind, und wird zum Trainieren von Modellen und Batch-Inferenz verwendet. Apache Iceberg ist ein offenes Tabellenformat für sehr große analytische Datensätze wie den Offline-Store. Es verwaltet große Sammlungen von Dateien als Tabellen und unterstützt moderne analytische Data-Lake-Operationen, die für die Verwendung mit Amazon S3 optimiert sind.
Das Aufnehmen von Daten, insbesondere beim Streamen, kann zu einer großen Anzahl kleiner Dateien führen, was sich aufgrund der höheren Anzahl von erforderlichen Dateioperationen negativ auf die Abfrageleistung auswirken kann. Mit Iceberg können Sie die kleinen Datendateien in wenigere, große Dateien in der Partition komprimieren, was zu deutlich schnelleren Abfragen führt. Dieser Komprimierungsvorgang wird gleichzeitig ausgeführt und wirkt sich nicht auf laufende Lese- und Schreibvorgänge in der Feature-Gruppe aus. Wenn Sie beim Erstellen neuer Feature-Gruppen die Iceberg-Option ausgewählt haben, erstellt SageMaker Feature Store die Iceberg-Tabellen im Parquet-Dateiformat und registriert die Tabellen im AWS-Glue-Datenkatalog.
Weitere Informationen finden Sie hier in der Dokumentation. Rufen Sie Einstieg zunächst SageMaker Studio über die Konsole von Amazon SageMaker auf.