Veröffentlicht am: Jan 10, 2022
Amazon SageMaker Feature Store kündigt eine neue Erweiterung an, einen Konnektor für Apache Spark, der die Batch-Datenaufnahme für Kunden vereinfacht. Amazon SageMaker Feature Store ist ein speziell entwickeltes vollständig verwaltetes Repository zum Speichern, Aktualisieren, Abrufen und gemeinsamen Nutzen von Machine-Learning (ML)-Modellfunktionen. Es gibt verschiedene Möglichkeiten, Daten in den SageMaker Feature Store zu übernehmen, darunter die PutRecord-API, die FeatureGroup.ingest-Funktion des SageMaker Python SDK und SageMaker Processing Job.
Für die Batch-Datenaufnahme können Kunden Daten aus Spark-Quellen wie Amazon EMR und Processing Jobs einlesen. Dies erfordert eine Iteration durch Spark-Datensätze und eine mehrfache Konfiguration der PutRecord-API mit Funktionsgruppen- und Funktionsnamen, was zeitaufwändig sein kann. Mit der neuen Version können Kunden den SageMaker Feature Store Connector for Apache Spark verwenden, der diese Schritte vereinfacht und automatisiert. Der Konnektor stellt alle Spark-Bibliotheken zur Verfügung, und Kunden können einfache API-Aufrufe zu ihrer bestehenden Feature-Engineering-Pipeline auf Amazon EMR hinzufügen, um auf einfache Weise Batch-Daten in den SageMaker Feature Store aufzunehmen. Darüber hinaus ermöglicht der Konnektor auch die direkte Aufnahme in den Offline-Speicher SageMaker Feature Store, um den Backfilling-Prozess zu vereinfachen.
Weitere Informationen finden Sie in der Dokumentation. Melden Sie sich zum Einstieg bei der Amazon-SageMaker-Konsole an.