Inserito il: Jan 24, 2019
La trasformazione in batch di Amazon SageMaker ora supporta il formato TFRecord come SplitType supportato, consentendo di suddividere i set di dati secondo i limiti di TFRecord. TFRecord si aggiunge quindi ai formati già supportati, tra cui RecordIO, CSV e Text.
Amazon SageMaker è un servizio completamente gestito che consente a data scientist e sviluppatori di creare, formare e distribuire in modo rapido e semplice modelli di Machine Learning. Una delle principali funzionalità di SageMaker è la trasformazione in batch, che consente di eseguire stime su dati batch.
TFRecord è un formato di dati standard di TensorFlow. Si tratta di un formato di file binario di record che consente di archiviare ed elaborare set di dati di grandi dimensioni, in modo efficiente. Con questa aggiunta, archiviare una sequenza di record binari è ora semplicissimo: è la soluzione ideale quando si lavora con set di dati di grandi dimensioni tramite la trasformazione in batch di SageMaker. Per usare TFRecord quando si esegue la trasformazione in batch, è possibile scegliere TFRecord come SplitType e i set di dati saranno divisi secondo i limiti di TFRecord. Inoltre, puoi specificare una BatchStrategy di MultiRecord per eseguire la trasformazione in batch di diversi record da una singola richiesta.
Il supporto per TFRecord è disponibile in tutte le regioni AWS in cui Amazon SageMaker è attualmente disponibile. Per saperne di più, consulta la documentazione e il campione di esempio.