Publicado en: Oct 7, 2021

Amazon SageMaker ya admite el modo de archivo rápido para acceder a los datos en trabajos de entrenamiento; con ello, podrá acceder a datos de alto rendimiento transmitiendo directamente desde Amazon S3 y sin necesidad de cambiar el código a partir del modo de archivo existente. Por ejemplo, el entrenamiento de un modelo de agrupación en clústeres K-Means con un conjunto de datos de 100 GB empleó 28 minutos con el modo de archivo, mientras que con el modo de archivo rápido se completó en solamente 5 minutos (reducción del 82 %).

El entrenamiento de modelos de machine learning suele requerir grandes cantidades de datos. Acceder de manera eficiente a esos datos ayuda a mejorar el rendimiento del entrenamiento del modelo. Hasta ahora, SageMaker ofrecía dos modos para leer datos directamente desde Amazon S3: el modo de archivo y el modo de canalización. El modo de archivo descarga datos de entrenamiento en un volumen cifrado de Amazon EBS adjunto a la instancia de entrenamiento. Dicha descarga debe completarse antes de que comience el entrenamiento del modelo. El modo de canalización transmite los datos directamente al algoritmo de entrenamiento, lo que puede ofrecer un mejor rendimiento, si bien requiere modificar el código.

El modo de archivo rápido combina la facilidad de uso del modo de archivo existente con el rendimiento del modo de canalización, lo que permite acceder de forma conveniente a los datos como si se hubieran descargado localmente, al tiempo que se obtiene un mayor rendimiento al transmitir los datos directamente desde Amazon S3. Como resultado, se puede comenzar el entrenamiento sin tener que esperar a que se descargue todo el conjunto de datos en las instancias de entrenamiento. El modo de archivo rápido está disponible para su uso sin cargos adicionales.

Si desea obtener más información, consulte la documentación para acceder a los datos de entrenamiento en SageMaker. Para comenzar, inicie sesión en la consola de Amazon SageMaker.