Publicado en: Nov 5, 2018
Los algoritmos integrados que vienen incluidos con Amazon SageMaker ahora son compatibles con el modo de canalización para conjuntos de datos en formato CSV. Esta nueva compatibilidad agiliza la velocidad con la cual pueden transmitirse por streaming los datos desde Amazon Simple Storage Service (S3) a SageMaker en hasta un 40 %, mientras se entrenan modelos de aprendizaje automático. Gracias a esta nueva mejora, los beneficios en términos de rendimiento del modo de canalización se extienden a los conjuntos de datos de entrenamiento en formato CSV, que se suma al formato protobuf recordIO que lanzamos anteriormente durante este año.
Amazon SageMaker admite dos métodos de transferencia de datos de entrenamiento: modo de archivo y modo de canalización. En el modo de archivo, los datos de entrenamiento primero se descargan en un volumen de EBS cifrado adjunto a la instancia de entrenamiento antes de entrenar el modelo. En el modo de canalización, los datos se transmiten por streaming directamente al algoritmo de entrenamiento mientras se encuentra en ejecución. Este mecanismo genera trabajos de entrenamiento más ágiles y ocupa menor espacio en disco, lo que reduce de manera general los costos de entrenar modelos de aprendizaje automático en Amazon SageMaker.
La compatibilidad para el formato CSV con el modo de canalización puede utilizarse en todas las regiones de AWS en las que Amazon SageMaker se encuentre disponible actualmente. Puede leer más detalles en esta publicación de blog.