Publicado en: May 24, 2018
Ahora puede ejecutar sus trabajos de entrenamiento con los algoritmos integrados de Amazon SageMaker hasta un 35 % más rápido gracias al modo de entrada de datos por canal. Con el modo de entrada de datos por canal, el trabajo de entrenamiento transmite los datos directamente desde Amazon Simple Storage Service (Amazon S3) hasta el contenedor de algoritmos correspondiente a las instancias de entrenamiento, para lograr unos tiempos de inicio más cortos y un mejor desempeño. Por ejemplo, los análisis comparativos indican que los tiempos de inicio se redujeron hasta 10 minutos en un archivo de 78 GB y se logró un desempeño el doble de rápido en algunos casos.
La mayoría de algoritmos de Amazon SageMaker funcionan mejor cuando se utiliza el formato recordIO de protobuf optimizado para entrenamiento de datos y el aumento de la velocidad. Utilizar este formato le permite aprovechar el modo de entrada de datos por canal a la hora de llevar a cabo el entrenamiento de los algoritmos compatibles. Antes del modo de entrada de datos por canal, todos los datos se cargaban desde Amazon S3 hasta los volúmenes de Amazon Elastic Block Store (Amazon EBS) conectados a las instancias de entrenamiento mediante el modo de entrada de datos por archivo, lo que requería espacio en disco para almacenar tanto los artefactos del modelo final como todo el conjunto de datos de entrenamiento. El modo de entrada de datos por archivo sigue siendo la opción preferida cuando el algoritmo requiere varias fechas de inicio (epochs) y el conjunto de datos de entrenamiento es lo suficientemente pequeño para caber en la memoria; sin embargo, el modo de entrada de datos por canal funciona mejor con conjuntos de datos de gran tamaño.
El modo de entrada de datos por canal ya está disponible en Amazon SageMaker en las siguientes regiones de AWS: EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), UE (Irlanda) y EE.UU. Oeste (Oregón). Consulte la documentación para obtener más información sobre el modo de entrada de datos por canal con los algoritmos de Amazon SageMaker compatibles y lea las publicaciones del blog para saber cómo utilizar el modo de entrada de datos por canal, así como para ver los análisis comparativos con respecto al modo de entrada de datos por archivo.