Publicado en: Dec 8, 2020
Nos entusiasma anunciar Amazon SageMaker Pipelines, una nueva capacidad de Amazon SageMaker para crear, administrar, automatizar y escalar flujos de trabajo de aprendizaje automático integrales. SageMaker Pipelines incorpora automatización y organización a los flujos de trabajo de aprendizaje automático, lo que le permite acelerar los proyectos de aprendizaje automático y escalar miles de modelos en producción.
El aprendizaje automático es un proceso iterativo y requiere de la colaboración entre los diferentes interesados, como ingenieros de datos, científicos de datos, ingenieros de aprendizaje automático e ingenieros de DevOps. Es un reto crear un proceso escalable para la creación de modelos, ya que el número de pasos en la preparación de los datos, la ingeniería de funciones, el entrenamiento y la evaluación del modelo puede aumentar, lo que incrementa la complejidad de la administración de dependencias de datos. A medida que el número de modelos aumenta, la administración de las versiones de los modelos y su implementación en la producción requiere automatización de una manera fácil y escalable. Por último, el seguimiento del linaje en la canalización integral requiere de funciones personalizadas para hacer un seguimiento de los artefactos y acciones de datos y modelos.
Amazon SageMaker Pipelines permite a los equipos de ciencias e ingeniería de datos colaborar sin problemas en proyectos de aprendizaje automático y agilizar la creación, automatización y escalado de flujos de trabajo integrales de aprendizaje automático. El SDK de Amazon SageMaker facilita el desarrollo de canalizaciones de creación de modelos mediante la definición de parámetros y pasos que pueden incluir Amazon SageMaker Data Wrangler, procesamiento, entrenamiento, transformación por lotes, evaluación condicional y registro de modelos para el registro del modelo principal. Una vez que las canalizaciones se hayan creado, Amazon SageMaker se encarga de su ejecución. Podrá ver las ejecuciones de las canalizaciones y las métricas y registros en tiempo real de cada paso en Amazon SageMaker Studio. Los modelos se registran en el nuevo registro de modelos de Amazon SageMaker, que versiona automáticamente los nuevos modelos que se generan de las canalizaciones y ofrece flujos de trabajo de aprobación incorporados para seleccionar los modelos que se implementan en la producción.
Amazon SageMaker Pipelines ofrece prácticas recomendadas de DevOps de integración y entrega continuas (CI/CD) aplicadas al aprendizaje automático (conocidas como MLOps) para automatizar y escalar la creación de modelos de aprendizaje automático y canalizaciones de implementación. Amazon SageMaker Pipelines proporciona plantillas de MLOps incorporadas para que pueda comenzar a utilizar CI/CD en proyectos de aprendizaje automático. También proporciona la posibilidad de utilizar plantillas de MLOps personalizadas. Con ello, puede escalar de forma rápida y sencilla las canalizaciones de aprendizaje automático sin depender de procesos manuales y garantizar mejor la coherencia del código, la integración y las pruebas de unidad, así como las actualizaciones fiables de los modelos en producción. Por último, Amazon SageMaker Pipelines hace un seguimiento automático del linaje de cada paso de la canalización de aprendizaje automático, lo que puede ayudar con cualquier requisito de gestión y auditoría, sin necesidad de crear funciones personalizadas.
Ahora, Amazon SageMaker Pipelines está generalmente disponible en todas las regiones comerciales de AWS en las que esté disponible Amazon SageMaker. Las capacidades de MLOps de Amazon SageMaker Pipelines están solo disponibles en las regiones de AWS en las que AWS CodePipeline esté disponible. Consulte la documentación para más información y para los blocs de notas de muestra. Para más información sobre cómo utilizar esta función, consulte la publicación del blog.