Amazon SageMaker Pipelines

El primer servicio personalizado de integración y entrega continuas (CI/CD) diseñado para machine learning

Amazon SageMaker Pipelines es el primer servicio personalizado de integración y entrega continuas (CI/CD) fácil de utilizar diseñado para machine learning (ML). Con SageMaker Pipelines, puede crear, automatizar y administrar flujos de trabajo de ML de forma integral a escala.

Orquestar los flujos de trabajo en cada paso del proceso de machine learning (p. ej.: explorar y preparar datos, experimentar con diferentes algoritmos y parámetros, entrenar y ajustar modelos, e implementar modelos en producción) es una tarea que puede tomar meses de trabajo de codificación.

Dado que se trata de un servicio diseñado para machine learning, SageMaker Pipelines lo ayuda a automatizar los diferentes pasos del flujo de trabajo de ML, incluidos la carga y transformación de datos, el entrenamiento, el ajuste y la implementación. Con SageMaker Pipelines, puede crear decenas de modelos de ML por semana y administrar enormes volúmenes de datos, miles de experimentos de entrenamiento y cientos de versiones de modelos diferentes. Es posible compartir y reutilizar flujos de trabajo para recrear u optimizar modelos, lo que lo ayuda a escalar el proceso de ML en toda la organización.

How to create fully automated ML workflows with Amazon SageMaker Pipelines (29:23)

Características clave

Componer, administrar y reutilizar flujos de trabajo de ML

Con Amazon SageMaker Pipelines, puede crear flujos de trabajo de ML con un SDK de Python fácil de utilizar y, a continuación, visualizar y administrar el flujo de trabajo con Amazon SageMaker Studio. Puede ser más eficiente y escalar con más rapidez si almacena y reutiliza los pasos de un flujo de trabajo creado en SageMaker Pipelines. Además, puede comenzar rápidamente con plantillas integradas para crear, probar, registrar e implementar modelos que le permitirán empezar a utilizar cuanto antes CI/CD en su entorno de ML.

Elegir los mejores modelos para implementarlos en producción

Muchos clientes tienen cientos de flujos de trabajo, cada uno con una versión diferente del mismo modelo. Con el registro de modelos de SageMaker Pipelines, puede hacer un seguimiento de estas versiones en un repositorio central en el que es fácil elegir el modelo adecuado para la implementación en función de los requisitos de su empresa. Es posible utilizar SageMaker Studio para buscar y descubrir modelos, o bien puede acceder a ellos mediante el SDK de Python para SageMaker.

Seguimiento automático de modelos

Amazon SageMaker Pipelines registra cada paso del flujo de trabajo a través del seguimiento de auditoría de los componentes del modelo, como los datos de entrenamiento, las configuraciones de la plataforma, los parámetros del modelo y las gradientes de aprendizaje. Los seguimientos de auditoría pueden utilizarse para recrear modelos y ayudar a respaldar los requisitos de conformidad.

Implementación de CI/CD en machine learning

Amazon SageMaker Pipelines implementa las prácticas de CI/CD en el proceso de machine learning, tales como la conservación de la paridad entre los entornos de desarrollo y producción, el control de versiones, las pruebas bajo demanda y la automatización integral, lo que lo ayuda a escalar ML en toda la organización.

Clientes

iFood
“En iFood, nos esforzamos por deleitar a nuestros clientes a través de nuestros servicios con tecnologías como machine learning (ML). […] La creación de un flujo de trabajo exhaustivo y sin interrupciones con el que se desarrollan, entrenan e implementan modelos ha sido una parte fundamental de nuestro proceso de escalado de ML. Amazon SageMaker Pipelines nos ayuda a crear rápidamente numerosos flujos de trabajo de ML escalables y automatizados y facilita la implementación y administración eficaz de nuestros modelos. SageMaker Pipelines nos permite ser más eficaces en nuestro ciclo de desarrollo. Continuamos destacando nuestro liderazgo en la utilización de IA y ML para ofrecer un servicio de atención al cliente y una eficacia superiores con todas estas nuevas capacidades de Amazon SageMaker”.

Sandor Caetano, director de ciencia de datos de iFood

Invista_Logo
“En INVISTA, nos impulsa la transformación y nos enfocamos en desarrollar productos y tecnologías que beneficien a clientes de todo el mundo. Vemos el proceso de machine learning como una manera de mejorar la experiencia del cliente, pero con conjuntos de datos que abarcan cientos de millones de filas; necesitábamos una solución que nos ayudara a preparar los datos y desarrollar, implementar y administrar a escala modelos de ML. […] Somos capaces de automatizar y administrar flujos de trabajo de ML a escala con Amazon SageMaker Pipelines, de modo que podemos relacionar con facilidad cada paso del flujo de trabajo de ML. Con esta herramienta podemos implementar nuestros flujos de trabajo de ML con mayor rapidez”.

Caleb Wilkinson, científico de datos principal de INVISTA

Care.com
“Una industria de atención donde los suministros satisfagan la demanda es esencial para el crecimiento económico tanto de una familia particular como del PBI de la nación. Estamos entusiasmados con Amazon SageMaker Pipelines, puesto que creemos que nos ayudará a escalar mejor con nuestros equipos de ciencia de datos y desarrollo, mediante la utilización de un conjunto consistente y selecto de datos con el que podemos crear canalizaciones de modelos de machine learning (ML) escalables e integrales, que abarquen desde la preparación de los datos hasta su implementación. Con las capacidades de Amazon SageMaker recientemente anunciadas, podemos acelerar el desarrollo y la implementación de nuestros modelos de ML para diferentes aplicaciones, a fin de ayudar a nuestros clientes a tomar mejores decisiones mediante recomendaciones más rápidas en tiempo real”.

Clemens Tummeltshammer, gerente de ciencia de datos de Care.com

3M_Logo
“Con el uso de ML, 3M está mejorando los productos de eficacia comprobada, como el papel de lija, e innovando en muchos otros ámbitos, incluido el de la sanidad. A medida que planeamos escalar el proceso de machine learning en más áreas de 3M, vemos cómo la cantidad de datos y modelos crecen rápidamente y se multiplican año tras año. Estamos entusiasmados con las nuevas características de SageMaker porque nos ayudarán a escalar. Amazon SageMaker Data Wrangler facilita la preparación de datos para el entrenamiento de modelos y el almacén de características de Amazon SageMaker elimina la necesidad de crear repetidamente las mismas características del modelo. Por último, Amazon SageMaker Pipelines nos ayudará a automatizar la preparación de datos y la creación e implementación de modelos en un flujo de trabajo integral, para así poder acelerar el tiempo de comercialización de nuestros modelos. Nuestros investigadores esperan aprovechar el nuevo ritmo de la ciencia en 3M”.

David Frazee, director técnico del laboratorio de sistemas de investigación corporativa de 3M

Introducción a Amazon SageMaker Pipelines