Publicado en: Jan 21, 2022

Amazon SageMaker Pipelines es un servicio completamente administrado que permite que los clientes definan y orquesten su modelo de creación de pasos como flujos de trabajo. Hoy, tenemos el agrado de presentarles un nuevo tipo de paso que permite a los ingenieros de machine learning ejecutar las aplicaciones del procesamiento de datos mediante el uso de marcos de código abierto como Apache Spark, Presto y Hive en clústeres de Amazon EMR.

SageMaker Pipelines ya proporciona un gran variedad de pasos (por ejemplo, formación, modelo de registro, devolución de llamada, etc.), estos pasos permiten a los clientes definir de manera flexible su flujo de trabajo de creación de modelos. Con frecuencia, los clientes quieren utilizar marcos de código abierto, como Spark, Hive y Presto, que se ejecutan en EMR para realizar tareas de procesamiento de datos (ingeniería de características) en los clústeres de EMR en el proceso de creación de modelos. Con el uso de los nuevos pasos de EMR de SageMaker Pipelines, los clientes pueden enviar estas tareas como trabajos de EMR en un clúster de EMR. El paso de EMR de SageMaker Pipelines requiere que los clientes proporcionen un ID de clúster de EMR y realicen una ejecución adecuada de los trabajos de EMR, los cuales deben ejecutarse en el clúster. Sagemaker Pipelines se ocupa de establecer una conexión segura mediante el envío de cargas de trabajo de EMR y el seguimiento activo de ellas hasta que se completen. Una vez creado, el paso de EMR de SageMaker Pipelines puede integrarse al flujo de trabajo de creación de modelos en machine learning junto con otros pasos de SageMaker Pipelines.

Esta característica está disponible en todas las regiones de AWS en las que Amazon SageMaker está disponible. Para comenzar, cree un nuevo SageMaker Pipeline en SageMaker Studio o en la interfaz de línea de comandos con el nuevo paso de EMR. Para obtener más información, visite nuestra página de documentación.