게시된 날짜: Jan 21, 2022
Amazon SageMaker Pipelines는 고객이 모델 구축 단계를 워크플로로서 정의하고 오케스트레이션할 수 있는 완전관리형 서비스입니다. 오늘 기계 학습 엔지니어가 Amazon EMR 클러스터에서 Apache Spark, Presto, Hive와 같은 오픈 소스 프레임워크를 사용하여 데이터 처리 애플리케이션을 실행할 수 있는 새로운 단계 유형을 도입하여 기쁘게 생각합니다.
SageMaker Pipelines는 이미 여러 단계(예: 처리, 훈련, 모델 등록, 콜백 등)를 제공하고 있고, 이러한 단계는 고객이 유연하게 모델 구축 워크플로를 정의할 수 있도록 합니다. 대개 고객은 모델 구축 과정 중에 EMR에서 실행되는 Spark, Hive, Presto와 같은 오픈 소스 프레임워크를 사용하여 EMR 클러스터에서 데이터 처리 작업(특성 추출)을 실행하려고 합니다. 새로 런칭된 SageMaker Pipelines EMR 단계를 사용하면 고객이 EMR 클러스터에서 이러한 작업을 EMR 작업으로 제출할 수 있습니다. SageMaker Pipeline EMR 단계에서는 고객이 EMR 클러스터의 클러스터 id와 클러스터에서 실행해야 하는 EMR 작업의 실행 속성을 제공해야 합니다. Sagemaker pipelines는 보안 연결 설정, EMR 워크로드 제출, 완료까지의 능동 추적을 처리합니다. SageMaker Pipelines EMR 단계가 생성되면 다른 SageMaker Pipelines 단계와 함께 기계 학습 구축 워크플로에 통합할 수 있습니다.
이 기능은 Amazon SageMaker가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 시작하려면 EMR 단계를 사용하여 SageMaker Studio 또는 명령줄 인터페이스에서 새 SageMaker Pipeline을 생성합니다. 자세한 내용은 설명서 페이지를 참조하세요.