게시된 날짜: Nov 30, 2022
Data Wrangler에서 생성한 데이터 준비 흐름을 실시간 및 배치 직렬 추론 파이프라인에 배포하는 작업, 그리고 Amazon SageMaker Data Wrangler에서 수행하는 Data Wrangler 처리 작업용 추가 구성의 지원이 오늘 발표되었습니다.
Amazon SageMaker Data Wrangler 사용 시에는 프로토타입을 빠르게 생성하여 데이터 처리 워크로드를 프로덕션 환경에 배포하는 데 걸리는 시간을 단축할 수 있습니다. 또한 Data Wrangler는 SageMaker 처리 API를 통해 CI/CD 파이프라인 및 MLOps 프로덕션 환경과 쉽게 통합할 수 있습니다. ML 모델 훈련에 사용할 데이터 준비를 위해 Data Wrangler에서 데이터 처리 워크로드를 실행 및 예약하는 고객은 데이터 준비 워크로드용 Spark 메모리 및 출력 파티션 설정을 대규모로 사용자 지정해야 했습니다. 또한 데이터를 처리하고 ML 모델을 훈련시킨 후에는 실시간 추론 및 배치 추론 사용 사례용으로 SageMaker 엔드포인트에 데이터 변환 파이프라인과 ML 모델을 모두 배포해야 했습니다. 그런 후에는 데이터 처리 스크립트를 새로 생성하여 모델을 훈련시킬 때 적용했던 것과 같은 데이터 처리 단계를 추론 시에도 실행해야 합니다. 그리고 모델을 배포한 후에는 훈련 및 배포 스크립트가 동기화 상태로 유지되는지도 확인해야 합니다.
이번 지원이 발표됨에 따라 이제는 Data Wrangler 처리 작업을 실행하여 대규모로 데이터를 처리할 때 Spark 메모리 구성과 출력 파티션 형식을 쉽게 구성할 수 있습니다. 즉, 이제는 데이터를 준비하고 ML 모델을 훈련시킨 다음 직렬 추론 파이프라인의 일부분으로 데이터 변환 파이프라인(“데이터 흐름”이라고도 함)을 ML 모델과 함께 배치 및 실시간 추론 애플리케이션용으로 쉽게 배포할 수 있습니다. 또한 이제는 SageMaker Model Registry에 Data Wrangler 데이터 흐름을 등록할 수도 있습니다. Data Wrangler의 데이터 흐름 보기에서 “내보낼 위치 > 추론 파이프라인(Jupyter Notebook을 통해)"를 클릭하면 실시간 추론용 Data Wrangler 흐름 배포를 시작할 수 있습니다. 그리고 이제는 작업 생성 워크플로의 일부분으로 Spark 메모리 설정을 구성할 수 있으며 대상 노드 설정의 일부분으로 파티션을 구성할 수 있습니다.