게시된 날짜: Sep 30, 2022
Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. Amazon SageMaker Autopilot은 데이터에 기반해 최상의 기계 학습 모델을 자동으로 구축, 훈련 및 튜닝하는 동시에, 완전한 제어와 가시성을 유지 관리할 수 있습니다. Data Wrangler에서는 클릭 몇 번으로 Amazon SageMaker Autopilot과의 통합 데이터 준비 및 모델 훈련 환경을 구축할 수 있습니다. 해당 통합 환경이 더욱 개선되어 이제는 누락된 값 산입기, 서수/원-핫 인코더 등의 Data Wrangler 특성 변환도 포함되었으며, 이러한 변환은 재사용 가능합니다. 또한 ML 추론용 Autopilot 모델도 제공됩니다. 이제는 Data Wrangler에서 데이터를 준비한 후 Autopilot을 호출하여 모델을 훈련시킬 때 모든 Data Wrangler 특성 변환과 함께 훈련된 모델을 SageMaker 직렬 추론 파이프라인으로 배포할 수 있습니다. 그러면 추론 시에 Data Wrangler 특성 변환을 재사용하여 원시 데이터를 자동으로 전처리할 수 있습니다. 현재는 조인, 그룹화 기준, 연결 및 시계열 변환을 사용하지 않는 Data Wrangler 흐름에서만 이 기능이 지원됩니다.
이 기능이 출시되기 전에는 Data Wrangler에서 준비한 데이터로 훈련시킨 Autopilot 모델을 사용할 때 추론용으로 제공되는 데이터를 SageMaker Data Wrangler에서 전처리해야 했습니다. 즉, 실시간 또는 배치 모드에서 추론용 데이터를 제공하기 전에 이러한 전처리를 수행해야 했습니다. 오늘부터는 Data Wrangler를 사용하여 데이터를 준비하고 SageMaker Autopilot에서 모델을 훈련시킨 후에 데이터 랭글링 변환을 포함하는 배치 예측을 수행할 수도 있고, 훈련시킨 모델을 Data Wrangler 변환과 함께 SageMaker 엔드포인트 뒤에 배포할 수도 있습니다. 이처럼 데이터 랭글링 변환이 예측에 자동으로 포함되므로 데이터를 수동으로 전처리하지 않아도 되는 추론을 실시간 추론과 배치 추론에서 모두 사용할 수 있습니다.
이 새로운 기능은 SageMaker Data Wrangler와 SageMaker Autopilot을 모두 사용할 수 있는 모든 리전에서 정식 사용 가능합니다. 시작하려면 데이터 흐름을 기반으로 자동으로 모델 훈련을 참조하거나 블로그 게시물을 검토하세요.