게시된 날짜: Jan 10, 2022
Amazon SageMaker Feature Store에서 새로운 강화 요소를 발표합니다. 고객이 지금보다도 더 손쉽게 배치 데이터를 수집할 수 있게 해주는 Apache Spark용 커넥터입니다. Amazon SageMaker Feature Store는 기계 학습(ML) 모델 특성을 저장, 업데이트, 검색 및 공유하는 데 쓰이는 완전관리형, 특수 설계한 리포지토리입니다. SageMaker Feature Store에 데이터를 수집하는 데는 PutRecord API, SageMaker Python SDK의 FeatureGroup.ingest 기능과 SageMaker 처리 작업 등 여러 가지 방법이 있습니다.
배치 수집의 경우 Amazon EMR과 처리 작업 등 Spark 소스에서 가져온 데이터를 수집할 수 있습니다. 이렇게 하려면 Spark DataFrame 레코드를 통과해 반복을 거치고 PutRecord API를 Feature Group과 Feature 이름을 사용해 여러 번 구성해야 하는데, 이 방식은 시간이 오래 걸릴 수 있습니다. 최신 릴리스부터는 고객이 Apache Spark에 SageMaker Feature Store 커넥터를 사용할 수 있으며 이로써 이러한 단계가 간소화, 자동화됩니다. 커넥터를 이용하면 Spark 라이브러리를 모두 이용할 수 있게 되고 고객은 Amazon EMR의 기존 Feature Engineering 파이프라인에 단순한 API 호출을 추가하기만 하면 손쉽게 SageMaker Feature Store로 데이터를 배치 수집할 수 있습니다. 또한 이 커넥터를 이용하면 SageMaker Feature Store 오프라인 저장소에 직접 수집할 수도 있으므로 백필링 프로세스가 간소해집니다.
자세한 내용은 설명서를 참조하세요. 시작하려면 Amazon SageMaker 콘솔에 로그인하세요.