Amazon SageMaker Feature Store

기계 학습 피처를 위한 완전 관리형 리포지토리

Amazon SageMaker Feature Store는 ML(기계 학습) 피처를 저장, 업데이트, 검색 및 공유하기 위한 완전 관리형의 특수 목적용 리포지토리입니다.

피처는 예측을 수행하기 위해 훈련 및 추론 중에 사용하는 특성 또는 속성 모델입니다. 예를 들어, 음악 재생 목록을 추천하는 ML 애플리케이션에서, 피처에는 노래 등급, 이전에 들은 노래, 노래를 들은 시간의 길이 등이 포함될 수 있습니다. ML 모델의 정확도는 피처의 정확한 세트와 구성을 기반으로 합니다. 흔히, 이러한 피처는 여러 모델을 훈련하는 여러 팀에서 반복적으로 사용합니다. 그리고 모델 훈련에 사용된 피처 세트는 실시간 예측(추론)을 수행하는 데 사용할 수 있어야 합니다. 이러한 다양한 액세스 패턴에서 단일 피처 소스를 일관되게 그리고 최신 상태로 유지하는 것은 어려운 일입니다. 대부분의 조직이 두 개의 서로 다른 저장소를 갖고, 하나는 훈련용, 하나는 추론용으로 사용하기 때문입니다.

Amazon SageMaker Feature Store는 피처를 저장하고 액세스할 수 있는 특수 목적용 리포지토리이므로, 팀들이 이름을 지정하고 구성하고 재사용하기가 훨씬 쉽습니다. SageMaker Feature Store는 훈련 및 실시간 추론 중에 피처에 대한 통합 저장소를 제공하며, 추가 코드를 작성하거나 피처를 일관되게 유지하기 위해 수동 프로세스를 생성할 필요가 없습니다. SageMaker Feature Store는 저장된 피처의 메타데이터(예: 피처 이름 또는 버전 번호)를 추적하므로 대화형 쿼리 서비스인 Amazon Athena를 사용하여 일괄적으로 또는 실시간으로 올바른 특성을 위해 피처를 쿼리할 수 있습니다. 또한 SageMaker Feature Store는 피처를 계속 업데이트합니다. 훈련 및 추론 중에 모형에 대해 항상 사용 가능한 새 피처를 사용할 수 있도록, 추론 중에 새 데이터가 생성될 때 단일 리포지토리가 업데이트되기 때문입니다.

SageMaker Feature Store Overview and Demo (21:54)

주요 기능

다양한 소스에서 데이터 수집

Amazon SageMaker Feature Store로 피처를 수집하는 방법에는 여러 가지가 있습니다. Amazon Kinesis Data Firehose 같은 스트리밍 데이터 원본을 사용할 수 있습니다. 또한 Amazon SageMaker Data Wrangler 같은 데이터 준비 도구에서 피처를 생성하고, 클릭 몇 번 만으로 SageMaker Feature Store에 직접 저장할 수 있습니다.

검색 및 탐색

Amazon SageMaker Feature Store 태그와 인덱스 피처를 사용하면 SageMaker Studio의 시각적 인터페이스를 통해 쉽게 검색할 수 있습니다. 팀은 피처 카탈로그 검색을 통해 피처를 더 잘 이해하고 피처가 특정 모델에 유용한지 여부를 결정할 수 있습니다.

피처 일관성 보장

Amazon SageMaker Feature Store는 훈련과 추론 둘 다에 동일한 피처를 사용할 수 있게 하여 모델이 정확한 예측을 하도록 도와줍니다. 훈련과 추론은 서로 매우 다른 사용 사례이며 스토리지 요구 사항이 각각 다릅니다. SageMaker Feature Store는 두 가지 요구 사항을 모두 해결합니다. 훈련 중에 모델은 흔히 몇 시간이 걸리는 완전한 데이터 세트를 사용하는 반면, 추론은 밀리초 단위로 발생해야 하며 일반적으로 데이터의 하위 집합이 필요합니다. 예를 들어, 재생 목록에서 최상의 다음 곡을 예측하는 모델에서 수천 개의 곡에 대해 모델을 훈련시키지만, 추론 중에 SageMaker Feature Store는 다음 곡을 예측하기 위해 마지막 세 곡에만 액세스합니다. SageMaker Feature Store를 사용하면 모델이 훈련 실행(일반적으로 오프라인에서 일괄적으로 수행됨) 및 실시간 추론을 위해 동일한 피처 세트에 액세스할 수 있습니다.

피처 표준화

비즈니스 전반에서 유사한 피처에 대해 서로 다른 정의를 보는 것은 일반적입니다. 예를 들어, “온도”는 섭씨 또는 화씨로 정의될 수 있고 “날짜”는 일-월-년 또는 월-일-년으로 표시될 수 있습니다. Amazon SageMaker Feature Store는 각 피처가 정의되는 방식이 명확해지도록 피처 정의를 단일 리포지토리에 저장하여 팀들의 혼란을 없애줍니다. 피처를 명확하게 정의해 두면 다른 애플리케이션을 위해 피처를 더 쉽게 재사용할 수 있습니다.

Amazon SageMaker Pipelines와 통합

Amazon SageMaker Feature Store는 Amazon SageMaker Pipelines와 통합되어, 피처 검색 및 발견을 생성, 추가하고 자동화된 기계 학습 워크플로를 재사용합니다. 그 결과, 피처 검색, 발견 및 재사용을 ML 워크플로에 쉽게 추가할 수 있습니다.

고객

The Climate Corporation
“Climate에서는 전 세계 농부들에게 정확한 정보를 제공하여 데이터에 기반한 결정을 내리게 하고 면적당 수익을 최대화하는 것이 옳다고 생각합니다. 이를 위해 우리는 기계 학습 도구 등의 기술에 투자하여 피처라고 하는 측정 가능한 객체를 사용하여 모델을 구축했습니다(예: 재배자 농장의 수확량). Amazon SageMaker Feature Store를 사용하면 중앙 피처 저장소를 통해 ML 모델 개발을 가속화하여 여러 팀이 피처에 쉽게 액세스하고 재사용할 수 있습니다. SageMaker Feature Store는 온라인 스토어를 사용하여 실시간으로 피처에 쉽게 액세스할 수 있게 해주거나 다양한 사용 사례에 대해 오프라인 스토어를 사용하여 일정에 따라 피처를 실행할 수 있게 해줍니다. SageMaker Feature Store를 사용하면 ML 모델을 더 빠르게 개발할 수 있습니다.”

Daniel McCaffrey, Climate의 데이터 및 분석 담당 부사장

Intuit
“우리는 2017년에 AWS에 Intuit의 새로운 기계 학습 플랫폼을 구축하기로 했습니다. Amazon SageMaker의 강력한 모델 개발, 훈련 및 호스팅 기능과 Intuit의 오케스트레이션 및 피처 엔지니어링 기능을 결합하는 것이었습니다. 그 결과, 모델 개발 수명 주기가 획기적으로 단축되었습니다. 6개월이 걸리던 작업이 이제 일주일도 되지 않아, TurboTax, QuickBooks, Mint 제품에 AI 기능을 훨씬 더 빠른 속도로 적용할 수 있게 되었습니다. 우리는 Amazon SageMaker Feature Store 출시를 앞두고 AWS와 긴밀히 협력했으며, 더 이상 조직 전반에서 여러 피처 리포지토리를 유지관리할 필요가 없도록 완전 관리형 피처 저장소를 기대하며 기뻐하고 있습니다. 우리 데이터 사이언티스트는 중앙 저장소의 기존 피처를 사용하고 팀과 모델 전반에서 피처의 표준화와 재사용을 모두 진행할 수 있을 것입니다.”

Mammad Zadeh, Intuit의 엔지니어링, 데이터 플랫폼 담당 부사장

Experian
“Experian에서는 소비자가 금융 생활에서 신용을 이해하고 사용할 수 있도록 역량을 강화하고 대출 기관이 신용 위험을 관리하도록 지원하는 것이 우리 책무라고 생각합니다. 우리는 재무 모델을 구축하기 위한 모범 사례를 계속 구현해 가면서, 기계 학습을 활용하는 제품 프로덕션을 가속화할 솔루션을 찾고 있습니다. Amazon SageMaker Feature Store는 ML 애플리케이션을 위한 피처를 안전하게 저장하고 재사용할 수 있는 방법을 제공합니다. 여러 계정에 걸쳐 실시간 및 일괄 애플리케이션에 대해 일관성을 유지하는 능력은 우리 비즈니스의 핵심 요구 사항입니다. Amazon SageMaker Feature Store의 새로운 기능을 사용하면 고객이 자신의 신용을 관리하고 신경제에서 비용을 절감하도록 역량을 강화해 줄 수 있습니다.”

Geoff Dzhafarov, Experian Consumer Services의 수석 엔터프라이즈 아키텍트

“DeNA에서 우리 임무는 인터넷과 AI/ML을 사용하여 영향력을 발휘하고 즐거움을 제공하는 것입니다. 가치 기반 서비스를 제공하는 것이 우리의 주요 목표이며, 우리 비즈니스와 서비스가 목표 달성의 준비를 갖췄는지 확인하고자 합니다... 우리는 조직 전반에서 피처를 발견하고 재사용하고자 하는데, Amazon SageMaker Feature Store는 서로 다른 애플리케이션에 대해 피처를 재사용할 수 있는 쉽고 효율적인 방법을 제공합니다. 또한 Amazon SageMaker Feature Store는 표준 피처 정의를 유지하도록 도와주고 모델을 훈련하여 프로덕션에 배포할 때 일관된 방법론을 제공합니다. 우리는 Amazon SageMaker의 이러한 새로운 기능을 사용하여 ML 모델을 더 빠르게 훈련하고 배포할 수 있어, 최상의 서비스로 계속 고객을 만족시킬 수 있습니다.”

Kenshin Yamada, DeNA의 AI 시스템 부서 시스템 유닛 총책임자

Care.com
“공급이 수요와 일치하는 탄탄한 의료 산업은 개인의 가정에서 국가 GDP까지의 경제 성장에서 꼭 필요합니다. 우리는 Amazon SageMaker Feature Store에 흥분을 감추지 못하고 있습니다. 큐레이팅된 일관된 데이터 세트를 사용하여 우리 데이터 사이언스 팀과 개발 팀 전체에서 확장성을 높여줄 것으로 생각하기 때문입니다. 우리는 새로 발표된 Amazon SageMaker 기능을 사용하여 다양한 애플리케이션에 대한 ML 모델의 개발 및 배포를 가속화할 수 있어, 고객이 더 빠른 실시간 권장 사항을 통해 더 현명한 결정을 내리도록 도울 수 있습니다.”

Clemens Tummeltshammer, Care.com의 데이터 사이언스 관리자

“ML을 사용하면서, 3M은 사포와 같이 검증된 제품을 개발하고자 노력하고 있으며, 의료 분야를 포함해 기타 여러 분야에서 혁신을 주도하고 있습니다. 기계 학습을 3M의 더 많은 영역으로 확장하려는 계획을 세우면서 데이터와 모델의 양이 매년 2배씩 매우 빠르게 증가한다는 사실을 확인했습니다. 새로운 SageMaker 피처는 확장을 지원해줄 수 있다는 점에서 매우 반가울 소식이 아닐 수 없습니다. Amazon SageMaker Data Wrangler를 사용하면 모델 훈련을 위해 더욱 간편하게 데이터를 준비할 수 있고, Amazon SageMaker Feature Store를 통해 동일한 모델 피처를 반복해서 만들지 않아도 됩니다. 마지막으로, Amazon SageMaker Pipeline은 포괄적인 워크플로 단계로 데이터 준비, 모델 구축 및 모델 배포를 자동화해주므로, 모델의 시장 출시 기간을 단축할 수 있습니다. 저희 3M에서는 이러한 보다 빠른 속도의 과학을 활용할 수 있기를 더욱 기대하고 있습니다."

David Frazee, 3M 기업 시스템 연구소의 기술 책임자

AWS Machine Learning 블로그

Amazon SageMaker Feature Store 및 Apache Spark에서 특정 시점 쿼리를 사용하여 정확한 기계 학습 훈련 데이터 집합 구축

블로그 읽기 »

AWS Machine Learning 블로그

Amazon SageMaker를 사용하여 특성 추출 파이프라인 자동화

블로그 읽기 »

AWS Machine Learning 블로그

Amazon SageMaker Feature Store를 사용하여 계정 및 팀 전반에서 특성 재사용 지원

블로그 읽기 »

AWS Machine Learning 블로그

Amazon SageMaker Feature Store의 주요 기능 이해

블로그 읽기 »

AWS Machine Learning 블로그

Amazon SageMaker Feature Store에서 스트리밍 수집을 사용해 준실시간으로 기계 학습 지원 의사 결정 내리기

블로그 읽기 »

AWS 뉴스 블로그

새로운 기능 – Amazon SageMaker Feature Store를 사용하여 기계 학습 피처를 저장, 검색 및 공유

블로그 읽기 »

Amazon SageMaker Feature Store 시작하기