데이터 준비란 무엇인가요?
ML과 데이터 준비는 어떤 관련이 있나요?
ML에서 데이터 준비가 중요한 이유는 무엇인가요?
데이터는 ML의 원동력입니다. 이 데이터를 활용하여 비즈니스를 탈바꿈하는 것은 어려운 일이지만 현재와 미래에 두각을 나타내는 데 필수적입니다. 가장 많은 정보를 받아들이고 그 정보를 가장 합리적이고 유익한 결정을 내리는 데 사용하고 예기치 않은 상황에 더 빨리 대응하며 새로운 기회를 찾아내는 자들이 성공하게 마련입니다. 이 중요하지만 지루한 프로세스는 정확한 ML 모델 및 분석을 구축하기 위한 전제 조건이며, ML 프로젝트에서 가장 시간이 많이 소요되는 부분입니다. 이 시간 투자를 최소화하기 위해 데이터 사이언티스트는 데이터 준비를 자동화할 수 있는 도구를 다양한 방식으로 사용할 수 있습니다.
어떻게 데이터를 준비하나요?
데이터 준비는 올바른 데이터 수집으로 시작하여 정리, 레이블 지정, 유효성 검사 및 시각화로 이어지는 일련의 단계를 따릅니다.
데이터 수집
데이터 정리
데이터 레이블 지정
검증 및 시각화
AWS에서는 어떤 도움을 줄 수 있나요?
Amazon SageMaker 데이터 준비 도구는 조직이 정형 및 비정형 데이터 모두에서 인사이트를 얻는 데 도움이 됩니다. 예를 들어 Amazon SageMaker Data Wrangler를 사용하면 코드가 없는 시각적 인터페이스를 통해 내장된 데이터 시각화로 정형 데이터 준비를 간소화할 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 피처를 정규화하고 변환하며 결합할 수 있습니다. 원하는 경우 Python 또는 Apache Spark에서 사용자 지정 변환을 가져올 수도 있습니다. 비정형 데이터의 경우 레이블 지정된 대규모 고품질 데이터 세트가 필요합니다. Amazon SageMaker Ground Truth Plus를 사용하면, 레이블링 애플리케이션을 구축하거나 레이블링 인력을 직접 관리할 필요 없이 데이터 레이블링 비용을 최대 40%까지 절감하면서 고품질 ML 훈련 데이터 세트를 구축할 수 있습니다.
노트북에서 데이터를 준비하고자 하는 분석가 또는 비즈니스 사용자의 경우, Amazon SageMaker Studio 노트북에서 클릭 몇 번으로 Amazon EMR에서 실행되는 Spark 데이터 처리 환경을 시각적으로 찾아보고 검색하고 해당 환경에 연결할 수 있습니다. 연결된 후에는 대화형으로 데이터를 쿼리, 탐색 및 시각화하고 선택한 언어(SQL, Python 또는 Scala)로 Spark 작업을 실행하여 완벽한 데이터 준비 및 기계 학습 워크플로를 구축할 수 있습니다.