게시된 날짜: Sep 30, 2020

이제 Amazon SageMaker에서 Apache Spark를 사전 구축된 빅 데이터 처리 컨테이너로 지원합니다. 이제 Amazon SageMaker Processing에 이 컨테이너를 사용하고, 데이터 처리 또는 기능 엔지니어링 워크로드에 완전관리형 Spark 환경을 활용할 수 있습니다.

Apache Spark는 대규모 데이터 처리를 위한 통합 분석 엔진입니다. 이제 Amazon SageMaker에서 분산 데이터 처리 작업을 실행하는 데 필요한 Apache Spark 및 기타 종속 구성 요소가 포함된 사전 구축된 Docker 이미지를 제공합니다. Spark 작업을 실행하기 위한 인프라를 관리하고 확장하려면 상당한 작업 부담이 발생합니다. 개발자와 데이터 사이언티스트는 공유 사용을 위한 인프라를 관리하고 인프라의 성능, 규모 및 비용을 튜닝하는 데 상당한 시간을 할애합니다. 데이터 처리 작업을 실행하는 동안만 활용되는 영구 Spark 인프라를 유지할 경우 작업을 실행하지 않을 때에도 비용이 발생하므로 비용 상승의 원인이 됩니다.

Amazon SageMaker Processing과 기본 제공 Spark 컨테이너를 사용하면 데이터 준비를 위한 Spark 처리 작업을 대규모로 손쉽게 실행할 수 있습니다. 고객은 완전관리형 Spark 환경과 Amazon SageMaker의 다양한 보안 및 규정 준수 기능을 갖춘 확장 가능한 온디맨드 인프라의 이점을 누릴 수 있습니다. Spark 구성을 손쉽게 관리하고 분산 처리를 위해 사용자 지정 작업을 제출할 수 있습니다. 작업을 제출하면 Amazon SageMaker가 인프라 프로비저닝, Spark 클러스터 부트스트래핑, 애플리케이션 실행, 완료 시 리소스 해제 등의 작업을 관리합니다.

Amazon SageMaker Processing은 현재 아메리카 및 유럽의 모든 AWS 리전과 아시아 태평양의 일부 리전에서 정식 버전으로 제공되며 곧 다른 리전도 추가될 예정입니다. 특정 리전에 대한 자세한 정보는 여기에서 확인할 수 있습니다. 자세한 내용과 샘플 노트북은 설명서를 참조하십시오. 이 기능의 사용 방법은 블로그 게시물을 참조하십시오.