게시된 날짜: Sep 30, 2020
이제 Amazon SageMaker에서 Apache Spark를 사전 구축된 빅 데이터 처리 컨테이너로 지원합니다. 이제 Amazon SageMaker Processing에 이 컨테이너를 사용하고, 데이터 처리 또는 기능 엔지니어링 워크로드에 완전관리형 Spark 환경을 활용할 수 있습니다.
Apache Spark는 대규모 데이터 처리를 위한 통합 분석 엔진입니다. 이제 Amazon SageMaker에서 분산 데이터 처리 작업을 실행하는 데 필요한 Apache Spark 및 기타 종속 구성 요소가 포함된 사전 구축된 Docker 이미지를 제공합니다. Spark 작업을 실행하기 위한 인프라를 관리하고 확장하려면 상당한 작업 부담이 발생합니다. 개발자와 데이터 사이언티스트는 공유 사용을 위한 인프라를 관리하고 인프라의 성능, 규모 및 비용을 튜닝하는 데 상당한 시간을 할애합니다. 데이터 처리 작업을 실행하는 동안만 활용되는 영구 Spark 인프라를 유지할 경우 작업을 실행하지 않을 때에도 비용이 발생하므로 비용 상승의 원인이 됩니다.
Amazon SageMaker Processing과 기본 제공 Spark 컨테이너를 사용하면 데이터 준비를 위한 Spark 처리 작업을 대규모로 손쉽게 실행할 수 있습니다. 고객은 완전관리형 Spark 환경과 Amazon SageMaker의 다양한 보안 및 규정 준수 기능을 갖춘 확장 가능한 온디맨드 인프라의 이점을 누릴 수 있습니다. Spark 구성을 손쉽게 관리하고 분산 처리를 위해 사용자 지정 작업을 제출할 수 있습니다. 작업을 제출하면 Amazon SageMaker가 인프라 프로비저닝, Spark 클러스터 부트스트래핑, 애플리케이션 실행, 완료 시 리소스 해제 등의 작업을 관리합니다.