게시된 날짜: Dec 21, 2020
Amazon SageMaker Studio는 기계 학습(ML)을 위한 최초의 완전 통합 개발 환경(IDE)입니다. 한 번의 클릭으로 데이터 사이언티스트와 개발자는 SageMaker Studio 노트북을 빠르게 시작하여 한 눈에 기계 학습 모형을 구축, 훈련 및 배포할 수 있도록 데이터 집합을 탐색하고 준비할 수 있습니다. Amazon EMR은 대량의 데이터를 쉽고 빠르고 경제적으로 처리할 수 있도록 지원하는 웹 서비스입니다. 오늘부터 고객은 Studio 노트북을 사용하여 Amazon EMR 클러스터에 쉽고 안전하게 연결하고 분석 및 보고, 모형 훈련 또는 추론을 위해 방대한 데이터를 준비할 수 있습니다.
데이터 준비는 기계 학습 워크플로에서 중요한 단계입니다. SageMaker Studio를 사용하면 사용자의 기본 설정에 따라 데이터 준비를 위한 다양한 도구에 액세스할 수 있습니다. 시각적 인터페이스를 원하면 Amazon SageMaker Data Wrangler를 사용하여 Amazon S3, Amazon RedShift 또는 Amazon Athena에 연결해 SageMaker Studio에서 데이터에 액세스하고 데이터를 시각화 및 분석할 수 있습니다. 코드 작성을 선호하는 경우 SageMaker Studio 노트북을 사용하여 라이브러리와 SDK를 통해 대화식으로 데이터를 준비하거나 기본 제공 Spark 컨테이너와 함께 Amazon SageMaker Processing을 사용하여 방대한 데이터를 배치 처리할 수 있습니다. 하지만 기존 EMR 클러스터에 Studio 노트북을 연결하여 데이터에 액세스하고 데이터를 처리하고 싶다면 수동으로 환경을 설정하거나 고유한 Sparkmagic 커널을 가져오거나 대상 클러스터 정보를 구성하거나 Spark 작업을 실행하기 전에 인증을 위해 Kerberos와 같은 도구를 설치하거나 Hive 테이블을 쿼리해야 합니다.
이제 Amazon SageMaker Studio에서는 방대한 데이터 처리를 위해 노트북을 EMR 클러스터에 쉽고 안전하며 빠르게 연결할 수 있는 기본 제공 도구를 함께 제공합니다. PySpark 커널을 통해 기본 제공 SageMaker 이미지에서 Studio 노트북을 생성하고 기본 제공 명령을 사용하여 EMR 클러스터에 연결한 후 몇 개의 단계만 거쳐 데이터를 쿼리, 분석 및 처리하기 시작할 수 있습니다. 보안을 강화하기 위해 Kerberos 인증을 사용하여 EMR 클러스터에 연결할 수 있습니다. 이제 이 기능은 Amazon SageMaker Studio를 사용할 수 있는 모든 AWS 리전에서 지원됩니다. 자세한 내용은 Amazon SageMaker Studio 설명서를 참조하세요.