게시된 날짜: Dec 5, 2022
Amazon SageMaker Studio는 기계 학습을 위한 완전 통합 개발 환경(IDE)입니다. Studio의 Amazon EMR과 기본 제공 통합 기능을 통해 데이터 사이언티스트는 Studio 노트북에서 바로 Apache Spark 같은 프레임워크를 사용하여 페타바이트 규모의 데이터를 대화식으로 준비할 수 있습니다. 이제 SageMaker Studio는 Amazon EMR을 통해 데이터에 액세스하는 경우 AWS Lake Formation으로 세분화된 데이터 액세스 제어 적용을 지원하게 되었음을 알려 드립니다.
지금까지 EMR 클러스터에서 실행하는 모든 작업은 동일한 IAM 역할인 클러스터의 EC2 인스턴스 프로파일을 사용하여 데이터에 액세스했습니다. 따라서 다른 데이터 원본(예: 다른 S3 버킷)에 대한 액세스가 필요한 작업을 실행하려면 이러한 모든 데이터 원본 집합에 대한 액세스를 허용하는 정책으로 EC2 인스턴스 프로파일을 구성해야 했습니다. 또한 데이터에 대한 차등 액세스를 사용하는 사용자 그룹을 활성화하려면 각 그룹당 하나의 별도 클러스터를 만들어야 했기 때문에 운영 오버헤드가 발생했습니다. 별도로 Studio 노트북에서 EMR에 제출된 작업은 AWS LakeFormation으로 세분화된 데이터 액세스 제어를 적용할 수 없었습니다.
오늘부터 SageMaker Studio 노트북의 EMR 클러스터에 연결하는 경우 연결하려는 IAM 역할(런타임 IAM 역할이라고 함)을 선택할 수 있습니다. Studio 노트북에서 생성되는 Apache Spark, Hive 또는 Presto 작업의 경우 런타임 역할에 연결된 정책에서 허용하는 데이터 및 리소스에만 액세스합니다. 또한 AWS LakeFormation으로 관리되는 데이터 레이크에서 데이터에 액세스할 경우 런타임 역할에 연결된 정책을 사용하여 테이블 및 열 수준 액세스를 적용할 수 있습니다. 이 새로운 기능을 사용하면 여러 SageMaker Studio 사용자가 동일한 EMR 클러스터에 연결할 수 있는데, 이때 각각의 사용자는 사용자 지정 데이터 액세스 권한으로 범위가 지정된 런타임 역할을 사용합니다. 사용자 세션은 공유 클러스터에서 서로 완전히 격리됩니다. 이 기능을 통해 고객은 EMR 클러스터의 프로비저닝을 간소화할 수 있으므로 운영 오버헤드가 감소하고 비용이 절감됩니다.
이 기능은 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(파리) 등의 AWS 리전에서 Amazon EMR 6.9에 연결하는 경우 SageMaker Studio에서 정식 버전으로 사용할 수 있습니다. 자세히 알아보려면 이 블로그를 참조하세요.