게시된 날짜: Apr 20, 2021
오늘 AWS는 데이터 사이언티스트와 데이터 엔지니어가 R, Python, Scala 및 PySpark로 작성된 빅 데이터 및 분석 애플리케이션을 손쉽게 개발, 시각화 및 디버깅할 수 있는 통합 개발 환경(IDE)인 EMR Studio의 정식 출시를 발표했습니다. EMR Studio는 완전 관리형 Jupyter 노트북과 Spark UI 및 YARN Timeline Service 같은 도구를 제공하여 디버깅을 간소화합니다. EMR Studio는 AWS Single Sign-On을 사용하므로 AWS 콘솔에 로그인하지 않고 회사 자격 증명으로 직접 로그인할 수 있습니다.
EMR Studio를 사용하면 관리자가 EMR 콘솔에서 EMR Studio를 생성 및 구성하거나, CloudFormation 템플릿의 구성 및 종속성을 지정하여 Studio 생성을 자동화할 수 있습니다. AWS SSO 콘솔을 사용하여 AWS SSO를 활성화하고, Okta, Azure AD, OneLogin, Ping Identity, Microsoft AD 등 지원되는 자격 증명 공급자 중 하나를 선택하고, EMR 콘솔을 사용하여 사용자 및 그룹을 EMR Studio에 할당할 수 있습니다.
EMR Studio는 데이터 사이언스 애플리케이션 개발을 빠르게 시작할 수 있도록 Hive 메타스토어를 쿼리하는 PySpark 코드, 시각화를 위한 Python 코드 등의 노트북 예제를 제공합니다. 퍼블릭 액세스 포인트에 관계없이 노트북을 GitHub, Bitbucket, GitLab 및 AWS CodeCommit 리포지토리에 연결할 수 있습니다. 기존 EMR 클러스터에서 애플리케이션을 실행하거나 사전 정의된 CloudFormation 템플릿을 사용하여 새 클러스터를 생성하고 EMR Studio에서 사용자 지정 파라미터를 전달할 수 있습니다. 라이브 Spark UI를 노트북에서 직접 실행하여 로그에 액세스하고 애플리케이션을 디버깅할 수 있습니다.
EMR Studio는 미국 동부(오하이오, 버지니아 북부), 미국 서부(오레곤), EU(아일랜드, 프랑크푸르트, 런던), 아시아 태평양(뭄바이, 서울, 싱가포르, 시드니, 도쿄) 리전에서 EMR 릴리스 버전 5.32 및 6.2 이상에 정식으로 사용할 수 있습니다.
EMR Studio 사용을 시작하려면 Amazon EMR Studio 설명서를 참조하세요.