게시된 날짜: Dec 9, 2020
오늘 당사가 발표하는 통합 개발 환경(IDE)인 EMR Studio의 공개 평가판은 데이터 사이언티스트 및 데이터 엔지니어들이 R, Python, Scala, PySpark로 작성한 데이터 엔지니어링 및 데이터 사이언스 애플리케이션을 쉽게 개발, 시각화 및 디버깅할 수 있게 합니다. EMR Studio는 완전 관리형 Jupyter 노트북과 Spark UI 및 YARN Timeline Service와 같은 도구를 제공하여 디버깅을 간소화했습니다.
EMR Studio는 AWS SSO를 사용하기 때문에 AWS 콘솔에 로그인하지 않고 회사 자격 증명으로 직접 로그인할 수 있습니다. 데이터 사이언티스트와 분석가들은 사용자 지정 커널 및 라이브러리를 설치하고, GitHub 및 BitBucket과 같은 코드 리포지토리를 사용하여 동료와 협업하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 서비스를 사용하여 파라미터 노트북을 예약된 워크플로의 일부로 실행할 수 있습니다.
EMR Studio 커널 및 애플리케이션은 EMR 클러스터에서 실행되므로 성능을 최적화한 Amazon EMR Runtime for Apache Spark를 사용하는 분산 데이터 처리의 이점을 누릴 수 있습니다. 관리자가 EMR Studio를 설정함으로써 분석가는 기존 EMR 클러스터에서 애플리케이션을 실행하거나 EMR용으로 사전 정의된 AWS CloudFormation 템플릿을 사용하여 새 클러스터를 생성할 수 있습니다. EMR Studio에서는 중앙 위치에서 모든 EMR 클러스터를 검색하고 필터를 사용하여 클러스터 ID, 클러스터 상태 및 기타 파라미터를 기준으로 범위를 압축할 수 있습니다. 활성 및 종료된 클러스터의 작업에서 실행 컨텍스트를 오버레이하는 Spark History Server, YARN Timeline Server 또는 Tez UI에 클릭 한 번으로 액세스할 수 있습니다.
EMR Studio는 미국 동부(버지니아 북부), 미국 서부(오레곤) 및 EU(아일랜드) 리전의 EMR 릴리스 버전 6.2 이상에서 공개 평가판으로 제공됩니다.
EMR Studio 공개 평가판을 시작하려면 제품 세부 정보 페이지를 참조하세요.