게시된 날짜: Jan 8, 2021
Amazon EMR은 이제 Apache Ranger와 기본적으로 통합되므로 세분화된 데이터 액세스 제어를 정의, 적용 및 감사할 수 있습니다. 이 기능을 사용하면 Amazon CloudWatch를 활용하여 감사 로그를 캡처함으로써 1) Apache Spark 및 Apache Hive 사용자가 Hive Metastore를 통해 데이터를 액세스할 수 있도록 데이터베이스, 테이블 및 열 수준 승인 정책을 정의 및 적용하고 2) Amazon EMR 파일 시스템(EMRFS)을 통해 Amazon S3의 데이터에 액세스할 때 접두사 및 객체 수준 승인 정책을 정의 및 적용할 수 있습니다.
Apache Ranger는 Hadoop 플랫폼 전체에 걸쳐 포괄적인 데이터 보안을 활성화, 모니터링 및 관리하는 오픈 소스 도구입니다. 이전에는 이 블로그 게시물처럼 Apache Ranger를 사용하여 Apache Hive를 사용하는 HDFS의 데이터에 세밀한 승인을 적용할 수 있었습니다. 이제 이 기본 통합은 추가적인 기능을 제공합니다. Apache Ranger 정책 관리 서버에서는 세 가지 유형의 승인 정책을 정의할 수 있습니다. Apache Hive에 대해 테이블, 열 및 행 수준 승인을, Apache Spark에 대해 테이블 및 열 수준 승인을 그리고 Amazon S3에 대해 접두사 및 객체 수준 승인을 설정할 수 있습니다. Amazon EMR은 클러스터에 해당 Apache Ranger 플러그인을 자동으로 설치 및 구성합니다. 이러한 Ranger 플러그인은 승인 정책을 위해 정책 관리 서버와 동기화되고, 데이터 액세스 제어를 적용하고 감사 이벤트를 Amazon CloudWatch Logs로 전송합니다.
Amazon EMR에서 Apache Ranger 통합을 활성화하기 전에 알아두어야 할 몇 가지 고려 사항 및 제한은 다음과 같습니다. 1/ 행 수준 승인 및 데이터 마스킹 정책은 현재 Apache Hive에서만 지원됩니다. 2/ EMR Ranger-Spark 플러그인은 Java, Scala, R 및 Pyspark에 Spartk API를 사용하여 데이터를 읽고 쓸 때 세밀한 승인을 적용합니다. 그러나 Ranger가 활성화된 클러스터에 Spartk SQL을 사용하여 데이터를 작성하는 것은 현재 지원되지 않습니다. SparkSQL을 사용한 데이터 읽기만 지원됩니다. 3/ 이 네이티브 통합은 Apache Zeppelin 및 Hue와 같은 일부 애플리케이션을 지원합니다. 지원되는 애플리케이션의 전체 목록은 지원되는 애플리케이션을 참조하세요.
Apache Ranger와의 Amazon EMR 네이티브 통합은 미국 동부(버지니아 북부 및 오하이오), 미국 서부(캘리포니아 북부 및 오레곤), 유럽(프랑크푸르트, 아일랜드, 런던, 파리, 밀란 및 스톡홀름), 캐나다(중부), 아시아 태평양(뭄바이, 서울, 싱가포르, 홍콩, 도쿄 및 시드니), 남미(상파울루), 중동(바레인) 및 아프리카(케이프타운) AWS 리전에서 사용할 수 있습니다.
시작하려면 다음 리소스 목록을 참조하세요.
• Amazon EMR 관리 안내서: Apache Ranger와의 Amazon EMR 통합
• AWS Big Data 블로그 게시물: Apache Ranger와의 Amazon EMR 통합 소개