Amazon EMR, Lake Formation 테이블에 대한 전체 테이블 액세스로 Apache Spark 기능 강화
Amazon EMR은 이제 AWS Lake Formation에 등록된 테이블에서 Apache Spark 작업이 읽기 및 쓰기 작업을 수행할 수 있도록 지원합니다. 이 기능은 작업 역할에 전체 테이블 액세스 권한이 부여된 경우에 사용할 수 있습니다. 이 기능을 사용하면 동일한 Apache Spark 애플리케이션 내에서 Apache Hive 및 Iceberg 테이블에 대해 데이터 조작 언어(DML) 작업(예: CREATE, ALTER, DELETE, UPDATE, MERGE INTO 문)을 수행할 수 있습니다.
Lake Formation의 세분화된 액세스 제어(FGAC)는 행, 열, 셀 수준의 세분화된 보안 제어를 제공하지만, 많은 ETL 워크로드는 단순히 전체 테이블 액세스만 필요합니다. 이 새로운 기능을 사용하면 전체 테이블 액세스가 부여된 경우, Apache Spark가 데이터를 직접 읽고 쓸 수 있으므로 기존에 특정 ETL 작업을 제한했던 FGAC 제약이 사라집니다. Lake Formation 테이블과 함께 RDD, 사용자 지정 라이브러리, UDF, 사용자 지정 이미지(EMR on EC2용 AMI, EMR Serverless용 사용자 지정 이미지) 등의 고급 Spark 기능을 활용할 수 있습니다. 아울러 데이터 팀은 SageMaker Unified Studio의 호환 모드를 통해 복잡한 대화형 Spark 애플리케이션을 실행하면서도 Lake Formation의 테이블 수준 보안 경계를 유지할 수 있습니다.
이 기능은 Amazon EMR 및 AWS Lake Formation이 지원되는 모든 AWS 리전에서 제공됩니다.
이 기능의 세부 사항은 EMR Serverless 설명서의 Lake Formation 필터링되지 않은 액세스 섹션을 참조하세요.