AWS Glue, 전체 테이블 액세스를 통해 AWS Lake Formation 테이블에 대한 Apache Spark 기능 강화
AWS Glue는 이제 AWS Glue 5.0 Apache Spark 작업이 AWS Lake Formation에 등록된 테이블에 대해 읽기 및 쓰기 작업을 수행할 수 있도록 지원합니다. 이 기능은 작업 역할에 전체 테이블 액세스 권한이 부여된 경우에 사용할 수 있습니다. 이 기능을 사용하면 동일한 Apache Spark 애플리케이션 내에서 Apache Hive 및 Iceberg 테이블에 대해 데이터 조작 언어(DML) 작업(예: CREATE, ALTER, DELETE, UPDATE, MERGE INTO 문)을 수행할 수 있습니다.
Lake Formation의 세분화된 액세스 제어(FGAC)는 행, 열, 셀 수준의 세분화된 보안 제어를 제공하지만, 많은 ETL 워크로드는 단순히 전체 테이블 액세스만 필요합니다. 이 새로운 기능을 사용하면 전체 테이블 액세스가 부여될 경우, AWS Glue 5.0 Spark 작업이 데이터를 직접 읽고 쓸 수 있으므로 기존에 특정 추출, 전환, 적재(ETL) 작업을 제한했던 제약 사항들이 사라집니다. 이제 Lake Formation 테이블에서 Spark의 고급 기능인 Resilient Distributed Dataset(RDD), 사용자 지정 라이브러리, 사용자 정의 함수(UDF) 등을 활용할 수 있습니다. 아울러 데이터 팀은 SageMaker Unified Studio의 호환 모드를 통해 복잡한 대화형 Spark 애플리케이션을 실행하면서도 Lake Formation의 테이블 수준 보안 경계를 유지할 수 있습니다.
이 기능은 AWS Glue 및 AWS Lake Formation이 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 AWS Glue 제품 페이지와 설명서에서 확인하세요.