Amazon EMR hỗ trợ tính năng nâng cao của Apache Spark cho bảng Lake Formation với quyền truy cập toàn bộ bảng

Ngày đăng: 29 Th05 2025

Amazon EMR hiện hỗ trợ các thao tác đọc và ghi từ công việc Apache Spark trên các bảng đã đăng ký của AWS Lake Formation khi vai trò công việc có quyền truy cập toàn bộ bảng. Tính năng này hỗ trợ thực hiện các hoạt động bằng Ngôn ngữ thao tác dữ liệu (DML) bao gồm các lệnh CREATE, ALTER, DELETE, UPDATE và MERGE INTO trên bảng Apache Hive và Iceberg trong cùng ứng dụng Apache Spark.

Kiểm soát truy cập chi tiết (FGAC) của Lake Formation cung cấp các biện pháp kiểm soát bảo mật chi tiết ở cấp độ hàng, cột và ô; tuy nhiên có nhiều khối lượng công việc ETL chỉ cần quyền truy cập toàn bộ bảng. Tính năng mới này cho phép Apache Spark trực tiếp đọc và ghi dữ liệu khi đã được cấp quyền truy cập toàn bộ bảng, giúp lại bỏ các hạn chế của FGAC từng giới hạn một vài thao tác ETL. Giờ đây, bạn có thể tận dụng các tính năng nâng cao của Spark, bao gồm RDD, thư viện tùy chỉnh, UDF và hình ảnh tùy chỉnh (AMI cho EMR trên EC2, hình ảnh tùy chỉnh cho EMR phi máy chủ) với bảng Lake Formation. Ngoài ra, các nhóm làm việc với dữ liệu có thể chạy ứng dụng Spark tương tác phức tạp thông qua Studio hợp nhất của SageMaker ở chế độ tương thích, đồng thời duy trì ranh giới bảo mật cấp độ bảng của Lake Formation.

Tính năng này được cung cấp ở tất cả các Khu vực AWS hỗ trợ Amazon EMR và AWS Lake Formation.

Để tìm hiểu thêm về tính năng này, hãy tham khảo phần quyền truy cập không dùng bộ lọc của Lake Formation trong tài liệu EMR phi máy chủ.