Amazon EMR ช่วยเพิ่มขีดความสามารถของ Apache Spark สำหรับตาราง Lake Formation ด้วยสิทธิ์การเข้าถึงตารางแบบเต็มรูปแบบ

โพสต์บน: 29 พ.ค. 2025

Amazon EMR รองรับการดำเนินการอ่านและเขียนจากงาน Apache Spark บนตารางที่ลงทะเบียนใน AWS Lake Formation แล้ว เมื่อบทบาทของงานนั้นมีสิทธิ์การเข้าถึงตารางได้เต็มรูปแบบ ความสามารถนี้ช่วยให้สามารถดำเนินการ Data Manipulation Language (DML) ซึ่งรวมถึงคำสั่ง CREATE, ALTER, DELETE, UPDATE, และ MERGE INTO บนตาราง Apache Hive และ Iceberg ได้จากแอปพลิเคชัน Apache Spark เดียวกัน

แม้ว่าการควบคุมสิทธิ์การเข้าถึงแบบละเอียด (FGAC) ของ Lake Formation มีการควบคุมความปลอดภัยแบบละเอียดในระดับแถว คอลัมน์ และเซลล์ แต่เวิร์กโหลด ETL จำนวนมากต้องการเพียงแค่สิทธิ์การเข้าถึงตารางแบบเต็มรูปแบบเท่านั้น ฟีเจอร์ใหม่นี้ช่วยให้ Apache Spark สามารถอ่านและเขียนข้อมูลได้โดยตรงเมื่อได้รับสิทธิ์การเข้าถึงตารางแบบเต็มรูปแบบ ซึ่งช่วยขจัดข้อจำกัดของ FGAC ที่เคยจำกัดการดำเนินการ ETL บางรายการก่อนหน้านี้ ขณะนี้ คุณสามารถใช้ประโยชน์จากความสามารถ Spark ขั้นสูง ได้แล้ว ซึ่งรวมถึง RDD, ไลบรารีที่กำหนดเอง, UDFs และอิมเมจแบบกำหนดเอง (AMI สำหรับ EMR on EC2, อิมเมจแบบกำหนดเองสำหรับ EMR-Serverless) กับตาราง Lake Formation นอกจากนี้ ทีมฝ่ายข้อมูลยังสามารถรันแอปพลิเคชัน Spark ที่ซับซ้อนและโต้ตอบได้ผ่าน SageMaker Unified Studio ในโหมดความเข้ากันได้ ในขณะที่ยังคงรักษาขอบเขตความปลอดภัยระดับตารางของ Lake Formation ไว้ได้

ฟีเจอร์นี้มีให้ใช้งานใน AWS Region ทุกแห่งที่รองรับ Amazon EMR และ AWS Lake Formation

โปรดไปที่ส่วนสิทธิ์การเข้าถึงแบบไม่ผ่านการกรองของ Lake Formation ในเอกสารประกอบของ EMR Serverless เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับฟีเจอร์นี้