Amazon EMR abilita funzionalità avanzate di Apache Spark per le tabelle Lake Formation con accesso completo alle tabelle
Amazon EMR ora supporta le operazioni di lettura e scrittura per i processi Apache Spark sulle tabelle registrate in AWS Lake Formation, purché il ruolo del processo disponga di accesso completo alla tabella. Questa funzionalità consente operazioni DML (Data Manipulation Language, linguaggio di manipolazione dati) tra cui le istruzioni CREATE, ALTER, DELETE, UPDATE e MERGE INTO su tabelle Apache Hive e Iceberg all'interno della medesima applicazione Apache Spark.
Nonostante il controllo granulare degli accessi di Lake Formation fornisca controlli di sicurezza dettagliati a livello di riga, colonna e cella, numerosi carichi di lavoro ETL richiedono semplicemente l'accesso completo alle tabelle. Questa nuova funzionalità consente ad Apache Spark di accedere direttamente ai dati in lettura e scrittura quando viene concesso l'accesso completo alla tabella, eliminando le limitazioni del controllo granulare degli accessi che in precedenza impedivano determinate operazioni ETL. Ora è possibile sfruttare le funzionalità avanzate di Spark tra cui RDD, librerie personalizzate, UDF e immagini personalizzate (AMI per EMR su EC2, immagini personalizzate per EMR-serverless) con le tabelle Lake Formation. Inoltre, i team di dati possono eseguire applicazioni Spark complesse e interattive tramite SageMaker Unified Studio in modalità di compatibilità, preservando i limiti di sicurezza a livello di tabella stabiliti da Lake Formation.
Questa funzionalità è disponibile in tutte le regioni AWS in cui sono supportati Amazon EMR e AWS Lake Formation.
Per saperne di più su questa funzionalità, visita la sezione sull'accesso non filtrato di Lake Formation nella documentazione EMR Serverless.