Publicado en: Oct 27, 2022

Los usuarios de Hive ejecutan el comando de comprobación de metaalmacén con la opción de tabla de reparación (tabla MSCK REPAIR) para actualizar los metadatos de la partición en el metaalmacén de Hive para las particiones que se agregaron o eliminaron directamente del sistema de archivos (S3 o HDFS). Cuando se ejecuta, el comando de reparación de MSCK debe realizar una llamada al sistema de archivos para verificar si existe la partición para cada partición. Este paso podría llevar mucho tiempo si la tabla tiene miles de particiones. En EMR 6.5, introdujimos una optimización en el comando de reparación de MSCK en Hive para reducir la cantidad de llamadas al sistema de archivos de S3 al buscar particiones. Esta característica mejora el rendimiento del comando MSCK (apróx. de 15 a 20 a veces en más de 10 000 particiones) debido a la reducción del número de llamadas al sistema de archivos, especialmente cuando se trabaja en tablas con una gran cantidad de particiones. Anteriormente, tenía que habilitar esta función configurando explícitamente un marcador. A partir de la versión 6.8 de Amazon EMR, redujimos aún más la cantidad de llamadas al sistema de archivos de S3 para que la reparación de MSCK se ejecutara más rápido y habilitamos esta función de manera predeterminada.

Además de la optimización de la tabla de reparación de MSCK, también nos gustaría compartir que los usuarios de Amazon EMR Hive ahora pueden usar el cifrado modular de Parquet para cifrar y autenticar información confidencial en archivos de Parquet. Proteger la privacidad y la integridad de los datos confidenciales a escala mientras se mantiene intacta la funcionalidad de Parquet es una tarea desafiante. Las soluciones de protección de datos, como el cifrado de archivos o la capa de almacenamiento, se utilizan actualmente para cifrar archivos de Parquet; sin embargo, podrían provocar un deterioro del rendimiento. Con el cifrado modular de Parquet, no solo puede habilitar el control de acceso granular, sino también preservar las optimizaciones de Parquet, como la proyección en columnas, la inserción de predicados, la codificación y la compresión. Con el cifrado modular de Parquet, los usuarios de Amazon EMR Hive pueden proteger tanto los datos como los metadatos de Parquet, usar diferentes claves de cifrado para diferentes columnas y realizar un cifrado parcial solo de las columnas confidenciales. También permite que los clientes comprueben la integridad de los datos recuperados manteniendo todas las optimizaciones de Parquet. Esta función está disponible a partir de la versión 6.6 de Amazon EMR.

Puede usar estas capacidades en todas las regiones donde Amazon EMR está disponible y con ambas opciones de implementación: EMR en EC2 y EMR sin servidor. Para obtener más información sobre estas funciones, consulte nuestra documentación.