Publicado: Oct 27, 2022
Os usuários do Hive executam o comando de verificação de metastore com a opção de reparo de tabelas (MSCK REPAIR TABLE) para atualizar os metadados de partições do metastore do Hive que foram adicionadas ou removidas diretamente do sistema de arquivos (S3 ou HDFS). Quando executado, o comando MSCK REPAIR precisa fazer uma chamada ao sistema de arquivos para verificar a existência de cada partição. Essa etapa pode ser bem demorada quando a tabela tem milhares de partições. No EMR 6.5, introduzimos uma otimização do comando MSCK REPAIR no Hive para reduzir o número de chamadas ao sistema de arquivos do S3 durante o acesso às partições. Esse recurso aumenta a performance do comando MSCK (aproximadamente 15 a 20 vezes com mais de 10 mil partições), reduzindo o número de chamadas ao sistema de arquivos, particularmente em tabelas com um grande número de partições. Antes, era necessário ativar esse recurso explicitamente com a configuração de um sinalizador. A partir do Amazon EMR 6.8, reduzimos ainda mais o número de chamadas ao sistema de arquivos do S3 para acelerar a execução do comando MSCK REPAIR e esse recurso passou a ser ativado por padrão.
Além da otimização comando MSCK REPAIR TABLE, também gostaríamos de divulgar que os usuários do Amazon EMR Hive já podem usar a criptografia modular do Parquet para criptografar e autenticar informações confidenciais em arquivos do Parquet. Proteger a privacidade e integridade de dados em grande escala sem afetar a funcionalidade do Parquet é uma tarefa desafiadora. As soluções atuais de proteção de dados (por exemplo, criptografia de arquivos ou da camada de armazenamento) usadas para criptografar arquivos do Parquet podem degradar a performance. Com a criptografia modular do Parquet, além de ativar um controle de acesso detalhado, você também pode preservar otimizações do Parquet, como projeção colunar, propagação de predicados, codificação e compressão. Os usuários do Amazon EMR Hive podem usar a criptografia modular do Parquet para proteger dados e metadados do Parquet, usar chaves de criptografia diferentes para colunas distintas e executar criptografia parcial, limitada às colunas confidenciais. Os clientes também podem verificar a integridade dos dados recuperados sem afetar nenhuma otimização do Parquet. Esse recurso está disponível no Amazon EMR a partir da versão 6.6.
Os recursos podem ser usados em todas as regiões em que o Amazon EMR está disponível nas duas versões de implantação: EMR no EC2 ou EMR Sem Servidor. Para saber mais sobre os recursos, consulte a documentação.