Publicado: Aug 19, 2021
Hoje, temos o prazer de anunciar o AWS Glue versão 3.0, uma nova versão do AWS Glue Spark para seus trabalhos em lote e streaming que acelera suas workloads de integração de dados na AWS. O AWS Glue 3.0 introduz um tempo de execução do Spark otimizado para performance que inclui otimizações do AWS Glue e do Amazon EMR e é baseado no Apache Spark 3.1.1 de código aberto. O tempo de execução do AWS Glue 3.0 otimiza o acesso de leitura e gravação ao Amazon Simple Storage Service (Amazon S3), usando leitores vetorizados mais rápidos e confirmadores de saída otimizados para o Amazon S3. Ele também otimiza o acesso ao Catálogo de dados do AWS Glue com o uso de predicados de partição. Para conjuntos de dados altamente particionados, o Glue 3.0 melhora a velocidade de execução, removendo partições desnecessárias com o uso de índices de partição. O tempo de execução do AWS Glue 3.0 também é totalmente integrado ao AWS Lake Formation, para que você possa proteger o acesso aos dados em diferentes granularidades, como controle de acesso em nível de banco de dados, tabela, coluna, linha e célula usando nomes de recursos e controle de acesso baseado em etiquetas do AWS Lake Formation. Com o AWS Glue 3.0, também trazemos novos recursos para melhorar a experiência do usuário de monitoramento, depuração e ajuste de aplicações Spark. O Spark 3.1.1 permite uma experiência aprimorada de interface do usuário do Spark que inclui novas métricas de memória do executor do Spark e métricas de streaming estruturado do Spark que são úteis para trabalhos de streaming do AWS Glue. Semelhante ao AWS Glue 2.0, o AWS Glue 3.0 reduz a latência de inicialização e melhora os tempos gerais de conclusão de trabalhos.
O AWS Glue 3.0 está disponível em todas as regiões da AWS em que o AWS Glue está disponível. Para saber mais sobre esse recurso, visite o blog e o Guia do usuário do AWS Glue.