Publicado: May 1, 2024
O Amazon EMR Sem Servidor é uma opção de tecnologia sem servidor do Amazon EMR que simplifica a execução de estruturas de análises de big data de código aberto por engenheiros e cientistas de dados, sem necessidade de configurar, gerenciar e escalar clusters ou servidores. Uma aplicação do EMR Sem Servidor usa operadores para executar workloads, permitindo que os usuários configurem o armazenamento temporário por operador de acordo com as necessidades das workloads. Hoje, temos o prazer de apresentar discos otimizados para shuffle no Amazon EMR Sem Servidor, que oferecem maior capacidade de armazenamento (até 2 TB) e mais IOPS, proporcionando maior performance para workloads do Spark e Hive com uso intensivo de E/S.
O shuffle (redistribuição/reorganização) é uma etapa fundamental em um trabalho do Apache Spark ou do Apache Hive, envolvendo operações com uso intensivo de E/S que redistribuem ou reorganizam dados para cálculos paralelos durante operações como uniões, agregações ou transformações. Workloads complexas com grandes conjuntos de dados que precisam de shuffle exigem capacidade de disco e performance de E/S suficientes para o processamento otimizado de shuffles. Os discos otimizados para shuffle oferecem até 2 TB de capacidade de armazenamento e mais IOPS de linha de base, permitindo que você execute com eficiência workloads de Spark e Hive com uso intensivo de shuffles e E/S.
Os discos otimizados para shuffle estão disponíveis nas versões 7.1.0 do EMR em todas as regiões da AWS que oferecem o EMR Sem Servidor, exceto as regiões AWS GovCloud (EUA) e China. Para obter mais informações sobre discos otimizados para shuffle, acesse o Guia do usuário do EMR Sem Servidor. Para obter informações sobre preços de discos otimizados para shuffle, acesse a página de preços do EMR Sem Servidor.