Pular para o conteúdo principal

Amazon EMR

Atributos do Amazon EMR

Fácil de usar

Abrir tudo

O Amazon EMR simplifica a criação e operação de ambientes de big data e aplicações. Os atributos do EMR incluem fácil provisionamento, escalabilidade gerenciada e reconfiguração de clusters, além do EMR Studio para desenvolvimento colaborativo.

É possível iniciar um cluster EMR em apenas alguns minutos. Você não precisa se preocupar com o provisionamento de infraestrutura, a configuração ou os ajustes de cluster. O EMR cuida dessas tarefas para que você concentre sua equipe no desenvolvimento de aplicações diferenciadas de big data.

Defina o aumento e a redução da escala horizontal facilmente usando as políticas de escalabilidade gerenciada do EMR e deixe que o cluster do EMR gerencie automaticamente os recursos computacionais para atender às suas necessidades de uso e desempenho. Isso melhora a utilização do cluster e reduz custos.

É um ambiente de desenvolvimento integrado (IDE) que torna fácil para os cientistas e engenheiros de dados desenvolverem, visualizarem e depurarem aplicações de engenharia de dados e ciência de dados desenvolvidas em R, Python, Scala e PySpark. O EMR Studio oferece cadernos Jupyter totalmente gerenciados e ferramentas como Spark UI e YARN Timeline Service para simplificar a depuração.

Configure facilmente a alta disponibilidade para aplicações com múltiplos nós mestres, como o YARN, o HDFS, o Apache Spark, o Apache HBase e o Apache Hive com um único clique. Ao permitir o suporte a múltiplos nós mestres no EMR, ele configurará essas aplicações para alta disponibilidade e, no caso de falhas, fará failover automaticamente em um nó mestre em espera para que o cluster não seja interrompido, e colocará os nós mestres em racks distintas para reduzir o risco de falhas simultâneas. Os hosts são monitorados para detectar falhas e, quando problemas são detectados, novos hosts são provisionados e adicionados ao cluster automaticamente.

Redefine automaticamente o tamanho do cluster para melhor desempenho com o menor custo possível. Com a escalabilidade gerenciada do EMR, você especifica os limites mínimo e máximo de cálculo para os clusters e o Amazon EMR automaticamente os adapta para melhor desempenho e utilização de recursos. A escalabilidade gerenciada do EMR experimenta continuamente as principais métricas associadas às workloads em execução nos clusters.

Agora você pode modificar a configuração de aplicações executadas em clusters do EMR, incluindo Apache Hadoop, Apache Spark, Apache Hive e Hue, sem reiniciar o cluster. A reconfiguração de aplicações do EMR permite modificar aplicações em execução, sem necessidade de desativar ou recriar o cluster. O Amazon EMR aplica as novas configurações e reinicia o aplicativo reconfigurado de forma controlada. As configurações podem ser aplicadas usando o console, o SDK ou a CLI.

Elástico

Abrir tudo

O Amazon EMR permite que você provisione de modo rápido e fácil a capacidade necessária, além de adicionar e remover capacidade de forma automática ou manual. Isso é muito útil se você tiver requisitos de processamento variáveis e imprevisíveis. Por exemplo, se o maior volume de processamento ocorrer à noite, talvez você precise de 100 instâncias durante o dia e 500 instâncias à noite. Mas, por outro lado, você pode precisar de uma quantidade significativa de capacidade por um período curto de tempo. Com o Amazon EMR, você pode provisionar rapidamente centenas ou milhares de instâncias, escalar automaticamente para atender a requisitos de computação e encerrar o cluster quando o trabalho for concluído (para evitar pagar por capacidade ociosa).

Se você precisar de mais capacidade, poderá executar rapidamente um cluster e encerrá-lo quando não precisar mais. Não há limite para quantos clusters você pode ter. Você pode querer usar vários clusters se tiver vários usuários e aplicativos. Por exemplo, você pode armazenar seus dados de entrada no Amazon S3 e executar um cluster para cada aplicativo que precisa para processar dados. Um cluster pode ser otimizado para CPU, um segundo cluster pode ser otimizado para armazenamento, etc.

Com o Amazon EMR, é fácil usar o Ajuste de Escala Gerenciado do EMRescalar automaticamente ou redefinir manualmente um cluster em execução. Aumente a escala horizontalmente de um cluster para aumentar temporariamente seu poder de processamento ou reduza essa escala horizontalmente para reduzir custos quando a capacidade estiver ociosa. Por exemplo, alguns clientes adicionam centenas de instâncias aos seus clusters quando ocorre seu processamento em lote, e removem as instâncias extras quando o processamento termina. Agora, ao adicionar instâncias ao cluster, o EMR poderá começar a utilizar capacidade provisionada assim que estiver disponível. Ao reduzir a escala, o EMR escolherá proativamente nós ociosos para reduzir o impacto sobre os trabalhos em execução.

Baixo custo

Abrir tudo

O Amazon EMR foi desenvolvido para reduzir o custo do processamento de grandes volumes de dados. Alguns atributos que mantêm o custo reduzido incluem baixo preço por segundo, integração com instâncias spot do Amazon EC2, integração com as instâncias reservadas do Amazon EC2, elasticidade e integração com o Amazon S3.

Os preços do Amazon EMR são definidos por segundo de instância, com um mínimo de um minuto, e começam a partir de USD 0,015 por hora por instância para uma instância pequena (USD 131,40 por ano). Veja a seção de preços para obter mais detalhes.

O preço das instâncias spot do Amazon EC2 oscila com base na oferta e na demanda das instâncias, mas você nunca pagará mais que o preço máximo que especificou. O Amazon EMR facilita o uso de instâncias spot para que você economize tempo e dinheiro. Os clusters do Amazon EMR incluem “nós centrais” que executam HDFS e “nós de tarefa” que não executam. Os nós de tarefa são ideais para o Spot, pois se o preço do Spot aumentar e você perder essas instâncias, você não perderá os dados armazenados no HDFS. (Saiba mais sobre os nós centrais e nós tarefa). Com a combinação das frotas de instâncias, as estratégias de alocação para instâncias Spot, o Ajuste de Escala Gerenciado do EMR e mais opções de diversificação, você agora pode otimizar o a resiliência e os custos do EMR. Para saber mais, leia nosso blog.

O Sistema de Arquivos do EMR (EMRFS) permite que os clusters do EMR usem o Amazon S3 com eficiência e segurança como um depósito de objetos para o Hadoop. Você pode armazenar seus dados no Amazon S3 e usar vários clusters do Amazon EMR para processar o mesmo conjunto de dados. Cada cluster pode ser otimizado para uma determinada carga de trabalho, que pode ser mais eficiente que um único cluster atendendo a várias cargas de trabalho com requisitos diferentes. Por exemplo, você pode ter um cluster que é otimizado para E/S e outro, otimizado para CPU, cada um processando o mesmo conjunto de dados no Amazon S3. Além disso, armazenando seus dados de entrada e saída no Amazon S3, você pode encerrar os clusters quando eles não forem mais necessários.

O EMRFS oferece um ótimo desempenho na leitura/gravação no Amazon S3, é compatível com a criptografia do lado do servidor S3 e com a criptografia do lado do cliente do S3 usando o AWS Key Management Service (KMS) ou chaves gerenciadas pelo cliente. Além disso, oferece uma visualização consistente opcional que verifica a consistência da listagem e da leitura após a gravação para os objetos rastreados em seus metadados. Além disso, os clusters do Amazon EMR podem usar EMRFS e HDFS para que você não tenha que escolher entre o armazenamento no cluster e o Amazon S3.

Use o Catálogo de Dados do AWS Glue como um repositório gerenciado de metadados para armazenar metadados da tabela externa do Apache Spark e do Apache Hive. Além disso, ele disponibiliza uma descoberta automática de esquemas, bem como um histórico de versões do esquema. Isso permite que você persista os metadados facilmente para tabelas externas no Amazon S3, fora do cluster.

Datastores flexíveis

Abrir tudo

Com o Amazon EMR, você pode aproveitar vários armazéns de dados, incluindo o Amazon S3, o Sistema de Arquivos Distribuído do Hadoop (HDFS) e o Amazon DynamoDB

O Amazon S3 é um serviço de armazenamento resiliente, escalável, seguro, rápido e econômico. Com o Sistema de Arquivos do EMR (EMRFS), o Amazon EMR pode usar o Amazon S3 com eficiência e segurança como um depósito de objetos para o Hadoop. O Amazon EMR fez inúmeras melhorias no Hadoop para que você possa processar grandes quantidades de dados armazenados no Amazon S3. Além disso, o EMRFS permite a visualização consistente para verificar a consistência da lista e da leitura após a gravação para objetos no Amazon S3. O EMRFS oferece suporte à criptografia do lado do servidor S3 e criptografia do lado do cliente do S3 para processar objetos criptografados do Amazon S3. Você também pode usar o AWS Key Management Service (KMS) ou um fornecedor de chaves personalizadas.

Quando você executa o cluster, o Amazon EMR transmite os dados do Amazon S3 para cada instância do seu cluster e começa a processá-lo imediatamente. Uma vantagem de armazenar seus dados no Amazon S3 e processá-lo com o Amazon EMR é que você pode usar vários clusters para processar os mesmos dados. Por exemplo, você pode ter um cluster de desenvolvimento Hive otimizado para memória e um cluster de desenvolvimento Pig otimizado para CPU, ambos usando o mesmo conjunto de dados de entrada.

O HDFS é o sistema de arquivos do Hadoop. A topologia atual do Amazon EMR agrupa suas instâncias em 3 grupos lógicos de instâncias: grupo mestre, que executa o YARN Resource Manager e o serviço HDFS Name Node; grupo principal, que executa o HDFS DataNode Daemon e o serviço YARN Node Manager, e grupo de tarefas, que executa o serviço YARN Node Manager. O Amazon EMR instala o HDFS no armazenamento associado às instâncias do grupo principal.

Cada instância do EC2 é fornecida com uma quantidade fixa de armazenamento, denominada “armazenamento de instâncias”, anexada à instância. Também é possível personalizar o armazenamento em uma instância adicionando volumes do Amazon EBS à instância. O Amazon EMR permite adicionar os tipos de volume de uso geral (SSD), provisionado (SSD) e magnético. Os volumes do EBS adicionados a um cluster do EMR não persistem dados após o encerramento do cluster. O EMR limpa automaticamente os volumes após o encerramento do cluster.

Também é possível habilitar a criptografia completa do HDFS usando uma configuração de segurança do Amazon EMR ou criar manualmente zonas de criptografia do HDFS com o Hadoop Key Management Server. Você pode usar uma opção de configuração de segurança para criptografar o dispositivo raiz EBS e armazenar volumes quando especificar o AWS KMS como seu principal provedor. Para mais informações, consulte Criptografia local de disco.

O Amazon DynamoDB é um serviço de banco de dados NoSQL rápido e totalmente gerenciado. O Amazon EMR tem uma integração direta com o Amazon DynamoDB, assim você pode, com rapidez e eficiência, processar dados armazenados no Amazon DynamoDB e transferir dados entre o Amazon DynamoDB, o Amazon S3 e o HDFS no Amazon EMR.

Use o Amazon Relational Database Service (um serviço da Web que facilita a configuração, a operação e a escalabilidade de um banco de dados relacional na nuvem), o Amazon Glacier (um serviço de armazenamento de custo extremamente baixo que fornece armazenamento seguro e durável para arquivamento e backup de dados) e o Amazon Redshift (um serviço de data warehouse rápido, totalmente gerenciado e em escala de petabytes). O AWS Data Pipeline é um serviço da Web que ajuda os clientes a processar e movimentar dados de forma confiável entre diferentes serviços de armazenamento e computação da AWS (incluindo o Amazon EMR), além de fontes de dados on-premises, em intervalos especificados.

Use seus aplicativos de código aberto preferidos

Abrir tudo

Com os lançamentos com controle de versão no Amazon EMR, você pode facilmente selecionar e usar os projetos de código aberto mais recentes no cluster do EMR, que incluem aplicações nos ecossistemas do Apache Spark e Hadoop. O software é instalado e configurado pelo Amazon EMR para que você possa passar mais tempo agregando valor aos seus dados sem se preocupar com tarefas administrativas e relacionadas à infraestrutura.

Ferramentas para big data

Abrir tudo

O Amazon EMR é compatível com ferramentas poderosas e comprovadas do Hadoop, como o Apache Spark, o Apache Hive, o Presto e o Apache HBase. Cientistas de dados utilizam o EMR para executar ferramentas de aprendizagem profunda e machine learning, como o TensorFlow, o Apache MXNet, e usando ações de bootstrap, adicionam ferramentas e bibliotecas específicas de casos de uso. Analistas de dados usam o EMR Studio, Hue e os Notebooks EMR para o desenvolvimento interativo, para autorizar tarefas do Apache Spark e para enviar consultas SQL para o Apache Hive e o Presto. Engenheiros de dados usam o EMR para o desenvolvimento de pipeline e processamento de dados, e o Apache Hudi para simplificar o gerenciamento de dados incrementais e os casos de uso de privacidade de dados que exigem operações de inclusão, atualização e exclusão no nível de registro.

O Apache Spark é um mecanismo no ecossistema do Hadoop que processa rapidamente grandes conjuntos de dados. Ele usa conjuntos de dados distribuídos resilientes (RDDs) na memória e tolerante a falhas, e gráficos direcionados acíclicos (DAGs) para definir as transformações de dados. O Spark também inclui Spark SQL, Spark Streaming, MLlib e GraphX. Conheça o Spark e saiba mais sobre o Spark no EMR.

O Apache Flink é um mecanismo de fluxo de dados de streaming que facilita a execução do processamento de fluxos em tempo real em fontes de dados com alta throughput. Ele é compatível com a semântica de tempo otimizada para eventos com falha, semântica do tipo exactly-once (exatamente uma vez), controle de pressão de retorno e APIs para criar aplicações de streaming e em lote. Conheça o Flink e saiba mais sobre o Flink no EMR.

O TensorFlow é uma biblioteca de matemática simbólica de código aberto para aplicações de inteligência artificial e aprendizado profundo. O TensorFlow reúne vários modelos e algoritmos de machine learning e aprendizado profundo, além de treinar e executar redes neurais profundas para muitos casos de uso diferentes. Saiba mais sobre o TensorFlow no EMR.

O Apache Hudi é uma estrutura de gerenciamento de dados de código aberto usada para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados. O Apache Hudi permite gerenciar dados de registro no Amazon S3 para simplificar o Change Data Capture (CDC) e a ingestão de dados do streaming, além de fornecer uma estrutura para lidar com casos de uso de privacidade de dados exigindo atualizações e exclusões no nível de registro. Saiba mais sobre o Apache Hudi no Amazon EMR.

O Apache Hive é um data warehouse e um pacote analítico de código aberto que é executado em cima do Hadoop. O Hive é operado pela Hive QL, uma linguagem baseada em SQL, que permite aos usuários estruturar, resumir e consultar dados. O Hive QL vai além do SQL padrão, adicionando suporte de primeira classe às funções mapear/reduzir e a tipos de dados complexos e extensíveis definidos pelo usuário, como JSON e Thrift. Esse recurso permite o processamento de fontes de dados complexas e até não estruturadas, como documentos de texto e arquivos de log. O Hive permite extensões de usuário via funções definidas pelo usuário escritas em Java. O Amazon EMR tem feito inúmeras melhorias ao Hive, incluindo a integração direta com o Amazon DynamoDB e o Amazon S3. Por exemplo, com o Amazon EMR, você pode carregar as partições de tabela automaticamente do Amazon S3, gravar dados em tabelas no Amazon S3 sem usar arquivos temporários e pode acessar recursos no Amazon S3, como roteiros para operações personalizadas de mapeamento/redução e bibliotecas adicionais. Conheça o Hive e saiba mais sobre o Hive no EMR.

O Presto é um mecanismo de consulta SQL distribuído de código aberto otimizado para baixa latência e análise de dados ad-hoc. Ele aceita o padrão ANSI SQL, que inclui consultas complexas, agregações, junções e funções do Windows. O Presto pode processar dados de várias fontes, como o Sistema de Arquivos Distribuídos do Hadoop (HDFS) e o Amazon S3. Conheça o Presto e saiba mais sobre o Presto no EMR.

O Apache Phoenix permite o uso de SQL de baixa latência com recursos de transação ACID em dados armazenados no Apache HBase. Crie índices secundários facilmente para obter melhor desempenho e crie visualizações diferentes sobre a mesma tabela subjacente do HBase. Saiba mais sobre o Phoenix no EMR.

O Apache HBase é um banco de dados de código aberto, não relacional e distribuído, modelado de acordo com o BigTable da Google. Ele foi desenvolvido como parte do projeto Hadoop da Apache Software Foundation e é executado com base no Hadoop Distributed File System (HDFS) para fornecer recursos semelhantes aos da BigTable para o Hadoop. O HBase disponibiliza uma maneira eficiente e tolerante a falhas de armazenar grandes quantidades de dados esparsos usando compactação e armazenamento baseado em colunas. Além disso, o HBase disponibiliza pesquisa rápida de dados porque armazena em cache dados de memória. O HBase é otimizado para operações de gravação sequencial, e é altamente eficiente para inserções, atualizações e exclusões em lote. O HBase funciona sem dificuldade com o Hadoop, compartilhando seu sistema de arquivos e servindo como entrada e saída direta para os trabalhos do Hadoop. O HBase também se integra ao Apache Hive, possibilitando consultas tipo SQL em tabelas HBase, integrações com tabelas baseadas no Hive e suporte para Java Database Connectivity (JDBC). Com o EMR, você pode usar o S3 como um datastore do HBase, o que permite diminuir os custos e reduzir a complexidade operacional. Se você usa o HDFS como um armazenamento de dados, é possível fazer backup do HBase no S3, além de restaurar usando um backup criado anteriormente. Conheça o HBase e saiba mais sobre o HBase no EMR.

O EMR Studio é um ambiente de desenvolvimento integrado (IDE) que facilita para os cientistas e engenheiros de dados o desenvolvimento, a visualização e a depuração da engenharia de dados e ciência de dados programados em R, Python, Scala e PySpark. O EMR Studio oferece cadernos Jupyter totalmente gerenciados e ferramentas como Spark UI e YARN Timeline Service para simplificar a depuração.

O Hue é uma interface de usuário de código aberto para o Hadoop que facilita a execução e o desenvolvimento de consultas do Hive, o gerenciamento de arquivos no HDFS, a execução e o desenvolvimento de scripts Pig e o gerenciamento de tabelas. O Hue no EMR também se integra ao Amazon S3, permitindo executar consultas diretas no S3 e facilitando a transferência de arquivos entre o HDFS e o Amazon S3. Saiba mais sobre o Hue e o EMR.

O caderno Jupyter é uma aplicação Web de código aberto que você pode usar para criar e compartilhar documentos que contenham código ativo, equações, visualizações e texto narrativo. O JupyterHub permite hospedar várias instâncias de um servidor de do caderno Jupyter de usuário único. Ao criar um cluster do EMR com o JupyterHub, o EMR cria um contêiner do Docker em um nó principal do cluster. O JupyterHub, todos os componentes necessários do Jupyter e o Sparkmagic são executados no contêiner.

O Apache Zeppelin é uma interface do usuário de código aberto que cria cadernos interativos e de colaboração para a exploração de dados usando o Spark. Você pode usar Scala, Python, SQL (usando Spark SQL) ou HiveQL para manipular dados e visualizar rapidamente os resultados. Os cadernos do Zeppelin podem ser compartilhados entre vários usuários, e as visualizações podem ser publicadas em painéis externos. Saiba mais sobre o Zeppelin no EMR.

O Apache Oozie é um programador de fluxo de trabalho do Hadoop, no qual você pode criar gráficos acíclicos dirigidos (DAGs) de ações. Você também pode acionar facilmente os fluxos de trabalho do Hadoop por atividades ou horário. Saiba mais sobre o Oozie no EMR. O AWS Step Functions permite adicionar automação de fluxos de trabalho sem servidor às suas aplicações. As etapas do seu fluxo de trabalho podem existir em qualquer lugar, incluindo nas funções do AWS Lambda, no Amazon Elastic Compute Cloud (EC2) ou no local. Saiba mais sobre o AWS Step Functions no EMR.

O EMR também é compatível com uma variedade de ferramentas e aplicações muito usadas, como o R, o Apache Pig (processamento de dados e ETL), o Apache Tez (execução complexa do DAG), o Apache MXNet (aprendizado profundo), o Ganglia (monitoramento), o Apache Sqoop (conector de banco de dados relacional), o HCatalog (gerenciamento de tabelas e armazenamento) e muitas outras. A equipe do Amazon EMR mantém um repositório de ações de bootstrap de código aberto que pode ser usado para instalar software adicional, configurar clusters ou servir como exemplos de codificação de suas próprias ações de bootstrap.

Controle de acesso a dados

Abrir tudo

Por padrão, os processos de aplicações do Amazon EMR usam o perfil de instância do EC2 quando chamam outros serviços da AWS. Para clusters multilocatários, o Amazon EMR oferece três opções para gerenciar o acesso do usuário a dados do Amazon S3.

A integração com o AWS Lake Formation permite que você defina e gerencie políticas de autorização refinadas no AWS Lake Formation para acessar bancos de dados, tabelas e colunas no Catálogo de Dados do AWS Glue. Adote as políticas de autorização em trabalhos enviados por meio dos Cadernos do Amazon EMR e do Apache Zeppelin para workloads interativas do EMR Spark, além de enviar eventos de auditoria ao AWS CloudTrail. Ao habilitar essa integração, você também habilita o Single Sign-On federado em cadernos do EMR ou Apache Zeppelin a partir de sistemas de identidade corporativos compatíveis com Security Assertion Markup Language (SAML) 2.0.

A integração nativa com o Apache Ranger permite configurar um servidor Apache Ranger novo ou existente para definir e gerenciar políticas de autorização refinadas para usuários acessarem bancos de dados, tabelas e colunas de dados do Amazon S3 por meio do Hive Metastore. O Apache Ranger é uma ferramenta de código aberto utilizada para habilitar, monitorar e gerenciar a segurança abrangente de dados em toda a plataforma Hadoop.

Essa integração nativa permite definir três tipos de políticas de autorização no servidor Policy Admin do Apache Ranger. Você pode definir a autorização nos níveis da tabela, coluna e linha para o Hive, nos níveis da tabela e coluna para o Spark e nos níveis do prefixo e objeto para o Amazon S3. O Amazon EMR instala e configura automaticamente os plug-ins do Apache Ranger correspondentes no cluster. Esses plug-ins do Ranger são sincronizados com o servidor Policy Admin para políticas de autorização, aplicação do controle de acesso a dados e envio de eventos de auditoria para o Amazon CloudWatch Logs.

O Mapeador de Perfis de Usuário do Amazon EMR deixa que você utilize as permissões do AWS IAM para gerenciar os acessos aos recursos da AWS. Você pode criar mapeamentos entre os usuários (ou grupos) e perfis do IAM personalizados. Um usuário ou grupo só pode acessar os dados permitidos pelo perfil do IAM personalizado. No momento, esse atributo só está disponível por meio dos AWS Labs.

Experiência híbrida consistente

Abrir tudo

O AWS Outposts é um serviço gerenciado que leva a infraestrutura, os serviços, as APIs e as ferramentas da AWS a praticamente qualquer data center, espaço de colocalização ou instalação on-premises para oferecer uma experiência híbrida verdadeiramente consistente. O Amazon EMR no AWS Outposts permite que você implante e gerencie clusters do EMR no data center usando o mesmo Console de Gerenciamento da AWS, kit de desenvolvimento de software (SDK) e interface de linha de comandos (CLI) usados para o EMR.

Atributos adicionais

Abrir tudo

Você escolhe quais tipos de instâncias do EC2 provisionar no seu cluster (padrão, com mais memória, com CPU ou E/S de alto desempenho, etc.) de acordo com os requisitos das aplicações. Você tem acesso à raiz de cada instância e pode personalizar totalmente o cluster para que se ajuste aos seus requisitos. Saiba mais sobre os tipos de instância compatíveis com o Amazon EC2. O Amazon EMR agora oferece até 30% menos custo e até 15% de melhoria no desempenho para workloads do Spark em instâncias baseadas no Graviton2. Saiba mais em nosso blog.

Você pode executar o cluster em uma nuvem privada virtual da Amazon (VPC), uma seção logicamente isolada da Nuvem AWS. Você tem controle total sobre seu ambiente de redes virtuais, incluindo a seleção do seu próprio intervalo de endereços IP, a criação de sub-redes e a configuração de tabelas de rotas e gateways de rede. Saiba mais sobre o Amazon EMR e a Amazon VPC.

Quando você habilita a depuração em um cluster, o Amazon EMR guarda os arquivos de log no Amazon S3 e os indexa. Em seguida, você pode usar a interface gráfica no console para percorrer os logs e visualizar o histórico de trabalhos de forma intuitiva. Saiba mais sobre a depuração de trabalhos do Amazon EMR.

Use as ferramentas do AWS Identity and Access Management (AWS IAM), como usuários e perfis do IAM, para controlar o acesso e as permissões. Por exemplo, você pode conceder a determinados usuários acesso de leitura, mas não de gravação, aos seus clusters. Além disso, você pode usar as configurações de segurança do Amazon EMR para definir várias opções de criptografia de dados ociosos e em trânsito, incluindo o suporte à criptografia do Amazon S3 e à autenticação do KerberosSaiba mais sobre como controlar o acesso ao cluster e sobre as opções de criptografia do Amazon EMR.

Você pode usar o Amazon CloudWatch para monitorar métricas personalizadas do Amazon EMR, como o número médio do mapeamento de execuções e a redução de tarefas. Você também pode definir alarmes nessas métricas. Saiba mais sobre o monitoramento de clusters do Amazon EMR.

Você pode recorrer a ações de bootstrap ou a uma imagem de máquina da Amazon (AMI) personalizada e executada no Amazon Linux para instalar um software adicional no seu cluster. As ações de bootstrap são roteiros executados em nós do cluster quando o Amazon EMR inicia o cluster. Elas são executadas antes que o Hadoop inicie e antes que o nó comece a processar dados. Também é possível pré-carregar e usar software em uma AMI personalizada do Amazon Linux. Saiba mais sobre as ações de bootstrap do Amazon EMR e as AMIs personalizadas do Amazon Linux.

Você pode usar os tipos de evento do Amazon EMR no Amazon CloudWatch Events para responder às alterações de estado nos clusters do Amazon EMR. Usando regras simples que você pode configurar rapidamente, combine eventos e encaminhe-os para tópicos do Amazon SNS, funções do AWS Lambda, filas do Amazon SQS, entre outros. Saiba mais sobre os eventos em clusters do Amazon EMR.

Mova rapidamente grandes quantidades de dados do Amazon S3 para o HDFS, do HDFS para o Amazon S3 e entre buckets do Amazon S3 usando o S3DistCp do Amazon EMR, uma extensão da ferramenta de código aberto Distcp, que usa o MapReduce para mover com eficiência grandes quantidades de dados. Saiba mais sobre o S3DistCp.

Use o AWS Data Pipeline para programar fluxos de trabalho recorrentes envolvendo o Amazon EMR. O AWS Data Pipeline é um serviço da Web que ajuda você a processar e movimentar dados de forma confiável entre diferentes serviços de armazenamento e computação da AWS, incluindo fontes de dados on-premise, em intervalos especificados. Saiba mais sobre o Amazon EMR e o AWS Data Pipeline.

Grave um programa do Java, faça a compilação com a versão do Hadoop que pretende usar e faça upload no Amazon S3. Você pode, então, enviar trabalhos do Hadoop para o cluster usando a interface JobClient do Hadoop. Saiba mais sobre o processamento JAR personalizado com o Amazon EMR.

Use frameworks conhecidos de aprendizado profundo como o Apache MXNet para definir, treinar e implantar redes neurais profundas. Você pode usar essas estruturas em clusters do Amazon EMR com instâncias de GPU. Saiba mais sobre o MXNet no Amazon EMR.

Recursos de IA

Abrir tudo

O agente de upgrade do Spark converte processos complexos de atualização que normalmente levam meses em projetos que duram poucas semanas por meio de análise e transformação automatizadas de código. As organizações investem recursos substanciais de engenharia analisando mudanças de API, resolvendo conflitos e validando aplicações durante as atualizações do Spark. O agente apresenta interfaces de conversação nas quais os engenheiros expressam os requisitos de atualização em linguagem natural, mantendo o controle total sobre as modificações do código

Armazenamento sem servidor para EMR sem servidor

Abrir tudo

O Amazon EMR Serverless elimina o provisionamento de armazenamento local para workloads do Apache Spark, reduzindo os custos de processamento de dados em até 20% e evitando falhas de trabalho devido a restrições de capacidade de disco. O serviço gerencia automaticamente as operações intermediárias de dados e permite escalabilidade totalmente elástica. O EMR Serverless permite que os recursos de computação aumentem e diminuam em todos os estágios do trabalho sem serem restringidos por dados armazenados localmente, lidando automaticamente com picos de cargas de E/S e mantendo a segurança de nível corporativo com criptografia em trânsito e em repouso.