Pular para o conteúdo principal

Conceitos básicos do Amazon EMR

Amazon EMR

Como usar o EMR

1. Escolha o modelo de implantação do EMR ideal para você

O Amazon EMR permite processar grandes volumes de dados usando ferramentas de código aberto, como Apache Spark, Hive, Flink, Trino e muitas outras. Basta escolher o modelo de implantação do EMR de sua preferência:

  • EMR Sem Servidor: execute aplicações sem precisar gerenciar clusters e dimensione recursos de forma automática conforme a demanda da sua workload
  • EMR no EC2: ideal para quem precisa de controle total sobre a configuração do cluster, incluindo tipos de instância e AMIs personalizadas.
  • EMR no EKS: una as suas atividades de análise de dados às demais aplicações baseadas em Kubernetes em um mesmo cluster compartilhado do Amazon EKS.

2. Desenvolva sua aplicação de processamento de dados

O Amazon EMR oferece suporte a uma ampla variedade de frameworks e linguagens, o que permite criar desde pipelines de ETL convencionais até fluxos de preparação de dados em larga escala para IA generativa.

Linguagens: use Python (PySpark) para atividades de ciência de dados e machine learning, SQL (por meio do Hive ou do Trino) para consultas analíticas, ou Java e Scala para desenvolver aplicações de alto desempenho no Spark.

Frameworks: crie e execute aplicações com o Apache Spark para processamento de dados em grande volume, o Apache Flink para streaming em tempo real, o Trino para consultas SQL rápidas em diversas fontes de dados e o Apache Hudi ou o Iceberg para o gerenciamento de data lakes transacionais.

3. Prepare e faça a ingestão de dados

Para iniciar o processamento, é preciso garantir que os dados estejam acessíveis ao Amazon EMR. Embora o Amazon S3 seja a camada de armazenamento padrão para as aplicações do EMR, existem diversos métodos de alta velocidade para mover dados do seu ambiente local ou de outros serviços da AWS.

  • Upload direto: para processamento imediato, envie os objetos diretamente para o Amazon S3 por meio do Console de Gerenciamento da AWS, da CLI ou dos SDKs.
  • Conectividade de alta velocidade: use o AWS Direct Connect para contornar a internet pública e estabelecer uma conexão de rede privada e dedicada entre o seu data center e a AWS. Isso garante largura de banda estável e menor latência para transferências em grande escala.
  • Streaming em tempo real: utilize o Amazon Data Firehose ou o Amazon Managed Streaming for Apache Kafka (MSK) para enviar dados diretamente para as suas aplicações do EMR à medida que são gerados, possibilitando análises quase em tempo real.
  • Integrações ETL zero: analise dados do Amazon Aurora ou do Amazon Redshift usando os recursos ETL zero, que permitem ao EMR acessar dados operacionais sem a necessidade de criar pipelines de forma manual.
  • Acesso híbrido: se os dados estiverem armazenados em um ambiente Hadoop HDFS local, é possível usar o S3 Connector para ler dados diretamente no EMR ou sincronizar conjuntos de dados específicos para processamento na nuvem.

4. Inicie e monitore

O Amazon EMR proporciona uma experiência simplificada de implantação, seja para executar um trabalho pontual ou um pipeline de produção contínuo.

  • Inicialização pelo EMR Studio: abra o seu notebook do EMR Studio e vincule-o a uma aplicação sem servidor ou a um cluster existente baseado em EC2. Com apenas um clique, é possível executar o código desenvolvido em Spark ou Hive em um ambiente totalmente gerenciado.
  • Sem servidor: ao usar o EMR Sem Servidor, envie o seu trabalho por meio do console, da interface de linha de comando ou da API. O EMR provisiona automaticamente exatamente os recursos de processamento e memória necessários, ampliando-os para lidar com picos de demanda e reduzindo-os até zerar quando o processo é concluído.
  • Inicialização pelo SageMaker Unified Studio: dentro do SageMaker Unified Studio, você pode abrir um notebook sem servidor e conectá-lo de forma imediata a uma aplicação do EMR Sem Servidor ou a um cluster do EMR no EC2. 

5. Monitore e otimize a execução

O EMR oferece visibilidade sobre os seus pipelines de dados por meio de ferramentas integradas que ajudam a identificar gargalos e otimizar custos de forma automática.

Acompanhe o andamento das tarefas e a integridade dos clusters pelo Console de Gerenciamento do EMR, pela AWS CLI ou pelos SDKs. O EMR conta com integração nativa ao Amazon CloudWatch para métricas, logs e alertas automatizados em tempo real.

Acesse a UI do Spark ou do Tez, tanto em tempo real quanto de modo persistente, diretamente pelo console (para depurar tarefas em execução no momento ou mesmo após o término de uma tarefa sem servidor) e analisar planos de execução e Directed Acyclic Graphs (DAGs, Grafos acíclicos direcionados).

Você está pronto para executar o seu primeiro cluster?

Clique aqui para executar um cluster usando o Console de Gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.

Treinamento e ajuda

    Você precisa de ajuda para criar uma prova de conceito ou ajustar seus aplicativos do EMR? A AWS tem uma equipe de suporte global especializada em EMR. Entre em contato conosco se tiver interesse em saber mais sobre compromissos de suporte pago de curto prazo (2-6 semanas).

    O curso de Big Data na AWS foi projetado para ensinar na prática como utilizar a Amazon Web Services para workloads de big data. A AWS demonstrará como executar tarefas do Amazon EMR para processar dados utilizando diversas ferramentas do Hadoop, como o Pig e o Hive. Além disso, a AWS também ensinará a criar ambientes de big data na nuvem com o Amazon DynamoDB e o Amazon Redshift, entender os benefícios do Amazon Kinesis e aproveitar as melhores práticas no projeto de ambientes de big data para obter análises, segurança e economia. Para saber mais sobre o curso sobre big data, clique aqui.

    A Scale Unlimited oferece treinamento personalizado no local para empresas que precisam conhecer rapidamente o uso do EMR e outras tecnologias de big data. Para saber mais, clique aqui.