Conceitos básicos do Amazon EMR

Amazon EMR

Como usar o EMR

1. Escolha o modelo de implantação do EMR ideal para você

O Amazon EMR permite processar grandes volumes de dados usando ferramentas de código aberto, como Apache Spark, Hive, Flink, Trino e muitas outras. Basta escolher o modelo de implantação do EMR de sua preferência:

EMR Sem Servidor: execute aplicações sem precisar gerenciar clusters e dimensione recursos de forma automática conforme a demanda da sua workload
EMR no EC2: ideal para quem precisa de controle total sobre a configuração do cluster, incluindo tipos de instância e AMIs personalizadas.
EMR no EKS: una as suas atividades de análise de dados às demais aplicações baseadas em Kubernetes em um mesmo cluster compartilhado do Amazon EKS.

2. Desenvolva sua aplicação de processamento de dados

O Amazon EMR oferece suporte a uma ampla variedade de frameworks e linguagens, o que permite criar desde pipelines de ETL convencionais até fluxos de preparação de dados em larga escala para IA generativa.

Linguagens: use Python (PySpark) para atividades de ciência de dados e machine learning, SQL (por meio do Hive ou do Trino) para consultas analíticas, ou Java e Scala para desenvolver aplicações de alto desempenho no Spark.

Frameworks: crie e execute aplicações com o Apache Spark para processamento de dados em grande volume, o Apache Flink para streaming em tempo real, o Trino para consultas SQL rápidas em diversas fontes de dados e o Apache Hudi ou o Iceberg para o gerenciamento de data lakes transacionais.

3. Prepare e faça a ingestão de dados

Para iniciar o processamento, é preciso garantir que os dados estejam acessíveis ao Amazon EMR. Embora o Amazon S3 seja a camada de armazenamento padrão para as aplicações do EMR, existem diversos métodos de alta velocidade para mover dados do seu ambiente local ou de outros serviços da AWS.

Upload direto: para processamento imediato, envie os objetos diretamente para o Amazon S3 por meio do Console de Gerenciamento da AWS, da CLI ou dos SDKs.
Conectividade de alta velocidade: use o AWS Direct Connect para contornar a internet pública e estabelecer uma conexão de rede privada e dedicada entre o seu data center e a AWS. Isso garante largura de banda estável e menor latência para transferências em grande escala.
Streaming em tempo real: utilize o Amazon Data Firehose ou o Amazon Managed Streaming for Apache Kafka (MSK) para enviar dados diretamente para as suas aplicações do EMR à medida que são gerados, possibilitando análises quase em tempo real.
Integrações ETL zero: analise dados do Amazon Aurora ou do Amazon Redshift usando os recursos ETL zero, que permitem ao EMR acessar dados operacionais sem a necessidade de criar pipelines de forma manual.
Acesso híbrido: se os dados estiverem armazenados em um ambiente Hadoop HDFS local, é possível usar o S3 Connector para ler dados diretamente no EMR ou sincronizar conjuntos de dados específicos para processamento na nuvem.

4. Inicie e monitore

O Amazon EMR proporciona uma experiência simplificada de implantação, seja para executar um trabalho pontual ou um pipeline de produção contínuo.

Inicialização pelo EMR Studio: abra o seu notebook do EMR Studio e vincule-o a uma aplicação sem servidor ou a um cluster existente baseado em EC2. Com apenas um clique, é possível executar o código desenvolvido em Spark ou Hive em um ambiente totalmente gerenciado.
Sem servidor: ao usar o EMR Sem Servidor, envie o seu trabalho por meio do console, da interface de linha de comando ou da API. O EMR provisiona automaticamente exatamente os recursos de processamento e memória necessários, ampliando-os para lidar com picos de demanda e reduzindo-os até zerar quando o processo é concluído.
Inicialização pelo SageMaker Unified Studio: dentro do SageMaker Unified Studio, você pode abrir um notebook sem servidor e conectá-lo de forma imediata a uma aplicação do EMR Sem Servidor ou a um cluster do EMR no EC2.

5. Monitore e otimize a execução

O EMR oferece visibilidade sobre os seus pipelines de dados por meio de ferramentas integradas que ajudam a identificar gargalos e otimizar custos de forma automática.

Acompanhe o andamento das tarefas e a integridade dos clusters pelo Console de Gerenciamento do EMR, pela AWS CLI ou pelos SDKs. O EMR conta com integração nativa ao Amazon CloudWatch para métricas, logs e alertas automatizados em tempo real.

Acesse a UI do Spark ou do Tez, tanto em tempo real quanto de modo persistente, diretamente pelo console (para depurar tarefas em execução no momento ou mesmo após o término de uma tarefa sem servidor) e analisar planos de execução e Directed Acyclic Graphs (DAGs, Grafos acíclicos direcionados).

Você está pronto para executar o seu primeiro cluster?

Clique aqui para executar um cluster usando o Console de Gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.

Saiba mais

Aprenda no seu próprio ritmo com outros tutoriais

Treinamento e ajuda

Você precisa de ajuda para criar uma prova de conceito ou ajustar seus aplicativos do EMR? A AWS tem uma equipe de suporte global especializada em EMR. Entre em contato conosco se tiver interesse em saber mais sobre compromissos de suporte pago de curto prazo (2-6 semanas).

O curso de Big Data na AWS foi projetado para ensinar na prática como utilizar a Amazon Web Services para workloads de big data. A AWS demonstrará como executar tarefas do Amazon EMR para processar dados utilizando diversas ferramentas do Hadoop, como o Pig e o Hive. Além disso, a AWS também ensinará a criar ambientes de big data na nuvem com o Amazon DynamoDB e o Amazon Redshift, entender os benefícios do Amazon Kinesis e aproveitar as melhores práticas no projeto de ambientes de big data para obter análises, segurança e economia. Para saber mais sobre o curso sobre big data, clique aqui.

A Scale Unlimited oferece treinamento personalizado no local para empresas que precisam conhecer rapidamente o uso do EMR e outras tecnologias de big data. Para saber mais, clique aqui.

Recursos adicionais

Fique conectado com a AWS

Próximas etapas

Conceitos básicos

Tutorial de conceitos básicos

Saiba mais

Recursos

Descubra mais recursos do Amazon EMR

Visite a página de recursos

Nível gratuito

Cadastre-se para obter uma conta gratuita

Cadastre-se

Console

Pronto para criar?

Comece a usar o Amazon EMR

Conceitos básicos do Amazon EMR

Como usar o EMR

1. Escolha o modelo de implantação do EMR ideal para você

2. Desenvolva sua aplicação de processamento de dados

3. Prepare e faça a ingestão de dados

4. Inicie e monitore

5. Monitore e otimize a execução

Você está pronto para executar o seu primeiro cluster?

Saiba mais

Treinamento e ajuda

Recursos adicionais

Blog sobre big data

Blog sobre machine learning

Documentação

Perguntas frequentes

Artigos e tutoriais

Centro de Informações sobre Benefícios de Custos da Nuvem AWS

Calculadora de preços da AWS

AWS Trusted Advisor

Planos do AWS Support

Próximas etapas

Tutorial de conceitos básicos

Descubra mais recursos do Amazon EMR

Cadastre-se para obter uma conta gratuita

Pronto para criar?

Aprenda

Recursos

Desenvolvedores

Ajuda

Conceitos básicos do Amazon EMR

Como usar o EMR

1. Escolha o modelo de implantação do EMR ideal para você

2. Desenvolva sua aplicação de processamento de dados

3. Prepare e faça a ingestão de dados

4. Inicie e monitore

5. Monitore e otimize a execução

Você está pronto para executar o seu primeiro cluster?

Saiba mais

Treinamento e ajuda

Compromissos de curto prazo

Treinamento sobre big data da AWS

Treinamento adicional

Recursos adicionais

Blog sobre big data

Blog sobre machine learning

Documentação

Perguntas frequentes

Artigos e tutoriais

Centro de Informações sobre Benefícios de Custos da Nuvem AWS

Calculadora de preços da AWS

AWS Trusted Advisor

Planos do AWS Support

Próximas etapas

Tutorial de conceitos básicos

Descubra mais recursos do Amazon EMR

Cadastre-se para obter uma conta gratuita

Pronto para criar?

Aprenda

Recursos

Desenvolvedores

Ajuda