Vídeos

A Technical Introduction to Amazon EMR (50:44)
Amazon EMR Deep Dive & Best Practices (49:12)

Fique atualizado com os webinars da AWS.

Como usar o Amazon EMR

  1. Desenvolva seu aplicativo de processamento de dados. Você pode usar Java, Hive (uma linguagem similar a SQL), Pig (uma linguagem de processamento de dados), Cascading, Ruby, Perl, Python, R, PHP, C++ ou Node.js. O Amazon EMR oferece exemplos de código e tutoriais para que você comece rapidamente.
  2. Carregue seu aplicativo e dados no Amazon S3. Se você tem uma grande quantidade de dados para carregar, considere o uso do AWS Import/Export Snowball para carregar dados usando dispositivos de armazenamento físico ou o AWS Direct Connect para estabelecer uma conexão de rede dedicada do seu datacenter com a AWS. Se preferir, você também pode gravar seus dados diretamente em um cluster em execução.
  3. Configure e execute seu cluster. Usando o Console de Gerenciamento da AWS, a CLI, os SDKs ou as APIs da AWS, especifique o número de instâncias do Amazon EC2 para provisionar no seu cluster, os tipos de instância a usar (padrão, com alta memória, CPU de alto desempenho, E/S elevada, etc.), as aplicações a instalar (Hive, Pig, HBase, etc.) e o local das aplicações e dos dados. Você pode usar ações de bootstrap para instalar software adicional ou alterar configurações padrão.
  4. Monitore o cluster (Opcional). Você pode monitorar a saúde e o progresso do cluster usando o Management Console, Command Line Interface, SDKs ou APIs. O EMR integra-se com o Amazon CloudWatch para monitorar/gerar alarmes e suporta ferramentas de monitoramento populares como o Ganglia. Você pode adicionar/remover capacidade para o cluster a qualquer momento para tratar de mais ou menos dados. Para solucionar problemas, você pode usar a GUI de depuração simples do console.
  5. Recupere a saída. Recupere a saída do Amazon S3 ou HDFS no cluster. Visualize os dados com ferramentas como o Tableau e o MicroStrategy. O Amazon EMR encerrará automaticamente o cluster quando o processamento estiver concluído. Alternativamente, você pode deixar o cluster em execução e dar a ele mais trabalho para fazer.

Você está pronto para executar o seu primeiro cluster?

Clique aqui para executar um cluster usando o console de gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.

Tutoriais

Spark

Saiba como configurar o Apache Kafka no EC2, usar Spark Streaming no EMR para processar os dados que chegam aos tópicos do Apache Kafka e consultar dados de streaming usando o Spark SQL no EMR.

Saiba como a Intent Media usou o Spark e o Amazon EMR para seus fluxos de trabalho de modelagem.

HBase

Saiba como conectar-se ao Phoenix usando o JDBC, criar uma exibição sobre uma tabela HBase existente e criar um índice secundário para melhorar o desempenho de leitura

Saiba como executar um cluster do EMR com o HBase e restaurar uma tabela de um snapshot no Amazon S3

Saiba como conectar-se a um fluxo de trabalho do Hive em execução no Amazon Elastic MapReduce para criar uma plataforma segura e extensível para geração de relatórios e análises.

Presto

Saiba como configurar um cluster do Presto e usar o Airpal para processar dados armazenados no S3.

Hive

Saiba como executar um cluster do EMR com o HBase e restaurar uma tabela de um snapshot no Amazon S3

Saiba como conectar-se a um fluxo de trabalho do Hive em execução no Amazon Elastic MapReduce para criar uma plataforma segura e extensível para geração de relatórios e análises.

Este tutorial descreve uma arquitetura de referência para um stream consistente, escalável e confiável que é baseado no Apache Flink usando o Amazon EMR, o Amazon Kinesis e o Amazon Elasticsearch Service.

Aprenda no seu próprio ritmo com outros tutoriais.

Treinamento e ajuda

Compromissos de curto prazo

Você precisa de ajuda para criar uma prova de conceito ou ajustar seus aplicativos do EMR? A AWS tem uma equipe de suporte global especializada em EMR. Entre em contato conosco se tiver interesse em saber mais sobre compromissos de suporte pago de curto prazo (2-6 semanas).

Treinamento sobre big data da AWS

O curso de Big Data na AWS foi projetado para ensinar na prática como utilizar a Amazon Web Services para cargas de trabalho de big data. A AWS demonstrará como executar tarefas do Amazon EMR para processar dados utilizando o amplo ecossistema de ferramentas do Hadoop, como o Pig e o Hive. Além disso, a AWS também ensinará a criar ambientes de big data na nuvem com o Amazon DynamoDB e o Amazon Redshift, entender os benefícios do Amazon Kinesis e aproveitar as melhores práticas no projeto de ambientes de big data para obter análises, segurança e economia. Para saber mais sobre o curso de big data, clique aqui.

Treinamento adicional

A Scale Unlimited oferece treinamento personalizado no local para empresas que precisam conhecer rapidamente o uso do EMR e outras tecnologias de big data. Para saber mais, clique aqui.

Descubra mais recursos do Amazon EMR

Visite a página de recursos
Pronto para criar?
Comece a usar o Amazon EMR
Mais dúvidas?
Entre em contato conosco