Vídeo: A Technical Introduction to Amazon EMR (AWS re:Invent, outubro de 2015, Total: 50 minutos)

O Amazon EMR disponibiliza uma estrutura gerenciada que facilita, diminui os custos e protege a execução de estruturas de processamento de dados, como Apache Hadoop, Apache Spark e Presto na AWS. Nesta apresentação, você aprenderá os princípios fundamentais de design por trás da execução dessas estruturas na nuvem e descobrirá o conjunto de recursos que o Amazon EMR oferece. Nós discutimos os benefícios da dissociação de computação e armazenamento, e estratégias para aproveitar a escala e o paralelismo que a nuvem oferece, enquanto diminui custos. Adicionalmente, você ouvirá o engenheiro de software sênior da AOL contar como eles usaram essas estratégias para migrar suas cargas de trabalho do Hadoop para a Nuvem AWS e quais lições foram aprendidas durante o caminho.

 

Vídeo: Amazon EMR, Deep Dive and Best Practices (AWS re:Invent, outubro de 2015, Total: 49 minutos)

Nesta apresentação, nós mostraremos para você os padrões de design do Amazon EMR, como o uso do Amazon S3 em vez do HDFS, aproveitando clusters de longa e curta duração, e outras melhores práticas de arquitetura do Amazon EMR. Nós discutiremos como expandir e reduzir o seu cluster de modo dinâmico e apresentaremos a você maneiras de refiná-lo. Nós também vamos compartilhar as melhores práticas para manter o seu cluster do Amazon EMR econômico. Finalmente, iremos analisar alguns de nossos lançamentos recentes para manter você atualizado sobre os nossos últimos recursos.

  1. Desenvolva seu aplicativo de processamento de dados. Você pode usar Java, Hive (uma linguagem similar a SQL), Pig (uma linguagem de processamento de dados), Cascading, Ruby, Perl, Python, R, PHP, C++ ou Node.js. O Amazon EMR oferece exemplos de código e tutoriais para que você comece rapidamente.
  2. Carregue seu aplicativo e dados no Amazon S3. Se você tem uma grande quantidade de dados para carregar, considere o uso do AWS Import/Export Snowball para carregar dados usando dispositivos de armazenamento físico ou o AWS Direct Connect para estabelecer uma conexão de rede dedicada do seu datacenter com a AWS. Se preferir, você também pode gravar seus dados diretamente em um cluster em execução.
  3. Configure e lance seu cluster. Usando o Console de Gerenciamento da AWS, a AWS CLI, os SDKs ou as APIs, especifique o número de instâncias do Amazon EC2 para provisionar no seu cluster, os tipos de instância a usar (padrão, com alta memória, CPU de alto desempenho, E/S elevada, etc.), as aplicações a instalar (Hive, Pig, HBase, etc.) e o local das aplicações e dos dados. Você pode usar ações do bootstrap para instalar software adicional ou alterar configurações padrão.
  4. Monitore o cluster(Opcional). Você pode monitorar a saúde e o progresso do cluster usando o Management Console, Command Line Interface, SDKs ou APIs. O EMR integra-se com o Amazon CloudWatch para monitorar/gerar alarmes e suporta ferramentas de monitoramento populares como a Ganglia. Você pode adicionar/remover capacidade para o cluster a qualquer momento para tratar de mais ou menos dados. Para solucionar problemas, você pode usar a GUI de depuração simples do console.
  5. Recupere a saída. Recupere a saída do Amazon S3 ou HDFS no cluster. Visualize os dados com ferramentas como Tableau e MicroStrategy. O Amazon EMR encerrará automaticamente o cluster quando o processamento estiver concluído. Alternativamente, você pode deixar o cluster em execução e dar a ele mais trabalho para fazer.

Você está pronto para executar o seu primeiro cluster?

Clique aqui para executar um cluster usando o console de gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.

Para ler um tutorial detalhado, clique aqui. Esse tutorial percorre o processo de criação de um cluster que conta a frequência das palavras em um arquivo de texto.

Comece a usar o Amazon EMR

Crie uma conta gratuita

Precisa de ajuda? Fale conosco.

Você precisa de ajuda para criar uma prova de conceito ou ajustar seus aplicativos do EMR? A AWS tem uma equipe de suporte global especializada em EMR.  Entre em contato conosco se tiver interesse em saber mais sobre compromissos de suporte pago de curto prazo (2-6 semanas).

O curso Big Data on AWS foi concebido para ensinar na prática como utilizar a Amazon Web Services para cargas de trabalho de big data. A AWS demonstrará como executar tarefas do Amazon EMR para processar dados utilizando o amplo ecossistema de ferramentas do Hadoop, como o Pig e o Hive. Além disso, a AWS também ensinará a criar ambientes de big data na nuvem com o Amazon DynamoDB e o Amazon Redshift, entender os benefícios do Amazon Kinesis e aproveitar as melhores práticas para projetar ambientes de big data, proporcionando análises, segurança e economia.  Para saber mais sobre o curso de big data, clique aqui.

Se você planeja processar mais de 1 TB por dia, pode estar qualificado para o EMR Bootcamp, um workshop local de prova de conceito e transferência de conhecimento com um arquiteto de soluções da AWS especializado em EMR.  Para saber mais, clique aqui ou entre em contato conosco.

A Scale Unlimited oferece treinamento personalizado no local para empresas que precisam conhecer rapidamente o uso do EMR e outras tecnologias de big data.  Para saber mais, clique aqui.