O Amazon Elastic MapReduce (Amazon EMR) é um serviço da web que facilita o processamento de grandes quantidades de dados com rapidez e economia.

O Amazon EMR simplifica o processamento de big data, oferecendo uma estrutura Hadoop gerenciada que permite distribuir e processar grandes quantidades de dados em instâncias dinamicamente escaláveis do Amazon EC2 de forma fácil, rápida e econômica. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark e Presto, bem como interagir com outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB.

O Amazon EMR processa seus casos de uso de big data com segurança e confiabilidade, incluindo análise de logs, indexação da web, armazéns de dados, aprendizagem de máquina, análise financeira, simulação científica e bioinformática.

Introdução ao Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Clique para aumentar

Velocidade de lançamento do Amazon EMR

Velocidade de lançamento do Amazon EMR

Com os lançamentos com controle de versão no Amazon EMR, você pode facilmente selecionar e usar os projetos de código aberto mais recentes no seu cluster do EMR, como aplicativos nos ecossistemas do Apache Hadoop e do Spark.  O software é instalado e configurado pelo Amazon EMR para que você dedique menos tempo a tarefas administrativas, e possa focar-se em ampliar os benefícios dos seus dados.


Fácil de usar

É possível iniciar um cluster Amazon EMR em minutos. Você não precisa se preocupar com provisionamento de nós, configuração de clusters, configuração do Hadoop ou ajustes de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise.

Baixo custo

A definição de preço do Amazon EMR é simples e previsível: você paga uma taxa horária por cada hora de instância usada. Você pode lançar um cluster Hadoop de 10 nós por apenas 0,15 USD por hora. Como o Amazon EMR tem suporte nativo para o spot do Amazon EC2 e instâncias reservadas, é possível economizar de 50 a 80% nos custos de instâncias subjacentes.

Elástico

Com o Amazon EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. Você pode facilmente aumentar ou diminuir o número de instâncias e pagar somente pelo que usar.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O Amazon EMR ajustou o Hadoop para a nuvem. Além disso, ele monitora o seu cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixo desempenho.

Seguro

O Amazon EMR configura automaticamente as configurações de firewall do Amazon EC2 que controlam o acesso via rede para as instâncias, e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você.  Para objetos armazenados no Amazon S3, você pode usar a criptografia no lado do servidor ou a criptografia no lado do cliente do Amazon S3 com EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente.

Seguro

Você tem controle total sobre seu cluster. Você tem acesso a todas as instâncias. Portanto, você pode instalar facilmente aplicações adicionais e personalizar todos os clusters. O Amazon EMR também é compatível com várias distribuições e aplicações do Hadoop.

O Amazon EMR pode ser usado para analisar dados de fluxos de cliques para segmentar usuários e entender suas preferências. Os publicitários também pode analisar os fluxos de cliques e publicar registros de impressão para oferecer anúncios mais eficazes.

Saiba como o Razorfish usa o EMR para análise de stream de cliques »

O Amazon EMR pode ser usado para processar grandes quantidades de dados de genoma e outros conjuntos maciços de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados de genoma hospedados gratuitamente na AWS.

Leia sobre o projeto 1000 Genomes e a AWS »

O Amazon EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em percepções úteis sobre seus aplicativos e usuários.

Saiba como a Yelp usa o EMR para gerar os principais recursos do site »

Você está pronto para executar o seu primeiro cluster? Clique aqui para ver o Tutorial de conceitos básicos. No tutorial, você criará um cluster que contará a frequência de palavras em um arquivo de texto de exemplo. Em apenas alguns minutos, seu cluster estará totalmente operacional.