Amazon EMR

Execute e escale facilmente o Apache Spark, o Hive, o Presto e outras estruturas de big data

O Amazon EMR é a plataforma de big data em nuvem líder do setor para processar grandes quantidades de dados usando ferramentas de código aberto, como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto. O Amazon EMR facilita a configuração, operação e escala de seus grandes ambientes de dados, automatizando tarefas demoradas como capacidade de provisionamento e grupos de ajuste. Com o EMR, você pode executar análises em escala de Petabytes a menos da metade do custo das soluções tradicionais locais e mais de três vezes mais rápido que o Apache Spark padrão. Você pode executar cargas de trabalho em instâncias do Amazon EC2, em clusters do Amazon Elastic Kubernetes Service (EKS) ou em locais usando o EMR no AWS Outposts.

Descubra como o Apache Hudi simplifica os pipelines para captura de dados de alteração (CDC) e regulamentações de privacidade

An introduction to Amazon EMR (3:00)

Benefícios

Fácil de usar

Analistas, engenheiros e cientistas de dados podem usar Blocos de anotações do EMR para colaborarem facilmente e explorarem, processarem e visualizarem dados. Você pode simplesmente especificar a versão das aplicações EMR e o tipo de computação que deseja usar. O EMR cuida do provisionamento, configuração e ajuste de clusters para que você possa se concentrar na execução da análise.

Baixo custo

A definição de preço do EMR é simples e previsível: você paga uma taxa por instância para cada segundo usado, com uma cobrança mínima de um minuto. Você pode lançar um cluster do EMR de 10 nós por apenas 0,15 USD por hora. Você também pode economizar 50-80% sobre o custo das instâncias selecionando o Amazon EC2 Spot para cargas de trabalho transitórias e Instâncias reservadas para cargas de trabalho de longa execução. Você também pode usar o Savings Plans.

Elastic

Ao contrário da infraestrutura rígida dos clusters locais, o EMR desacopla o armazenamento computacional, permitindo a você escalar cada um de forma independente e aproveitar o armazenamento em camadas do Amazon S3. Com o EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou reduzir o número de instâncias de forma automática usando o Auto Scaling (que gerencia o tamanho do cluster com base na utilização) e você só paga pelo que usa.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O EMR está ajustado para a nuvem e monitora constantemente o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixa performance. Os clusters têm alta disponibilidade e falham automaticamente em caso de uma falha do nó. O EMR fornece os lançamentos de software de código aberto mais recentes e estáveis para que você não precise gerenciar atualizações e correções de erros, o que leva a menos problemas e menos esforço para manter o ambiente.

Segurança

O EMR configura automaticamente as configurações de firewall do EC2 que controlam o acesso via rede para as instâncias e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC). A criptografia no lado do servidor ou a criptografia no lado do cliente podem ser usadas com o AWS Key Management Service ou suas próprias chaves gerenciadas pelo cliente. O EMR facilita a habilitação de outras opções de criptografia, como a criptografia em trânsito e em repouso, e a autenticação forte com Kerberos. Você pode usar o AWS Lake Formation ou o Apache Ranger aplicar controles de acesso a dados refinados para bancos de dados, tabelas e colunas.

Flexível

Você tem total controle sobre seus clusters EMR e seus trabalhos individuais EMR. Você pode lançar clusters EMR com as AMIs personalizadas do Amazon Linux e facilmente configurar os clusters usando scripts para instalar pacotes de software adicionais de terceiros. O EMR permite reconfigurar aplicações nos clusters em execução em tempo real sem a necessidade de reiniciar clusters. Além disso, você pode personalizar o ambiente de execução para trabalhos individuais, especificando as bibliotecas e dependências de tempo de execução em um contêiner Docker e enviá-las com seu trabalho.

Opções de implantação

Amazon EMR no Amazon EC2

Você pode implantar o EMR no Amazon EC2 e tirar proveito de Instâncias Sob Demanda, Reservadas e Spot. O EMR gerencia o provisionamento, gerenciamento e escalonamento das instâncias do EC2. A AWS oferece mais opções de instância do que qualquer outro fornecedor de nuvens, permitindo que você escolha a instância que lhe dá o melhor desempenho ou custo para sua carga de trabalho.

Saiba mais »

Amazon EMR no Amazon EKS

Você pode usar o ERMR para executar trabalhos do Apache Spark sob demanda no Amazon Elastic Kubernetes Service (EKS), sem precisar fornecer clusters de EMR, para melhorar a utilização dos recursos e simplificar o gerenciamento da infraestrutura. O Amazon EKS oferece flexibilidade para iniciar, rodar e dimensionar aplicações Kubernetes na Nuvem AWS ou no local. Com o Amazon EMR no EKS, você pode compartilhar recursos de computação e memória em todas as suas aplicações e usar um único conjunto de ferramentas Kubernetes para monitorar e gerenciar centralmente sua infraestrutura.

Saiba mais »

Amazon EMR no AWS Outposts

O Amazon EMR está disponível no AWS Outposts, permitindo configurar, implantar, gerenciar e escalonar EMR em seus ambientes no local, da mesma forma que faria na nuvem. O AWS Outposts leva serviços, infraestrutura e modelos operacionais da AWS a praticamente qualquer datacenter, espaço de colocação ou instalações no local.

Saiba mais »

Casos de uso

Machine learning

Use as ferramentas incorporadas de machine learning do EMR, o que inclui o Apache Spark MLlib, o TensorFlow e o Apache MXNet para algoritmos escaláveis de machine learning e use ações de bootstrap e AMIs personalizadas para facilitar a adição de suas bibliotecas e ferramentas preferidas para criar seu próprio conjunto de ferramentas analíticas preditivas.

Extract, transform, load (ETL)

O EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.

Saiba como o Redfin usa os clusters transitórios do EMR para ETL »

Análise de clickstreams

Analise dados de clickstream do Amazon S3 usando o Apache Spark e o Apache Hive para segmentar usuários, entender as preferências dos usuários e criar anúncios mais eficazes.

Streaming em tempo real

Analise eventos do Apache Kafka, do Amazon Kinesis ou de outras fontes de dados de streaming em tempo real com o streaming do Apache Spark e o Apache Flink para criar pipelines de dados de streaming de longa duração, com alta disponibilidade e tolerantes a falhas no EMR. Persista os conjuntos de dados transformados para o S3 ou o HDFS e as informações para o Amazon Elasticsearch Service.

Saiba como a Hearst usa o Spark Streaming »

Análise interativa

Os Blocos de anotações do EMR disponibilizam um ambiente analítico gerenciado, baseado no Jupyter de código aberto, que possibilita que cientistas de dados, analistas e desenvolvedores preparem e visualizem dados, colaborem com colegas, desenvolvam aplicativos e executem análises interativas.

Genômica

O EMR pode ser usado para processar grandes quantidades de dados de genoma e outros grandes conjuntos de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados genômicos hospedados gratuitamente na AWS.

Saiba mais sobre o Apache Spark e a medicina de precisão »

Estudos de caso

Pesquisas de analistas

Mais...

Novidades

data
  • data
1

Comece a usar a AWS

Leia o guia de migração do EMR
Leia o guia de migração

Saiba como migrar o big data do local para a AWS.

Saiba mais 
Cadastre-se para obter uma conta gratuita da AWS
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Comece a criar com o EMR no console
Comece a criar no console

Comece a criar usando o Amazon EMR no Console AWS.

Faça login 

Migre big data do local para a AWS

Recursos para ajudar a planejar sua migração

Saiba mais sobre big data e análises na AWS

Leia o blog sobre big data da AWS