Amazon EMR
O Amazon EMR é a plataforma de big data em nuvem líder do setor para processar grandes quantidades de dados usando ferramentas de código aberto, como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto. O Amazon EMR facilita a configuração, operação e escala de seus grandes ambientes de dados, automatizando tarefas demoradas como capacidade de provisionamento e grupos de ajuste. Com o EMR, você pode executar análises em escala de Petabytes a menos da metade do custo das soluções tradicionais locais e mais de três vezes mais rápido que o Apache Spark padrão. Você pode executar cargas de trabalho em instâncias do Amazon EC2, em clusters do Amazon Elastic Kubernetes Service (EKS) ou em locais usando o EMR no AWS Outposts.
Benefícios
Fácil de usar
Analistas, engenheiros e cientistas de dados podem usar Blocos de anotações do EMR para colaborarem facilmente e explorarem, processarem e visualizarem dados. Você pode simplesmente especificar a versão das aplicações EMR e o tipo de computação que deseja usar. O EMR cuida do provisionamento, configuração e ajuste de clusters para que você possa se concentrar na execução da análise.
Baixo custo
A definição de preço do EMR é simples e previsível: você paga uma taxa por instância para cada segundo usado, com uma cobrança mínima de um minuto. Você pode lançar um cluster do EMR de 10 nós por apenas 0,15 USD por hora. Você também pode economizar 50-80% sobre o custo das instâncias selecionando o Amazon EC2 Spot para cargas de trabalho transitórias e Instâncias reservadas para cargas de trabalho de longa execução. Você também pode usar o Savings Plans.
Elastic
Ao contrário da infraestrutura rígida dos clusters locais, o EMR desacopla o armazenamento computacional, permitindo a você escalar cada um de forma independente e aproveitar o armazenamento em camadas do Amazon S3. Com o EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou reduzir o número de instâncias de forma automática usando o Auto Scaling (que gerencia o tamanho do cluster com base na utilização) e você só paga pelo que usa.
Confiável
Você pode gastar menos tempo ajustando e monitorando seu cluster. O EMR está ajustado para a nuvem e monitora constantemente o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixa performance. Os clusters têm alta disponibilidade e falham automaticamente em caso de uma falha do nó. O EMR fornece os lançamentos de software de código aberto mais recentes e estáveis para que você não precise gerenciar atualizações e correções de erros, o que leva a menos problemas e menos esforço para manter o ambiente.
Segurança
O EMR configura automaticamente as configurações de firewall do EC2 que controlam o acesso via rede para as instâncias e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC). A criptografia no lado do servidor ou a criptografia no lado do cliente podem ser usadas com o AWS Key Management Service ou suas próprias chaves gerenciadas pelo cliente. O EMR facilita a habilitação de outras opções de criptografia, como a criptografia em trânsito e em repouso, e a autenticação forte com Kerberos. Você pode usar o AWS Lake Formation ou o Apache Ranger aplicar controles de acesso a dados refinados para bancos de dados, tabelas e colunas.
Flexível
Você tem total controle sobre seus clusters EMR e seus trabalhos individuais EMR. Você pode lançar clusters EMR com as AMIs personalizadas do Amazon Linux e facilmente configurar os clusters usando scripts para instalar pacotes de software adicionais de terceiros. O EMR permite reconfigurar aplicações nos clusters em execução em tempo real sem a necessidade de reiniciar clusters. Além disso, você pode personalizar o ambiente de execução para trabalhos individuais, especificando as bibliotecas e dependências de tempo de execução em um contêiner Docker e enviá-las com seu trabalho.
Opções de implantação
Amazon EMR no Amazon EC2
Você pode implantar o EMR no Amazon EC2 e tirar proveito de Instâncias Sob Demanda, Reservadas e Spot. O EMR gerencia o provisionamento, gerenciamento e escalonamento das instâncias do EC2. A AWS oferece mais opções de instância do que qualquer outro fornecedor de nuvens, permitindo que você escolha a instância que lhe dá o melhor desempenho ou custo para sua carga de trabalho.
Amazon EMR no Amazon EKS
Você pode usar o ERMR para executar trabalhos do Apache Spark sob demanda no Amazon Elastic Kubernetes Service (EKS), sem precisar fornecer clusters de EMR, para melhorar a utilização dos recursos e simplificar o gerenciamento da infraestrutura. O Amazon EKS oferece flexibilidade para iniciar, rodar e dimensionar aplicações Kubernetes na Nuvem AWS ou no local. Com o Amazon EMR no EKS, você pode compartilhar recursos de computação e memória em todas as suas aplicações e usar um único conjunto de ferramentas Kubernetes para monitorar e gerenciar centralmente sua infraestrutura.
Amazon EMR no AWS Outposts
O Amazon EMR está disponível no AWS Outposts, permitindo configurar, implantar, gerenciar e escalonar EMR em seus ambientes no local, da mesma forma que faria na nuvem. O AWS Outposts leva serviços, infraestrutura e modelos operacionais da AWS a praticamente qualquer datacenter, espaço de colocação ou instalações no local.
Casos de uso
Machine learning
Use as ferramentas incorporadas de machine learning do EMR, o que inclui o Apache Spark MLlib, o TensorFlow e o Apache MXNet para algoritmos escaláveis de machine learning e use ações de bootstrap e AMIs personalizadas para facilitar a adição de suas bibliotecas e ferramentas preferidas para criar seu próprio conjunto de ferramentas analíticas preditivas.
Extract, transform, load (ETL)
O EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.
Análise de clickstreams
Analise dados de clickstream do Amazon S3 usando o Apache Spark e o Apache Hive para segmentar usuários, entender as preferências dos usuários e criar anúncios mais eficazes.
Streaming em tempo real
Analise eventos do Apache Kafka, do Amazon Kinesis ou de outras fontes de dados de streaming em tempo real com o streaming do Apache Spark e o Apache Flink para criar pipelines de dados de streaming de longa duração, com alta disponibilidade e tolerantes a falhas no EMR. Persista os conjuntos de dados transformados para o S3 ou o HDFS e as informações para o Amazon Elasticsearch Service.
Análise interativa
Os Blocos de anotações do EMR disponibilizam um ambiente analítico gerenciado, baseado no Jupyter de código aberto, que possibilita que cientistas de dados, analistas e desenvolvedores preparem e visualizem dados, colaborem com colegas, desenvolvam aplicativos e executem análises interativas.
Genômica
O EMR pode ser usado para processar grandes quantidades de dados de genoma e outros grandes conjuntos de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados genômicos hospedados gratuitamente na AWS.
Novidades
Comece a usar a AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.
Migre big data do local para a AWS
Saiba mais sobre big data e análises na AWS