Amazon EMR

Execute e escale facilmente o Apache Spark, o Hadoop, o HBase, o Presto, o Hive e outras estruturas de big data

O Amazon EMR é a plataforma de big data nativa da nuvem líder do setor, que permite que as equipes processem grandes quantidades de dados com rapidez, de forma econômica e em grande escala. Usando ferramentas de código aberto, como o Apache Spark, o Apache Hive, o Apache HBase, o Apache Flink e o Presto, combinados à escalabilidade dinâmica do Amazon EC2 e ao armazenamento escalável do Amazon S3, o EMR oferece às equipes analíticas os mecanismos e a elasticidade para executar análises na escala de petabytes por uma fração do custo dos clusters locais tradicionais. Desenvolvedores e analistas podem usar Notebooks EMR baseados em Jupyter para permitir o desenvolvimento iterativo, a colaboração e o acesso a dados armazenados nos produtos de dados da AWS, como o Amazon S3, o Amazon DynamoDB e o Amazon Redshift, para reduzir o tempo para obtenção de informações e para operacionalizar rapidamente as análises.

Clientes de diversos setores usam o EMR para proteger e manipular de forma confiável grandes conjuntos de casos de uso de big data, o que inclui machine learning, transformações de dados (ETL), simulações financeiras e científicas, bioinformática, análises de registros e aprendizagem profunda. O EMR dá às equipes flexibilidade para executar casos de uso em clusters de curta duração específicos que são dimensionados automaticamente para atender à demanda ou em clusters de longa duração com alta disponibilidade que usam o novo modo de implantação multi-master. 

Introdução ao Amazon EMR (3:00)

Benefícios

Fácil de usar

O EMR lança clusters em minutos. Você não precisa se preocupar com o provisionamento de nós, a configuração de infraestrutura, a configuração do Hadoop nem com o ajuste de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise. Analistas, engenheiros de dados e cientistas de dados podem executar um notebook Jupyter sem servidor em segundos usando Notebooks EMR, permitindo que equipes e indivíduos colaborem e explorem, processem e visualizem dados de forma interativa em um formato de notebook fácil de usar.

Baixo custo

A definição de preço do EMR é simples e previsível: você paga uma taxa por instância para cada segundo usado, com uma cobrança mínima de um minuto. Você pode iniciar um cluster EMR de 10 nós usando aplicativos como Apache Spark e Apache Hive, por apenas 0,15 USD por hora. Como o EMR oferece suporte nativo para spot do Amazon EC2 e instâncias reservadas, é possível economizar de 50 a 80% no custo das instâncias subjacentes.

Elástico

Com o EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou reduzir o número de instâncias de forma manual ou automática usando o Auto Scaling (que gerencia o tamanho do cluster com base na utilização) e você só paga pelo que usa. Ao contrário da infraestrutura rígida dos clusters locais, o EMR desassocia o armazenamento computacional e persistente, permitindo a você escalar cada um de forma independente.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O EMR está ajustado para a nuvem e monitora constantemente o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixa performance. O EMR fornece os lançamentos de software de código aberto mais recentes e estáveis, para que você não precise gerenciar atualizações e correções de erros, levando a menos problemas e menos esforço para manter o ambiente. Com vários nós mestre, os clusters têm alta disponibilidade e falham automaticamente em caso de uma falha do nó.

Seguro

O EMR configura automaticamente as configurações de firewall do EC2 que controlam o acesso via rede para as instâncias e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no S3, a criptografia no lado do servidor ou a criptografia no lado do cliente podem ser usadas com o EMRFS (um armazenamento de objetos para Hadoop no S3), usando o AWS Key Management Service ou suas próprias chaves gerenciadas pelo cliente. O EMR facilita a habilitação de outras opções de criptografia, como a criptografia em trânsito e em repouso, e a autenticação forte com Kerberos.

Flexível

Você tem controle total sobre seu cluster. Você tem acesso raiz a todas as instâncias, pode instalar facilmente aplicativos adicionais e pode personalizar cada cluster com ações de bootstrap. Você também pode executar clusters do EMR com AMIs personalizadas do Amazon Linux e reconfigurar clusters em execução em qualquer lugar sem precisar executar novamente o cluster.

Casos de uso

Machine learning

Use as ferramentas incorporadas de machine learning do EMR, o que inclui o Apache Spark MLlib, o TensorFlow e o Apache MXNet para algoritmos escaláveis de machine learning e use Ações de Bootstrap e AMIs personalizadas para facilitar a adição de suas bibliotecas e ferramentas preferidas para criar seu próprio conjunto de ferramentas analíticas preditivas.

Saiba como a Intent Media usa o Spark MLib »

Extract Transform Load (ETL)

O EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.

Saiba como o Redfin usa os clusters transitórios do EMR para ETL »

Análise de clickstreams

Analise dados de clickstream do Amazon S3 usando o Apache Spark e o Apache Hive para segmentar usuários, entender as preferências dos usuários e criar anúncios mais eficazes.

Saiba como o Razorfish usa o EMR para análise de clickstreams »

Streaming em tempo real

Analise eventos do Apache Kafka, do Amazon Kinesis ou de outras fontes de dados de streaming em tempo real com o streaming do Apache Spark e o EMR para criar pipelines de dados de streaming de longa duração, com alta disponibilidade e tolerantes a falhas. Persista os conjuntos de dados transformados para o Amazon S3 ou o HDFS e as informações para o Amazon Elasticsearch.

Saiba como a Hearst usa o Spark Streaming »

Análise interativa

Os Notebooks EMR disponibilizam um ambiente analítico gerenciado, baseado no Jupyter de código aberto, que possibilita que cientistas de dados, analistas e desenvolvedores preparem e visualizem dados, colaborem com colegas, desenvolvam aplicativos e executem análises interativas.

Genômica

O EMR pode ser usado para processar grandes quantidades de dados de genoma e outros grandes conjuntos de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados genômicos hospedados gratuitamente na AWS.

Saiba mais sobre o Apache Spark e a medicina de precisão »

Estudos de caso

Pesquisas de analistas

1

Conceitos básicos da AWS

Step 1 - Sign up for an AWS account

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.
icon2

Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.
icon3

Comece a criar com a AWS

Comece a criar usando os guias detalhados que ajudam a iniciar seu projeto da AWS.

Migre big data do local para a AWS

Leia o guia de migração do Amazon EMR

Saiba mais sobre big data na AWS

Visite o Blog sobre big data