Amazon EMR

Execute e escale facilmente o Apache Spark, o Hadoop, o HBase, o Presto, o Hive e outras estruturas de big data

O Amazon EMR disponibiliza uma estrutura gerenciada do Hadoop que torna fácil, rápido e econômico processar grandes volumes de dados em instâncias do Amazon EC2 escaláveis de modo dinâmico. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark, HBase, Presto e Flink, além de interagir com outros datastores da AWS, como Amazon S3 e Amazon DynamoDB.

O Amazon EMR processa um amplo conjunto de casos de uso de big data com segurança e confiabilidade, inclusive análise de logs, indexação da web, transformações de dados (ETL), Machine Learning, análise financeira, simulação científica e bioinformática.

Intro to Amazon EMR (3min:06s)

Benefícios

Fácil de usar

É possível iniciar um cluster Amazon EMR em minutos. Você não precisa se preocupar com provisionamento de nós, configuração de clusters, configuração do Hadoop ou ajustes de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise.

Baixo custo

A definição de preço do Amazon EMR é simples e previsível: você paga uma taxa por segundo para cada segundo usado, com uma cobrança mínima de um minuto. Você pode lançar um cluster Hadoop de 10 nós por apenas 0,15 USD por hora. Como o Amazon EMR oferece suporte nativo para instâncias spot e reservadas do Amazon EC2, é possível economizar de 50 a 80% no custo das instâncias subjacentes.

Elástico

Com o Amazon EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou diminuir facilmente o número de instâncias manualmente ou usando o Auto Scaling e pagar apenas pelo que usar.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O Amazon EMR ajustou o Hadoop para a nuvem. Além disso, ele monitora o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixa performance.

Seguro

O Amazon EMR configura automaticamente as configurações de firewall do Amazon EC2 que controlam o acesso via rede para as instâncias, e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no Amazon S3, você pode usar a criptografia no lado do servidor ou a criptografia no lado do cliente do Amazon S3 com o EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente. Você também pode habilitar facilmente outras opções de criptografia e autenticação com o Kerberos.

Flexível

Você tem controle total sobre seu cluster. Você tem acesso ao root de todas as instâncias. Portanto, você pode instalar facilmente aplicativos adicionais e personalizar cada cluster com ações de bootstrap. Você também pode iniciar clusters do Amazon EMR com AMIs personalizadas do Amazon Linux.

Casos de uso

Análise de clickstreams

O Amazon EMR pode ser usado para analisar dados de clickstream para segmentar usuários, compreender preferências dos usuários e criar anúncios mais eficazes.

Saiba como o Razorfish usa o EMR para análise de clickstreams »

Análise em tempo real

Consuma e processe dados em tempo real do Amazon Kinesis, do Apache Kafka ou de outros streams de dados com o Spark Streaming no Amazon EMR. Execute a análise de streaming de modo tolerante a falhas e grave os resultados no Amazon S3 ou no HDFS.

Saiba como a Hearst usa o Spark Streaming »

Análise de registros

O Amazon EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em insights úteis sobre seus aplicativos e usuários.

Extract Transform Load (ETL)

O Amazon EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.

Saiba como o Redfin usa os clusters transitórios do EMR para ETL »

Análises preditivas

O Apache Spark no Amazon EMR inclui o MLlib para algoritmos de Machine Learning escaláveis ou você pode usar suas próprias bibliotecas. Ao armazenar conjuntos de dados na memória, o Spark pode disponibilizar excelente performance para cargas de trabalho comuns de Machine Learning.

Saiba como a Intent Media usa o Spark MLib »

Genômica

O Amazon EMR pode ser usado para processar grandes quantidades de dados de genoma e outros conjuntos maciços de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados de genoma hospedados gratuitamente na AWS.

Saiba mais sobre o Apache Spark e a medicina de precisão »

Estudos de caso

Conceitos básicos da AWS

icon1

Cadastrar-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.
icon2

Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.
icon3

Comece a criar com a AWS

Comece a compilar com os guias passo a passo que ajudam a iniciar seu projeto da AWS.

Saiba mais sobre o Amazon EMR

Acesse a página de recursos
Pronto para criar?
Comece a usar o Amazon EMR
Mais dúvidas?
Entre em contato conosco