Pular para o conteúdo principal

Amazon EMR

Por que escolher o Amazon EMR?

O Amazon EMR é um serviço de processamento de big data que acelera workloads de analytics com flexibilidade e escalabilidade incomparáveis. O EMR apresenta runtimes com performance otimizada para Apache Spark, Trino, Apache Flink e Apache Hive, reduzindo drasticamente os custos e os tempos de processamento. O serviço integra-se perfeitamente com a AWS, simplificando os fluxos de trabalho do data lake e as arquiteturas em escala empresarial. Com escalabilidade automática integrada, monitoramento inteligente e infraestrutura gerenciada, o EMR permite que você se concentre em extrair insights, em vez de gerenciar clusters, oferecendo analytics em escala de petabytes com eficiência, sem a sobrecarga operacional das soluções tradicionais.

Missing alt text value

Opções flexíveis de implantação

Por que usar o EMR Sem Servidor?

O Amazon EMR Sem Servidor facilita para analistas e engenheiros de dados a execução de estruturas de big data analytics de código aberto, como o Apache Spark, sem a necessidade de configurar, gerenciar e escalar clusters ou servidores.  O EMR Sem Servidor é a maneira mais rápida de começar a utilizar todos os atributos e benefícios do Amazon EMR sem a necessidade de especialistas para planejar e gerenciar clusters.  

EMR Sem Servidor

Por que escolher o Amazon EMR no Amazon EC2?

O Amazon EMR no Amazon EC2 oferece controle sobre a configuração do cluster e é compatível com clusters de longa duração, tornando-o ideal para tarefas contínuas de processamento de dados que exigem configurações específicas de hardware. É possível instalar aplicações personalizadas juntamente com frameworks populares, como Apache Spark e Trino, oferecendo uma ampla variedade de tipos de instâncias do EC2 para otimizar os custos e a performance. A integração com outros serviços da AWS e a capacidade de utilizar instâncias Spot tornam esta solução econômica para organizações que necessitam de controle granular sobre suas operações de big data.

Por que escolher o Amazon EMR no Amazon EKS?

O Amazon EMR no Amazon Elastic Kubernetes Service (EKS) permite enviar trabalhos do Apache Spark sob demanda no EKS sem provisionar clusters EMR. Com o EMR no EKS, é possível executar suas workloads analíticas no mesmo cluster Amazon EKS que suas outras aplicações baseadas em Kubernetes para melhorar a utilização de recursos e simplificar o gerenciamento da infraestrutura.  

Amazon EMR no Amazon EKS

Processe seus dados com o Amazon EMR na próxima geração do Amazon SageMaker

O Amazon EMR está disponível na próxima geração do Amazon SageMaker, o que permite executar facilmente o Apache Spark, o Trino e outras frameworks de analytics de código aberto em um ambiente unificado de desenvolvimento de dados e IA.e de código aberto em um ambiente unificado de desenvolvimento de dados e IA.

Saiba mais.

Missing alt text value

Benefícios

O Amazon EMR combina o Apache Spark otimizado para performance para um processamento mais rápido e econômico com a flexibilidade de escolher tipos de instâncias, incluindo Instâncias Spot, e ajuste de escala automático totalmente gerenciado que ajusta dinamicamente o tamanho do cluster, eliminando o provisionamento excessivo e reduzindo os gastos gerais.

O Amazon EMR oferece performance até 3,9 vezes superior em comparação com o Apache Spark de código aberto, mantendo a compatibilidade com a API. Ele permite que os clientes implantem estruturas de código aberto de sua escolha: Apache Spark, Trino, Apache Flink ou Apache Hive. O EMR é compatível com formatos de tabela abertos populares, como Iceberg, Hudi e Delta, para acelerar o tempo de obtenção de insights.

O EMR oferece opções de implantação, incluindo EMR com tecnologia sem servidor para processamento totalmente gerenciado e sem infraestrutura, EMR no EC2 para controle refinado de clusters e EMR no EKS para workloads de big data nativas do Kubernetes. Seja executando clusters de curto prazo para trabalhos sob demanda ou clusters de longa duração para tarefas persistentes, o EMR se adapta às suas necessidades operacionais enquanto otimiza os custos por meio da alocação flexível de recursos e da escalabilidade eficiente.

O Amazon EMR na próxima geração do Amazon SageMaker permite que você execute estruturas de código aberto como Apache Spark, Trino e Apache Flink, permitindo que você escale workloads de analytics sem esforço, tudo sem provisionar ou gerenciar infraestrutura. Com os recursos do EMR no Amazon SageMaker, é possível unificar o processamento de dados e o desenvolvimento de modelos, habilitando fluxos de trabalho completos, desde a transformação de dados brutos até a implantação de IA em um único ambiente colaborativo.

Casos de uso

Execute processamento de dados distribuídos e análises de hipóteses em grande escala usando algoritmos estatísticos e modelos preditivos para revelar padrões ocultos, correlações, tendências de mercado e preferências dos clientes.
Extraia dados de diversas fontes, processe-os em escala e disponibilize-os para aplicações e usuários.
Analise eventos de origens de dados de transmissão em tempo real para criar pipelines de dados de transmissão de longa duração, alta disponibilidade e tolerantes a falhas.
Analise dados usando frameworks de ML de código aberto, como Apache Spark MLlib, TensorFlow e Apache MXNet. Conecte-se ao Amazon SageMaker Studio para realizar treinamento de modelos, análises e relatórios em grande escala.