Apache Hadoop no Amazon EMR

Por que usar o Apache Hadoop no EMR?

O Apache™ Hadoop® é um projeto de software de código aberto que pode ser usado para processar de modo eficiente grandes conjuntos de dados. Em vez de usar um computador de grande porte para processar e armazenar os dados, o Hadoop permite o agrupamento de hardware padrão em clusters para analisar em paralelo grandes conjuntos de dados.

Existem vários aplicativos e mecanismos de execução no ecossistema do Hadoop, o que disponibiliza várias ferramentas compatíveis com as necessidades das suas cargas de trabalho de análise. O Amazon EMR facilita a criação e o gerenciamento de clusters elásticos totalmente configurados de instâncias do Amazon EC2 executando o Hadoop e outras aplicações no ecossistema do Hadoop.

Aplicativos e estruturas no ecossistema do Hadoop

Open all

Hadoop: os componentes básicos

Open all

Vantagens do Hadoop no Amazon EMR

Open all

Qual é a relação entre o Hadoop e o big data?

Mais comumente, o Hadoop é usado para processar workloads de big data por ser altamente escalável. Para aumentar a capacidade de processamento do cluster do Hadoop, adicione mais servidores com os recursos de CPU e memória de que você precisa para atender às suas necessidades.

O Hadoop proporciona um alto nível de resiliência e disponibilidade, enquanto continua processando em paralelo cargas de trabalho analíticas computacionais. A combinação de disponibilidade, resiliência e escalabilidade de processamento torna o Hadoop a escolha ideal para cargas de trabalho de big data. É possível usar o Amazon EMR para criar e configurar um cluster de instâncias do Amazon EC2 em execução no Hadoop em minutos, e começar a derivar valor dos seus dados.

Casos de uso

Apache e Hadoop são marcas registradas da Apache Software Foundation.