O Apache Spark é um sistema de processamento de código aberto distribuído usado comumente para cargas de trabalho de big data. O Apache Spark utiliza o armazenamento em cache na memória e a execução otimizada para desempenho rápido, além de sustentar processamento em lotes geral, análise de streaming, aprendizado de máquina, bancos de dados gráficos e consultas ad hoc. 

O Apache HBase no Hadoop YARN é sustentado de modo nativo no Amazon EMR e você pode criar clusters gerenciados do Apache HBase rápido e facilmente por meio do Console de Gerenciamento da AWS, da AWS CLI ou da API do Amazon EMR. Além disso, você pode utilizar recursos adicionais do Amazon EMR, inclusive a conectividade rápida do Amazon S3 usando o Amazon EMR File System (EMRFS), a integração com o mercado spot do Amazon EC2 e comandos de redimensionamento para adicionar ou remover facilmente instâncias do cluster. Você também pode usar o Apache Zeppelin para criar blocos de anotações interativos e de colaboração para a exploração de dados usando o Apache Spark.

S3_Sketch_Available

Ao usar um mecanismo de execução de gráfico acíclico dirigido (DAG), o Apache Spark pode criar planos de consulta eficientes para transformações de dados. O Apache Spark também armazena dados de entrada, saída e intermediários na memória como conjuntos de dados resilientes e distribuídos (RDDs), o que permite um processamento rápido e sem custos de E/S, aumentando o desempenho de cargas de trabalho iterativas e interativas.

S3_Sketch_HighPerformance

O Apache Spark sustenta de modo nativo Java, Scala e Python, oferecendo a você várias linguagens para a criação de aplicativos. Além disso, você pode enviar consultas SQL ou HiveQL para o Apache Spark usando o módulo Spark SQL. Além de executar aplicativos, você pode usar a API do Apache Spark de modo interativo com Python ou Scala diretamente no shell do Apache Spark no seu cluster. Você também pode utilizar o Zeppelin para criar blocos de anotações interativos e colaborativos para a exploração e a visualização de dados.

S3_Sketch_Simple

O Apache Spark inclui várias bibliotecas para ajudar a criar aplicativos para aprendizado de máquina (MLlib), processamento de streams (Spark Streaming) e processamento de gráficos (GraphX). Essas bibliotecas estão solidamente integradas ao ecossistema do Apache Spark e podem ser utilizadas automaticamente para contemplar vários casos de uso.

Benefit_Workflow_Green

Envie trabalhos do Apache Spark com a etapa de API do Amazon EMR. Use o Apache Spark com o EMRFS para acessar dados diretamente no Amazon S3, economizar custos usando a capacidade spot do Amazon EC2 e executar clusters de longa execução ou temporários para atender à sua carga de trabalho. O Amazon EMR instala e gerencia o Apache Spark no Hadoop YARN, e você também pode adicionar outros aplicativos do Hadoop no seu cluster. Clique aqui para obter mais detalhes sobre os recursos do Amazon EMR.


Yelp

A equipe de direcionamento de anúncios da Yelp cria modelos de previsão para determinar a probabilidade de um usuário interagir com o anúncio. Ao usar o Apache Spark no Amazon EMR para processar grandes volumes de dados para o treinamento de modelos de aprendizado de máquina, a Yelp aumenta a receita e a taxa de cliques de anúncios.

O Washington Post

O Washington Post usa o Apache Spark no Amazon EMR para criar modelos que alimentem seu mecanismo de recomendação de sites para aumentar o engajamento e a satisfação do leitor. Eles utilizam a conectividade com bom desempenho do Amazon EMR junto ao Amazon S3 para atualizar modelos praticamente em tempo real.

Intent Media

A Intent Media opera uma plataforma de anúncios sobre sites de viagens. A equipe de dados usa o Apache Spark e o MLlib no Amazon EMR para consumir diariamente terabytes de dados de comércio eletrônico. Essas informações são usadas para alimentar seus serviços de tomada de decisões, o que otimiza a receita do cliente. Clique aqui para saber mais.

Krux

Como parte da sua plataforma de gerenciamento de dados para obter percepções do cliente, a Krux executa muitas cargas de trabalho de aprendizado de máquina e processamento geral usando o Apache Spark. A Krux usa clusters temporários do Amazon EMR com capacidade spot do Amazon EC2 para economizar custos, além de utilizar o Amazon S3 com o EMRFS como uma layer de dados para o Apache Spark.

Leia mais >>

GumGum

A GumGum, uma plataforma de anúncios em imagens e telas, usa o Spark no Amazon EMR para previsão de inventário, processamento de logs de sequência de cliques e análise ad hoc de dados não estruturados no Amazon S3. As melhorias no desempenho do Spark economizaram para a GumGum tempo e dinheiro que seriam gastos nessas cargas de trabalho.

Leia mais >>

Corporação Hearst

A Corporação Hearst, uma grande empresa de mídia e informações diversificadas, tem clientes visualizando conteúdo em mais de 200 propriedades da web. Ao usar o Apache Spark Streaming no Amazon EMR, a equipe editorial da Hearst consegue controlar em tempo real quais artigos estão apresentando bom desempenho e quais temas são os assuntos do momento.

CrowdStrike

A CrowdStrike disponibiliza proteção de endpoint para eliminar violações. Eles usam o Amazon EMR com Spark para processar centenas de terabytes de dados de evento, que são compilados em descrições comportamentais de nível superior nos hosts. Por meio desses dados, a CrowdStrike pode extrair dados de evento em conjunto e identificar a presença de atividades maliciosas.

Leia mais >>


Consuma e processe dados em tempo real do Amazon Kinesis, do Apache Kafka ou de outros streams de dados com o Spark Streaming no Amazon EMR. Execute a análise de streaming de modo tolerante a falhas e grave os resultados no Amazon S3 ou no HDFS armazenado no cluster.

 

O Apache Spark no Amazon EMR inclui o MLlib para vários algoritmos de aprendizado de máquina escaláveis, ou você pode usar suas próprias bibliotecas. Ao armazenar conjuntos de dados na memória durante um trabalho, o Spark obtém excelente desempenho para consultas iterativas comuns em cargas de trabalho de aprendizado de máquina.

Use o Spark SQL para consultas interativas de baixa latência com SQL ou HiveQL. O Apache Spark no Amazon EMR pode utilizar o EMRFS para que você tenha acesso ad hoc aos seus conjuntos de dados no Amazon S3. Além disso, você pode usar blocos de anotações do Zeppelin ou ferramentas de BI por meio de conexões ODBC e JDBC.