O Apache Spark é um sistema de processamento distribuído de código aberto usado comumente para cargas de trabalho de big data. O Apache Spark utiliza o armazenamento em cache na memória e a execução otimizada para desempenho rápido, além de sustentar processamento em lotes geral, análise de streaming, aprendizado de máquina, bancos de dados gráficos e consultas ad hoc. 

O Apache Spark no Hadoop YARN é sustentado de modo nativo no Amazon EMR e você pode criar clusters gerenciados do Apache Spark rápido e facilmente por meio do Console de Gerenciamento da AWS, da AWS CLI ou da API do Amazon EMR. Além disso, você pode utilizar recursos adicionais do Amazon EMR, inclusive a conectividade rápida do Amazon S3, usando o Amazon EMR File System (EMRFS), a integração com o mercado spot do Amazon EC2, o catálogo de dados do AWS Glue e o Auto Scaling para adicionar ou remover instâncias de um cluster. Além disso, você pode usar o Apache Zeppelin para criar blocos de anotações interativos e colaborativos para exploração de dados com o Apache Spark e usar estruturas de aprendizado profundo como Apache MXNet com aplicativos Spark.

Spark-logo-192x100px
S3_Sketch_Available

Ao usar um mecanismo de execução de gráfico acíclico dirigido (DAG), o Apache Spark pode criar planos de consulta eficientes para transformações de dados. O Apache Spark também armazena dados de entrada, saída e intermediários na memória como conjuntos de dados resilientes e distribuídos (RDDs), o que permite um processamento rápido e sem custos de E/S, aumentando o desempenho de cargas de trabalho iterativas e interativas.

S3_Sketch_HighPerformance

O Apache Spark sustenta de modo nativo Java, Scala e Python, oferecendo a você várias linguagens para a criação de aplicativos. Além disso, você pode enviar consultas SQL ou HiveQL para o Apache Spark usando o módulo Spark SQL. Além de executar aplicativos, você pode usar a API do Apache Spark de modo interativo com Python ou Scala diretamente no shell do Apache Spark no seu cluster. Você também pode utilizar o Zeppelin para criar blocos de anotações interativos e colaborativos para a exploração e a visualização de dados. Além disso, você pode ajustar e depurar cargas de trabalho usando o histórico de aplicativos do Spark no console do Amazon EMR ou o servidor de IU e histórico do Spark nativos no cluster.

S3_Sketch_Simple

O Apache Spark inclui várias bibliotecas para ajudar a criar aplicações de aprendizado de máquina (MLlib), processamento de streams (Spark Streaming) e processamento de gráficos (GraphX). Essas bibliotecas estão solidamente integradas ao ecossistema do Apache Spark e podem ser utilizadas automaticamente para contemplar vários casos de uso. Além disso, é possível usar estruturas de aprendizado profundo como Apache MXNet com aplicativos Spark.

Benefit_Workflow_Green

Envie trabalhos do Apache Spark com a etapa de API do Amazon EMR. Use o Apache Spark com o EMRFS para acessar dados diretamente no Amazon S3, economizar custos usando a capacidade spot do Amazon EC2, usar o Auto Scaling para aumentar ou reduzir a capacidade de modo dinâmico e executar clusters de longa execução ou temporários para atender à sua carga de trabalho. Você também pode configurar facilmente a criptografia do Spark e a autenticação do Kerberos usando uma configuração de segurança do Amazon EMR. Além disso, você pode usar o catálogo de dados do AWS Glue para armazenar metadados de tabelas SQL do Spark. O Amazon EMR instala e gerencia o Apache Spark no Hadoop YARN, e você também pode adicionar outros aplicativos do Hadoop no seu cluster. Clique aqui para obter mais detalhes sobre os recursos do Amazon EMR.


Yelp

A equipe de direcionamento de anúncios da Yelp cria modelos de previsão para determinar a probabilidade de um usuário interagir com o anúncio. Ao usar o Apache Spark no Amazon EMR para processar grandes volumes de dados para o treinamento de modelos de aprendizado de máquina, a Yelp aumenta a receita e a taxa de cliques de anúncios.

The Washington Post

O Washington Post usa o Apache Spark no Amazon EMR para criar modelos que alimentem seu mecanismo de recomendação de sites para aumentar o engajamento e a satisfação do leitor. Eles utilizam a conectividade com bom desempenho do Amazon EMR junto ao Amazon S3 para atualizar modelos praticamente em tempo real.

Intent Media

A Intent Media opera uma plataforma de anúncios sobre sites de viagens. A equipe de dados usa o Apache Spark e o MLlib no Amazon EMR para consumir diariamente terabytes de dados de comércio eletrônico. Essas informações são usadas para alimentar seus serviços de tomada de decisões, o que otimiza a receita do cliente. Clique aqui para saber mais.

Krux

Como parte da sua plataforma de gerenciamento de dados para obter percepções do cliente, a Krux executa muitas cargas de trabalho de aprendizado de máquina e processamento geral usando o Apache Spark. A Krux usa clusters temporários do Amazon EMR com capacidade spot do Amazon EC2 para economizar custos, além de utilizar o Amazon S3 com o EMRFS como uma layer de dados para o Apache Spark.

Leia mais »

GumGum

A GumGum, uma plataforma de anúncios em imagens e telas, usa o Spark no Amazon EMR para previsão de inventário, processamento de logs de sequência de cliques e análise ad hoc de dados não estruturados no Amazon S3. As melhorias no desempenho do Spark economizaram para a GumGum tempo e dinheiro que seriam gastos nessas cargas de trabalho.
 

Leia mais »

Hearst Corporation

A Corporação Hearst, uma grande empresa de mídia e informações diversificadas, tem clientes visualizando conteúdo em mais de 200 propriedades da web. Ao usar o Apache Spark Streaming no Amazon EMR, a equipe editorial da Hearst consegue controlar em tempo real quais artigos estão apresentando bom desempenho e quais temas são os assuntos do momento.
 

Leia mais »

CrowdStrike

A CrowdStrike disponibiliza proteção de endpoint para eliminar violações. Eles usam o Amazon EMR com Spark para processar centenas de terabytes de dados de evento, que são compilados em descrições comportamentais de nível superior nos hosts. Por meio desses dados, a CrowdStrike pode extrair dados de evento em conjunto e identificar a presença de atividades maliciosas.
 

Leia mais »


Consuma e processe dados em tempo real do Amazon Kinesis, do Apache Kafka ou de outros streams de dados com o Spark Streaming no Amazon EMR. Execute a análise de streaming de modo tolerante a falhas e grave os resultados no Amazon S3 ou no HDFS armazenado no cluster.

 

O Apache Spark no Amazon EMR inclui o MLlib para vários algoritmos de aprendizado de máquina escaláveis ou você pode usar suas próprias bibliotecas. Ao armazenar conjuntos de dados na memória durante um trabalho, o Spark obtém excelente desempenho para consultas iterativas comuns em cargas de trabalho de aprendizado de máquina.

 

 

Use o Spark SQL para consultas interativas de baixa latência com SQL ou HiveQL. O Apache Spark no Amazon EMR pode utilizar o EMRFS para que você tenha acesso ad hoc aos seus conjuntos de dados no Amazon S3. Além disso, você pode usar blocos de anotações do Zeppelin ou ferramentas de BI por meio de conexões ODBC e JDBC.