Dados em streaming são dados gerados continuamente por milhares de fontes de dados, que geralmente enviam os registros de dados simultaneamente, em tamanhos pequenos (na ordem dos kilobytes). Os dados em streaming incluem uma ampla variedade de dados, como arquivos de log gerados por clientes usando seus aplicativos móveis ou da web, compras de e-commerce, atividade de jogador durante o jogo, informações de redes sociais, pregões financeiros ou serviços geoespaciais, como também telemetria de serviços conectados ou instrumentação em datacenters.

Esses dados devem ser processados sequencial e incrementalmente por registro ou durante períodos móveis, e usados para uma ampla variedade de dados analíticos, como correlações, agregações, filtragem e amostragem. As informações derivadas de tais análises proporcionam às empresas visibilidade sob vários aspectos de suas atividades de negócios e de clientes, como uso de serviços (para medição/faturamento), atividade do servidor, cliques no site, além da geolocalização de dispositivos, pessoas e mercadorias, permitindo que elas respondam de imediato a situações emergentes. Por exemplo, as empresas podem monitorar alterações na percepção pública de suas marcas e produtos, analisando continuamente streams de mídias sociais e respondendo em tempo hábil, conforme o surgimento das necessidades.


O processamento de dados em streaming é benéfico na maioria dos cenários em que novos dados dinâmicos são gerados continuamente. Ele se aplica à maior parte dos casos de uso de segmentos do setor e de big data. Geralmente, as empresas começam com aplicações simples, como a coleta de logs do sistema, e processamentos rudimentares, como a rotação de computações mín/máx. Então, essas aplicações se desenvolvem, tornando-se um processamento mais sofisticado praticamente em tempo real. Inicialmente, as aplicações podem processar streams de dados para produzir relatórios simples e executar ações pouco complexas em resposta, como emitir alertas quando medidas fundamentais excederem determinados limites. Eventualmente, essas aplicações executam modelos de análise de dados mais sofisticados, como a aplicação de algoritmos de aprendizagem de máquina e a obtenção de informações mais profundas dos dados. Com o tempo, são aplicados algoritmos complexos de processamento em streams e de eventos, como períodos cada vez menores para a localização de filmes, enriquecendo ainda mais as informações obtidas.


  • Sensores em veículos de transporte, equipamentos industriais e máquinas agrícolas enviam dados para uma aplicação de streaming. A aplicação monitora o desempenho, detecta de antemão qualquer defeito em potencial e faz automaticamente pedidos de peças extras, o que evita períodos de inatividade do equipamento.
  • Uma instituição financeira monitora alterações na bolsa de valores em tempo real, calcula o valor em risco e recompõe carteiras com base nas flutuações de preço das ações.
  • Um site do setor imobiliário monitora um subconjunto de dados de dispositivos móveis de consumidores e recomenda em tempo real propriedades a visitar com base em sua localização geográfica.
  • Uma empresa de energia solar precisa manter a produtividade da energia para seus clientes, ou pagará multas. Ela implementou uma aplicação de dados em streaming que monitora todos os painéis em campo, e programa serviços em tempo real, o que minimiza os períodos de baixa produtividade de cada painel e os pagamentos de multas associados.
  • Uma editora transmite bilhões de registros de sequências de cliques de suas propriedades on-line, agrega e enriquece dados com informações demográficas sobre usuários e otimiza a disposição do conteúdo no site, proporcionando relevância e uma melhor experiência para o público.
  • Uma empresa de jogos on-line coleta dados em streaming sobre as interações dos jogadores com o jogo e alimenta os dados em sua plataforma de jogos. Em seguida, a empresa analisa os dados em tempo real, oferece incentivos e experiências dinâmicas para envolver seus jogadores.

Antes de utilizar dados em streaming, vale a pena comparar o processamento em streams e o processamento em lotes. O processamento em lotes pode ser utilizado para computar consultas arbitrárias sobre diferentes conjuntos de dados. Ele geralmente computa resultados derivados de todos os dados que engloba e permite a análise profunda de conjuntos de big data. Sistemas baseados em MapReduce, como o Amazon EMR, são exemplos de plataformas compatíveis com trabalhos em lote. Em comparação, o processamento em streams exige a ingestão de uma sequência de dados e a atualização incremental de métricas, relatórios e estatísticas de resumo em resposta a cada registro de dados recebido. Ele é mais adequado para funções de monitoramento e resposta em tempo real.

  Processamento em lotes Processamento em streams
Escopo de dados Consultas ou processamento de todos ou da maioria dos dados no conjunto de dados. Consultas ou processamento de dados dentro de um período rotacional, ou apenas do registro de dados mais recente.
Tamanho dos dados
Grandes lotes de dados.
Registros individuais ou microlotes compostos de alguns registros.
Desempenho Latências em minutos para horas. Exige latência na ordem dos segundos ou milissegundos.
Análise Dados analíticos complexos. Métricas simples de funções, agregação e rotação de respostas.

Muitas empresas estão criando um modelo híbrido ao combinar as duas abordagens, além de manter uma layer em tempo real e uma layer em lote. Primeiro, os dados são processados por uma plataforma de dados em streaming, como o Amazon Kinesis, para extrair informações em tempo real, e depois são mantidos em um armazém, como o S3, onde podem ser transformados e carregados para uma variedade de casos de uso de processamento em lotes.


O processamento de dados em streaming exige duas layers: uma de armazenamento e outra de processamento. A layer de armazenamento precisa suportar a solicitação de registros e uma forte consistência para permitir leituras e gravações rápidas, de baixo custo e reproduzíveis, de grandes streams de dados. A layer de processamento é responsável pelo consumo de dados da layer de armazenamento, realizando cálculos sobre esses dados e, em seguida, enviando notificações para a layer de armazenamento excluir os dados desnecessários. Você também deve planejar a escalabilidade, a durabilidade de dados e a tolerância a falhas nas layers de armazenamento e processamento. Como resultado, surgiram muitas plataformas que disponibilizam a infraestrutura necessária para criar aplicações de dados de streaming, como Amazon Kinesis Streams, Amazon Kinesis Firehose, Apache Kafka, Apache Flume, Apache Spark Streaming e Apache Storm.


A Amazon Web Services (AWS) oferece várias opções de trabalho com dados em streaming. Você pode aproveitar os serviços de dados em streaming oferecidos pelo Amazon Kinesis ou implantar e gerenciar sua própria solução de dados em streaming na nuvem ou no Amazon EC2.

O Amazon Kinesis é uma plataforma para dados em streaming na AWS, que oferece serviços excelentes para facilitar o carregamento e a análise de dados em streaming, além de permitir a criação de aplicações de dados em streaming personalizadas para necessidades específicas. Ele oferece dois serviços: Amazon Kinesis Firehose e Amazon Kinesis Streams.

Além disso, você pode executar outras plataformas de dados em streaming, como Apache Kafka, Apache Flume, Apache Spark Streaming e Apache Storm, no Amazon EC2 e no Amazon EMR. 

O Amazon Kinesis Streams permite que você crie suas próprias aplicações personalizadas que processam ou analisam dados de streaming para atender a necessidades específicas. Eles podem capturar e armazenar continuamente terabytes de dados por hora por meio de centenas de milhares de fontes. Em seguida, você poderá criar aplicações que consomem os dados do Amazon Kinesis Streams para fomentar painéis em tempo real, gerar alertas, implementar definição de preço e anúncios dinâmicos, e mais. O Amazon Kinesis Streams é compatível com a sua escolha de plataforma de processamento em stream, como Kinesis Client Library (KCL), Apache Storm e Apache Spark Streaming. Saiba mais sobre o Amazon Kinesis Streams »

O Amazon Kinesis Firehose é o modo mais fácil de carregar dados em streaming na AWS. Ele captura e carrega automaticamente dados em streaming no Amazon S3 e no Amazon Redshift, permitindo uma análise em tempo real usando as ferramentas e painéis de inteligência de negócios atuais que você já utiliza. Também permite que você implemente com rapidez uma abordagem de ELT e obtenha depressa os benefícios de dados em streaming. Saiba mais sobre o Amazon Kinesis Firehose »


Você pode instalar plataformas de dados em streaming de sua escolha no Amazon EC2 e no Amazon EMR, e criar suas próprias layers de armazenamento e processamento em streams. Ao criar sua solução de dados em streaming no Amazon EC2 e no Amazon EMR, você pode evitar o atrito causado pelo provisionamento da infraestrutura e obter acesso a uma variedade de estruturas de armazenamento e processamento em streams. As opções da layer de armazenamento de dados em streaming incluem o Apache Kafka e o Apache Flume. As opções da layer de processamento em streams incluem o Apache Spark Streaming e o Apache Storm.