O Amazon Data Firehose é a maneira mais fácil de carregar dados de streaming em datastores e ferramentas de análise. O Data Firehose é um serviço totalmente gerenciado que facilita capturar, transformar e carregar volumes enormes de dados de streaming de centenas de milhares de fontes para tabelas do Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, Apache Iceberg, endpoints HTTP genéricos e provedores de serviços como Datadog, New Relic, MongoDB e Splunk, viabilizando análises e insights em tempo real.
Fluxos do Firehose
Um fluxo do Firehose é a entidade subjacente do Firehose. Você usa o Firehose criando um fluxo do Firehose e enviando dados para ele.
Principais atributos
Facilidade de iniciar e configurar
É possível iniciar o Amazon Data Firehose e criar um fluxo de entrega para carregar dados em tabelas do Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, Apache Iceberg, endpoints HTTP, Datadog, New Relic, MongoDB ou Splunk com apenas alguns cliques no Console de Gerenciamento da AWS. Você pode enviar dados para o fluxo de entrega chamando a API do Firehose ou executando o atendente do Linux que disponibilizamos na fonte de dados. O Data Firehose carrega continuamente os dados nos destinos especificados.
Escalabilidade flexível para lidar com diferentes throughputs de dados
Depois de iniciados, seus fluxos do Firehose aumentam a escala verticalmente de forma automática para lidar com gigabytes por segundo ou mais de dados de entrada, além de manter a latência de dados nos níveis que você especificar para o fluxo, dentro dos limites. Não é necessário fazer intervenção ou manutenção.
Carregue novos dados em segundos
Você pode especificar um tamanho ou intervalo de lote para controlar com que velocidade os dados serão carregados para os seus destinos. Por exemplo, você pode definir o intervalo do lote entre zero segundo e 15 minutos. Além disso, você pode especificar se os dados devem ser compactados ou não. O serviço é compatível com algoritmos de compactação comuns que incluem GZip, Snappy compatível com Hadoop, Zip e Snappy. A divisão em lotes e a compactação de dados antes do carregamento permitem que você controle a velocidade com que você recebe novos dados em seus destinos.
Suporte a várias fontes de dados
O Firehose lê dados facilmente de mais de 20 fontes de dados, incluindo clusters do Amazon MSK e MSK Serverless, Amazon Kinesis Data Streams, Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core e muito mais.
Conversão para formato Apache Parquet ou ORC
O Firehose é compatível com os formatos de dados colunares, como Apache Parquet e Apache ORC, são otimizados para armazenamento e análises econômicos usando serviços como Amazon Athena, Amazon Redshift Spectrum, Amazon EMR e outras ferramentas baseadas no Hadoop. O Firehose pode converter o formato dos dados recebidos de JSON para Parquet ou ORC antes de armazená-los no Amazon S3, o que permite reduzir os custos de armazenamento e análises.
Entregar dados particionados ao S3
Particione dinamicamente dados de transmissão antes de entregá-los ao S3 usando chaves bem definidas estática ou dinamicamente como “customer_id” ou “transaction_id”. O Firehose agrupa os dados por essas chaves e entrega em prefixos exclusivos de chave do S3, facilitando a realização de análises econômicas de alta performance no S3 usando Athena, EMR e Redshift Spectrum. Saiba mais »
Transformações de dados integradas
Você pode configurar o Amazon Data Firehose para preparar os dados de streaming antes de serem carregados para os datastores. Basta selecionar uma função do AWS Lambda na guia de configuração do fluxo do Amazon Data Firehose no Console de Gerenciamento da AWS. O Amazon Data Firehose aplicará automaticamente essa função a cada registro de dados de entrada e carregará os dados transformados para os destinos. O Amazon Data Firehose oferece esquemas do Lambda pré-compilados para converter fontes de dados comuns, como logs do Apache e do sistema, nos formatos JSON e CSV. Você pode usar esses esquemas pré-compilados sem alteração, personalizá-los mais ou escrever suas próprias funções personalizadas. Você também poderá configurar o Amazon Data Firehose para repetir automaticamente os trabalhos com falha e fazer backup dos dados brutos de streaming. Saiba mais »
Suporte a vários destinos de dados
O Firehose lê dados facilmente de mais de 20 fontes de dados, incluindo clusters do Amazon MSK e MSK Serverless, Amazon Kinesis Data Streams, Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core e muito mais. Atualmente, o Amazon Data Firehose oferece suporte a tabelas do Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, Apache Iceberg, endpoints HTTP, Datadog, New Relic, MongoDB e Splunk como destinos. Você pode especificar o bucket do Amazon S3 de destino, a tabela do Amazon Redshift, o domínio do Amazon OpenSearch Service, os endpoints HTTP genéricos ou um provedor de serviços no qual os dados devem ser carregados.
Criptografia automática opcional
O Amazon Data Firehose disponibiliza a opção de criptografar seus dados automaticamente após eles terem sido carregados no destino. Como parte da configuração do fluxo do Firehose, você pode especificar uma chave de criptografia do AWS Key Management System (KMS).
Métricas para o monitoramento de performance
O Amazon Data Firehose expõe várias métricas por meio do console, como também pelo Amazon CloudWatch, inclusive o volume de dados enviados, o volume de dados carregados no destino, o tempo de transferência da origem até o destino, os limites do fluxo do Firehose, o número de registros restritos e a taxa de sucesso de upload.
Definição de preço conforme o uso
Com o Amazon Data Firehose, você paga apenas pelo volume de dados transmitidos pelo serviço e, se aplicável, pela conversão do formato de dados. Você também paga pela entrega e pela transferência de dados do Amazon VPC, quando aplicável. Não há taxas mínimas nem compromissos antecipados. Você não precisa de uma equipe para operar, escalar e manter aplicações personalizadas ou de infraestrutura para capturar e carregar dados de streaming.
Saiba mais sobre a definição de preço do Amazon Data Firehose