Amazon Kinesis Data Firehose è il mezzo più semplice per caricare dati di streaming in archivi di dati e strumenti di analisi dei dati. Kinesis Data Firehose è un servizio completamente gestito che semplifica l'acquisizione, la trasformazione e il caricamento di grandi volumi di flussi di dati da centinaia di migliaia di origini in Simple Storage Service (Amazon S3), Amazon Redshift, Amazon OpenSearch Service, Kinesis Data Analytics, endpoint HTTP generici e fornitori di servizi come Datadog, New Relic, MongoDB e Splunk, consentendo di eseguire analisi dei dati e di ottenere informazioni dettagliate quasi in tempo reale.
Flussi di consegna
Un flusso di distribuzione è l'entità di base di Kinesis Data Firehose. Con Kinesis Data Firehose è possibile creare un flusso di distribuzione a cui inviare dati.
Caratteristiche principali
Semplicità di configurazione e avvio
Per avviare Amazon Kinesis Data Firehose e creare un flusso di consegna che carichi dati in Amazon S3, Amazon Redshift, Amazon OpenSearch Service, endpoint HTTP, Datadog, New Relic, MongoDB o Splunk bastano pochi clic nella console di gestione AWS. È possibile immettere dati nel flusso di consegna richiamando l'API di Firehose oppure avviando l'agente Linux fornito con l'origine dati. Kinesis Data Firehose carica quindi continuamente i dati nelle destinazioni specificate.
Caricamento di dati quasi in tempo reale
È possibile specificare le dimensioni o l'intervallo dei batch per controllare la velocità del caricamento. Ad esempio, puoi impostare un intervallo di 60 secondi tra i batch se desideri ricevere nuovi dati solo 60 secondi dopo l'invio nel flusso di distribuzione. Inoltre, puoi richiedere la compressione dei dati. Il servizio supporta gli algoritmi di compressione più utilizzati, tra cui GZip, Snappy compatibile con Hadoop, Zip e Snappy. La divisione in batch e la compressione dei dati prima del caricamento permettono un controllo ottimale sulla velocità di ricezione di nuovi dati.
Scalabilità ed elasticità per throughput variabili
Una volta avviati, i flussi di distribuzione si ricalibreranno a seconda della velocità di input dei dati, raggiungendo i gigabyte al secondo o frequenze superiori, mantenendo la latenza ai livelli desiderati ed entro i limiti stabiliti. Non è necessario alcun intervento manuale.
Conversione del formato Apache Parquet o ORC
Kinesis Data Firehose supporta i formati di dati a colonne come Apache Parquet e Apache ORC, ottimizzati per lo storage e l'analisi a costi contenuti utilizzando servizi come Amazon Athena, Amazon Redshift Spectrum, Amazon EMR e altri strumenti basati su Hadoop. Kinesis Data Firehose può convertire il formato dei dati in entrata da JSON a Parquet o ORC prima di memorizzare i dati in Amazon S3, in modo da poter risparmiare sui costi di archiviazione e di analisi.
Consegna dati partizionati ad S3
Partiziona in maniera dinamica il tuo flusso di dati prima della consegna ad S3 tramite chiavi definite in modo statico o dinamico, quali "customer_id" o "transaction_id". Kinesis Data Firehose raggruppa i dati sulla base di tali chiavi e li distribuisce tramite prefissi S3 unici, consentendoti di effettuare analisi dei dati migliori ed economicamente vantaggiose in maniera semplice su S3 con Athena, EMR e Redshift Spectrum. Ulteriori informazioni »
Trasformazione dei dati integrata
Amazon Kinesis Data Firehose può essere configurato per preparare i flussi di dati prima che vengano caricati nei datastore. È sufficiente selezionare una funzione AWS Lambda dalla scheda relativa alla configurazione del flusso di distribuzione di Amazon Kinesis Data Firehose nella Console di gestione AWS. Amazon Kinesis Data Firehose applicherà automaticamente tale funzione su tutti record di dati in entrata, caricando i dati risultanti nelle destinazioni selezionate. Amazon Kinesis Data Firehose fornisce piani Lambda predefiniti per la conversione delle origini dati più comuni, ad esempio i log di Apache e i log di sistema in formato JSON e CSV. I piani predefiniti possono essere impiegati senza alcuna modifica oppure personalizzati, o ancora è possibile scrivere funzioni completamente nuove. È possibile inoltre configurare Amazon Kinesis Data Firehose affinché esegua nuovi tentativi sui processi con errori ed effettui il backup dei flussi di dati grezzi. Ulteriori informazioni »
Supporto per destinazioni dati multiple
Le destinazioni supportate al momento da Amazon Kinesis Data Firehose sono Amazon S3, Amazon Redshift, Amazon OpenSearch Service, endpoint HTTP, Datadog, New Relic, MongoDB e Splunk. È possibile specificare, come destinazione in cui caricare i dati, un bucket Amazon S3, una tabella Amazon Redshift, un dominio Amazon OpenSearch Service, endpoint HTTP generici o un fornitore di servizi.
Crittografia automatica opzionale
Amazon Kinesis Data Firehose può anche crittografare automaticamente i dati dopo che sono stati caricati nella destinazione prescelta. È possibile specificare durante la configurazione del flusso di distribuzione una chiave di crittografia di AWS Key Management System (KMS).
Parametri per il monitoraggio delle prestazioni
Amazon Kinesis Data Firehose applica diversi parametri tramite la console e Amazon CloudWatch, tra cui il volume di dati inviati, quello di dati caricati sulla destinazione, la durata del tragitto dall'origine dati alla destinazione, i limiti dei flussi di distribuzione, il numero di record limitati e la percentuale di successi. Questi parametri sono utili per monitorare l'integrità dei flussi di distribuzione, prendere provvedimenti (ad esempio modificare le destinazioni), configurare allarmi quando si sta per raggiungere i limiti stabiliti e accertarsi che l'acquisizione e il caricamento dei dati a destinazione stiano procedendo correttamente.
Tariffe in base al consumo effettivo
I costi di Amazon Kinesis Data Firehose sono calcolati in base alla quantità di dati trasmessi mediante il servizio e, ove applicabile, alla conversione del formato dei dati. Inoltre, ti saranno addebitati i costi di distribuzione di Amazon VPC e di trasferimento di dati, ove applicabile. Non sono previste tariffe minime né impegni anticipati. Non è necessario assegnare del personale che operi, ridimensioni e mantenga l'infrastruttura o le applicazioni personalizzate per acquisire e caricare flussi di dati.
Ulteriori informazioni sui prezzi di Amazon Kinesis Data Firehose