Amazon Data Firehose è il mezzo più semplice per caricare dati in streaming in archivi di dati e strumenti di analisi. Data Firehose è un servizio interamente gestito che semplifica l'acquisizione, la trasformazione e il caricamento di grandi volumi di streaming di dati da centinaia di migliaia di origini in Amazon S3, Amazon Redshift, nel Servizio OpenSearch di Amazon, in Snowflake, nelle tabelle Apache Iceberg e Amazon S3 (anteprima), in endpoint HTTP generici e provider di servizi quali Datadog, New Relic, MongoDB e Splunk, consentendo di eseguire analisi e di ottenere informazioni dettagliate in tempo reale.
Flussi Firehose
Un flusso Firehose è l'entità di base di Firehose. Firehose si utilizza creando un flusso Firehose e inviandogli dati.
Funzionalità principali
Semplicità di configurazione e avvio
Per avviare Amazon Data Firehose e creare un flusso di consegna che carichi dati in Amazon S3, Amazon Redshift, nel Servizio OpenSearch di Amazon, in Snowflake, nelle tabelle Apache Iceberg e Amazon S3 (anteprima), endpoint HTTP, Datadog, New Relic, MongoDB o Splunk, bastano pochi clic nella Console di gestione AWS. È possibile immettere dati nel flusso di consegna richiamando l'API di Firehose oppure eseguendo l'agente Linux fornito con l'origine dati. Data Firehose carica quindi continuamente i dati nelle destinazioni specificate.
Scalabilità elastica per gestire diversi throughput dei dati
Una volta avviati, i flussi Firehose aumentano verticalmente e automaticamente per gestire gigabyte al secondo o frequenze superiori di velocità di trasmissione dei dati di input e mantenere la latenza dei dati ai livelli specificati per il flusso, entro i limiti. Non è necessario alcun intervento manuale.
Carica nuovi dati in pochi secondi
È possibile specificare le dimensioni o l'intervallo dei batch per controllare la velocità del caricamento dei dati nelle destinazioni. Ad esempio, è possibile impostare l'intervallo del batch da zero secondi a 15 minuti. Inoltre, è possibile specificare se i dati debbano essere compressi o no. Il servizio supporta gli algoritmi di compressione più utilizzati, tra cui GZip, Snappy compatibile con Hadoop, Zip e Snappy. La divisione in batch e la compressione dei dati prima del caricamento permettono un controllo ottimale sulla velocità di ricezione di nuovi dati.
Supporto per più origini dati
Firehose legge facilmente i dati da oltre 20 origini dati, tra cui cluster Amazon MSK e MSK Serverless, flusso di dati Amazon Kinesis, Database (anteprima), Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core e altro ancora.
Conversione del formato Apache Parquet o ORC
Firehose supporta i formati di dati a colonne come Apache Parquet e Apache ORC, ottimizzati per l'archiviazione e l'analisi a costi contenuti utilizzando servizi come Amazon Athena, Amazon Redshift Spectrum, Amazon EMR e altri strumenti basati su Hadoop. Firehose può convertire il formato dei dati in entrata da JSON a Parquet o ORC prima di archiviare i dati in Amazon S3, in modo da poter risparmiare sui costi di archiviazione e di analisi.
Consegna dati partizionati ad S3
È possibile partizionare in maniera dinamica il flusso di dati prima della consegna ad S3 tramite chiavi definite in modo statico o dinamico, quali "customer_id" o "transaction_id". Firehose raggruppa i dati sulla base di tali chiavi e li consegna tramite prefissi S3 unici, consentendo di effettuare analisi dei dati migliori ed economicamente vantaggiose in maniera semplice su S3 con Athena, EMR e Redshift Spectrum. Ulteriori informazioni »
Trasformazione dei dati integrata
Amazon Data Firehose può essere configurato per preparare i flussi di dati prima che vengano caricati nei datastore. È sufficiente selezionare una funzione AWS Lambda dalla scheda relativa alla configurazione del flusso di Amazon Data Firehose nella Console di gestione AWS. Amazon Data Firehose applicherà automaticamente tale funzione su tutti i record di dati di input, caricando i dati trasformati nelle destinazioni. Amazon Data Firehose fornisce schemi Lambda predefiniti per la conversione delle origini dati più comuni, ad esempio i log di Apache e i log di sistema in formato JSON e CSV. Gli schemi predefiniti possono essere impiegati senza alcuna modifica oppure personalizzati, o ancora è possibile scrivere funzioni completamente personalizzate. È possibile inoltre configurare Amazon Data Firehose affinché esegua nuovi tentativi sui processi con errori ed effettui il backup dei flussi di dati grezzi. Ulteriori informazioni »
Supporto per destinazioni dati multiple
Firehose legge facilmente i dati da oltre 20 origini dati, tra cui cluster Amazon MSK e MSK Serverless, flusso di dati Amazon Kinesis, Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core e altro ancora. Amazon Data Firehose attualmente supporta Amazon S3, Amazon Redshift, il Servizio OpenSearch di Amazon, Snowflake, tabelle Apache Iceberg e Amazon S3 (anteprima), endpoint HTTP, Datadog, New Relic, MongoDB e Splunk come destinazioni. È possibile specificare come destinazione in cui caricare i dati un bucket Amazon S3, una tabella Amazon Redshift, un dominio del Servizio OpenSearch di Amazon, endpoint HTTP generici o un fornitore di servizi.
Crittografia automatica opzionale
Amazon Data Firehose può anche crittografare automaticamente i dati dopo che sono stati caricati nella destinazione prescelta. È possibile specificare durante la configurazione del flusso Firehose una chiave di crittografia del Sistema AWS di gestione delle chiavi (KMS).
Parametri per il monitoraggio delle prestazioni
Amazon Data Firehose applica diversi parametri tramite la console e Amazon CloudWatch, tra cui il volume di dati inviati, quello di dati caricati sulla destinazione, la durata del tragitto dall'origine dati alla destinazione, i limiti dei flussi di Firehose, il numero di record limitati e la percentuale di successo del caricamento.
Pagamento in base al consumo
I costi di Amazon Data Firehose sono calcolati in base alla quantità di dati trasmessi mediante il servizio e, ove applicabile, alla conversione del formato dei dati. Inoltre, saranno addebitati i costi di distribuzione e di trasferimento di dati di Amazon VPC, ove applicabile. Non sono previste tariffe minime né impegni anticipati. Non è necessario assegnare del personale che operi, ridimensioni e mantenga l'infrastruttura o le applicazioni personalizzate per acquisire e caricare flussi di dati.
Ulteriori informazioni sui prezzi di Amazon Data Firehose