Amazon Kinesis Data Firehose est le moyen le plus simple de charger les données de streaming vers des magasins de données et des outils d'analytique. Kinesis Data Firehose est un service entièrement géré qui facilite la collecte et le chargement de gros volumes de données diffusées en streaming à partir de centaines de milliers de sources dans Simple Storage Service (Amazon S3), Amazon Redshift, Amazon OpenSearch Service, Kinesis Data Analytics, des points de terminaison HTTP génériques et les fournisseurs de service comme Datadog, New Relic, MongoDB et Splunk afin de bénéficier de l'analytique et d'informations stratégiques en temps quasi réel.

Flux de diffusion

Un flux de diffusion constitue l'entité sous-jacente de Kinesis Data Firehose. Vous pouvez utiliser Kinesis Data Firehose en créant un flux de diffusion, puis en envoyant des données vers celui-ci.

Fonctionnalités principales

Lancement et configuration simples

En quelques clics dans la console de gestion AWS, vous pouvez lancer Amazon Kinesis Data Firehose et créer un flux de diffusion pour charger les données dans Amazon S3, Amazon Redshift, Amazon OpenSearch Service, des points de terminaison HTTP, Datadog, New Relic, MongoDB ou Splunk. Vous pouvez envoyer des données vers ce flux de diffusion en appelant l'API Firehose ou en exécutant l'agent Linux fourni sur la source de données. Ensuite, Kinesis Data Firehose charge en continu les données dans les destinations spécifiées.

Chargement de nouvelles données en temps quasi réel

Vous pouvez indiquer la taille ou l'intervalle des lots, afin de contrôler la rapidité de chargement des données dans leurs destinations. Par exemple, vous pouvez définir l'intervalle d'un lot sur 60 secondes si vous souhaitez recevoir les nouvelles données dans les 60 secondes suivant leur envoi vers votre flux de diffusion. Vous pouvez également indiquer si vous souhaitez que les données fassent l'objet d'une compression. Le service prend en charge la plupart des algorithmes de compression, notamment GZip, Snappy compatible Hadoop, Zip et Snappy. La mise en lots et la compression des données avant leur chargement vous permettent de contrôler la rapidité avec laquelle vous recevez les nouvelles données au niveau des destinations.

Dimensionnement élastique pour une meilleure gestion des différents débits de données

Une fois lancés, vos flux de diffusion s'adaptent automatiquement en taille pour pouvoir gérer plusieurs gigaoctets de données entrantes par seconde tout en maintenant le temps de latence des données au niveau que vous avez spécifié dans les limites. Aucune intervention ni maintenance n'est nécessaire.

Conversion de format Apache Parquet ou ORC

Kinesis Data Firehose prend en charge les formats de données en colonnes, tels qu'Apache Parquet et Apache ORC, qui sont optimisés pour la rentabilité du stockage et de l'analytique grâce aux services tels qu'Amazon Athena, Amazon Redshift Spectrum, Amazon EMR et autres outils basés sur Hadoop. Kinesis Data Firehose peut convertir les données entrantes du format JSON aux formats Parquet ou ORC avant de les stocker dans Amazon S3, vous permettant ainsi de réduire les coûts liés de stockage et d'analytique.

Transmettre des données partitionnées à S3

Partitionnez dynamiquement vos données de streaming avant la livraison à S3 à l'aide de clés statiques ou définies dynamiquement telles que « customer_id » ou « transaction_id ». Kinesis Data Firehose regroupe les données par ces clés et les livre dans des préfixes S3 à clé unique, ce qui vous permet d'effectuer plus facilement des analytique dans S3 de haute performance et à moindre coût, à l'aide d'Athena, EMR et Redshift Spectrum. En savoir plus »

Transformation intégrée des données

Amazon Kinesis Data Firehose vous permet de préparer vos flux de données en streaming avant de les charger dans des magasins de données. Il vous suffit de sélectionner une fonction AWS Lambda dans l'onglet de configuration du flux de diffusion Amazon Kinesis Data Firehose dans AWS Management Console. Amazon Kinesis Data Firehose appliquera automatiquement cette fonction à chaque enregistrement de données d'entrée et chargera les données transformées vers leurs destinations. Amazon Kinesis Data Firehose fournit des plans Lambda préconfigurés pour convertir des sources de données communes telles que les journaux Apache et les journaux système aux formats JSON et CSV. Vous pouvez utiliser ces plans préconfigurés sans effectuer aucune modification, les personnaliser davantage ou écrire vos propres fonctions personnalisées. Vous pouvez également configurer Amazon Kinesis Data Firehose pour réessayer automatiquement les tâches échouées et sauvegarder les données brutes en streaming. En savoir plus »

Prise en charge de plusieurs destinations de données

Amazon Kinesis Data Firehose prend actuellement en charge Amazon S3, Amazon Redshift, Amazon OpenSearch Service, les points de terminaison HTTP, Datadog, New Relic, MongoDB et Splunk en tant que destinations. Vous pouvez indiquer comme destination le compartiment Amazon S3, la table Amazon Redshift, le domaine Amazon OpenSearch Service, les points de terminaison HTTP génériques ou un fournisseur de services où les données doivent être chargées.

Chiffrement automatique en option

Amazon Kinesis Data Firehose propose, en option, de chiffrer automatiquement vos données une fois qu'elles sont chargées dans leur destination. Vous pouvez indiquer une clé de chiffrement AWS KMS (Key Management System) lors de la configuration des flux de diffusion.

Des mesures pour surveiller les performances

Amazon Kinesis Data Firehose fait l'objet de plusieurs métriques dans la console, ainsi que dans Amazon CloudWatch. Les métriques portent notamment sur le volume des données envoyées, le volume des données chargées dans l'emplacement de destination, le temps écoulé entre la source et la destination, les limites de flux de diffusion, le nombre d'enregistrements limité et le taux de réussite de chargement. Ces mesures peuvent vous aider à surveiller l'état de vos flux de diffusion, à entreprendre toute action nécessaire comme modifier certaines destinations, paramétrer des alarmes lorsque vous vous rapprochez des limites et à vérifier que le service importe correctement les données et les charge dans les destinations.

Tarification à l'utilisation

Avec Amazon Kinesis Data Firehose, vous ne payez que pour la quantité de données que vous transmettez via le service et, le cas échéant, pour les conversions de format des données. Vous payez également la diffusion Amazon VPC et le transfert des données lorsque cela s'applique. Il n'y a pas de frais minimaux et aucun engagement initial n'est requis. Vous n'avez pas besoin de personnel pour assurer le fonctionnement, adapter la taille et assurer l'entretien de l'infrastructure ou d'applications personnalisées afin de collecter et de charger des données diffusées en continu.

En savoir plus sur la tarification d'Amazon Kinesis Data Firehose

Visiter la page de tarification
Prêt à vous lancer ?
S'inscrire
D'autres questions ?
Contactez-nous