Cloud AWS
Découvrez les données en streaming

Apache Kafka est un système distribué de messagerie open source qui vous permet de créer en temps réel des applications en utilisant des données en streaming. Vous pouvez envoyer des données en streaming comme les parcours de navigation d'un site Web, des transactions financières et des journaux d'applications à votre cluster Kafka. Celui-ci met alors en mémoire tampon les données et les diffuse aux applications de traitement des flux basées sur des frameworks tels qu'Apache Spark Streaming, Apache Storm ou Apache Samza.

diagram-kafka

En exécutant votre déploiement Kafka sur Amazon EC2, vous pouvez profiter d'une solution d'intégration de données en streaming évolutive et performante. Pour déployer Kafka sur Amazon EC2, vous devez sélectionner et mettre en service vos types d'instances EC2, installer et configurer des composants logiciels dont Kafka et Apache Zookeeper, et mettre en service le stockage par bloc nécessaire pour prendre en charge le débit de vos données en streaming à l'aide d'Amazon Elastic Block Store (EBS). Pour aider votre cluster Kafka à faire face aux imprévus tels que les dépassements de la capacité du flux dus à une hausse soudaine des volumes de données, vous pouvez créer une réplication à l'aide d'Apache Zookeeper qui surveille les nœuds de votre cluster Kafka et coordonne la répartition des processus entre les nœuds. Une fois Kafka installé, vous devez déployer le protocole HTTPS, obtenir les certificats appropriés auprès des autorités compétentes et configurer les instances Kafka pour SSL afin d'assurer la sécurité de votre cluster Kafka.

L'exécution de clusters Kafka sur Amazon EC2 vous permet de profiter d'une plate-forme d'infrastructure fiable et évolutive, mais exige que vous assuriez la surveillance, le dimensionnement et la gestion d'une flotte de serveurs, ainsi que la gestion de la pile de logiciels et de la sécurité du cluster, ce qui peut représenter une lourde charge administrative. Amazon Kinesis Streams résout ce problème en proposant un service géré conçu pour faciliter l'utilisation des données en streaming sur AWS. Ce service capture et stocke les données en streaming de manière fiable et met en temps réel les données à la disposition des applications de traitement des flux. Dans Amazon Kinesis Console, quelques clics suffisent pour mettre en service un système d'intégration de données en streaming géré avec Amazon Kinesis Streams. Amazon Kinesis Streams réplique automatiquement vos données dans trois Zones de disponibilité (AZ), pour assurer une excellente durabilité. Vous pouvez facilement dimensionner, sécuriser et gérer vos flux à l'aide de l'API et des intégrations à d'autres services AWS dont AWS IAM, Amazon CloudWatch et AWS CloudTrail.

Vous pouvez traiter les données de vos flux avec des applications de traitement basées sur Amazon Kinesis Analytics ou d'autres frameworks de traitement tels que Spark Streaming et Kinesis Client Library (KCL). Vous pouvez utiliser les données traitées pour optimiser des tableaux de bord en temps réel, générer des alertes, mettre en œuvre une tarification et proposer des publicités très ciblées, et bien plus encore.

Pour en savoir plus sur Amazon Kinesis et Kafka, cliquez ici.

440x220_APN-Blog

Cet article explique comment configurer Apache Kafka sur EC2, utiliser Spark Streaming sur EMR pour traiter les données transférées vers les sujets Apache Kafka et interroger des données en streaming à l'aide de Spark SQL sur EMR.

Lire l'article complet »

Dans cet article, nous utilisons des flux Twitter publics pour analyser les résultats des candidats, républicains comme démocrates, en temps quasi réel. Nous vous montrons comment intégrer Amazon Kinesis Firehose, AWS Lambda (fonction Python) et Amazon Elasticsearch Service pour créer une plate-forme de découverte de bout en bout en temps quasi réel.

Lire l'article complet »

Cet article de blog vous présente un moyen simple et efficace de conserver vos données dans Amazon S3 depuis Amazon Kinesis Streams à l'aide d'AWS Lambda et d'Amazon Kinesis Firehose.

Lire l'article complet ici »

Pour lire plus d'articles de blog sur les données en streaming et le Big Data, rendez-vous sur le blog AWS Big Data »


Pour commencer à utiliser Amazon Kinesis, c'est très simple. Connectez-vous simplement à AWS Management Console et lancez Amazon Kinesis.

 

Démarrez avec Amazon Kinesis