Traitement des flux – Fonctionnalités du service géré Amazon pour Apache Flink

Le service géré Amazon pour Apache Flink facilite la création et l'exécution d'applications de traitement des flux en temps réel à l'aide d'Apache Flink. Le service géré Amazon pour Apache Flink provisionne et configure vos clusters Flink et orchestre la gestion des tâches Flink. Il configure la surveillance et les alarmes, propose un autoscaling et est conçu pour une haute disponibilité (y compris le basculement des zones de disponibilité). Le service permet d'accéder aux API expressives d'Apache Flink. En plus, à travers le service géré Amazon pour Apache Flink Studio, vous pouvez interroger des flux de données de manière interactive ou lancer des applications dynamiques en quelques étapes. Avec ce service géré, vous pouvez démarrer avec Apache Flink et déployer et exploiter rapidement vos applications de traitement des flux de données.

Avec le service géré Amazon pour Apache Flink, vous avez accès à la gamme complète des fonctionnalités de pointe d'Apache Flink, notamment le traitement des données à faible latence et à haut débit, le traitement unique et l'état durable des applications. Avec le service géré Amazon pour Apache Flink, vous pouvez déployer des applications sécurisées, conformes et très disponible. Le service géré Amazon pour Apache Flink réplique sans effort les données et les charges de travail sur plusieurs zones de disponibilité, garantissant des performances et une fiabilité ininterrompues, sans avoir à payer pour une capacité supplémentaire.

Le développement d'applications est plus facile avec le service géré Amazon pour Apache Flink, car le service prend en charge les API flexibles de Flink en Java, Scala, Python et SQL. Le service géré Amazon pour Apache Flink s'intègre à des centaines de sources de données et de destinations, telles qu'Amazon Managed Streaming for Apache Kafka (Amazon MSK), Amazon Kinesis Data Streams, Amazon Kinesis Data Firehose, Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB, les connecteurs JDBC et les connecteurs personnalisés.

Diffuser des applications de traitement des flux avec Apache Flink

Technologie open source

Le service géré Amazon pour Apache Flink comprend des bibliothèques open source telles qu'Apache Flink, Apache Beam, Apache Zeppelin, les kits AWS SDK et les intégrations de services AWS. Apache Flink est un cadre et un moteur permettant de créer des applications de streaming hautement disponibles et précises. Apache Beam est un modèle unifié permettant de définir des applications de traitement de données de streaming et par lot exécutées par plusieurs moteurs d'exécution. Les kits AWS SDK permettent de simplifier le codage pour beaucoup de services AWS en fournissant des API dans votre langage préféré. Ils incluent des bibliothèques, des exemples de code et de la documentation AWS.

API flexibles

Le service géré Amazon pour Apache Flink prend en charge les API flexibles de Flink dans Java, Scala, Python et SQL dédiées à différents cas d'utilisation, notamment le traitement dynamique des événements, le streaming ETL (extraction, transformation et chargement) et l'analyse en temps réel. Grâce à des opérateurs et des capacités d'analyse prédéfinis, vous pouvez créer une application de streaming Apache Flink en quelques heures au lieu de plusieurs mois. Les bibliothèques sont extensibles, ce qui vous permet d'effectuer des traitements en temps réel pour divers cas d'utilisation.

Intégrations aux services AWS

Vous pouvez configurer et intégrer une source de données ou une destination avec un code minimal. Utilisez les bibliothèques du service géré Amazon pour Apache Flink afin d'intégrer les services AWS suivants :

Fonctionnalités d'intégration avancées

Outre les intégrations AWS, le service géré Amazon pour Apache Flink inclut plus de 40 connecteurs Apache Flink et permettent de créer des intégrations personnalisées. Avec quelques lignes de code supplémentaires, vous pouvez modifier le comportement de chaque intégration avec des fonctionnalités avancées. Vous pouvez également créer des intégrations personnalisées à l'aide d'un ensemble de types primitifs Apache Flink, afin de pouvoir lire et écrire à partir de fichiers, de répertoires, de sockets ou d'autres sources consultées sur internet.

Traitement unique

En utilisant le service géré Amazon pour Apache Flink, vous pouvez créer des applications dans lesquelles les enregistrements traités n'affectent les résultats qu'une seule fois, un processus connu comme traitement unique. Même en cas de perturbation de l'application, telle que la maintenance du service interne ou la mise à jour d'une application lancée par l'utilisateur, le service s'assure que toutes les données sont traitées et qu'il n'y a pas de données en double.

Traitement dynamique

Le service stocke les calculs précédents ou en cours, ou l'état, dans l'espace de stockage de l'application en cours d'exécution. Comparez les résultats anciens et ceux en temps réel sur n'importe quelle période, et la récupération de l'application après une panne est rapide. L'état est toujours chiffré et progressivement enregistré dans l'espace de stockage de l'application en cours d'exécution.

Sauvegardes d'applications durables

Créez et supprimez des sauvegardes d'applications durables via un simple appel d'API. Restaurez immédiatement vos applications à partir de la dernière sauvegarde après une interruption, ou à une version antérieure.

Intégration du ML

Le service géré Amazon pour Apache Flink prend en charge les algorithmes du machine learning (ML). Vous pouvez créer des applications en temps réel pour la classification, la mise en cluster, l'évaluation, les recommandations d'ingénierie des fonctionnalités, les régressions et les statistiques.

Compatibilité avec le registre du schéma AWS Glue

Le service géré Amazon pour Apache Flink est compatible avec le registre des schémas AWS Glue. Le registre des schémas vous aide à améliorer la qualité des données et à vous prémunir contre les changements inattendus grâce à des contrôles de compatibilité qui régissent l'évolution de vos schémas sur les charges du travail du service géré Amazon pour Apache Flink connectées à Apache Kafka, Amazon MSK ou Amazon Kinesis Data Streams, en tant que connecteur source ou puits.

Amazon Kinesis Data Analytics Studio

Inspection et visualisation des flux

Kinesis Data Analytics Studio prend en charge les requêtes en moins d'une seconde avec des visualisations intégrées. Vous pouvez effectuer des requêtes ad hoc pour inspecter rapidement votre flux de données et afficher les résultats en quelques secondes.

Environnement simple de conception et d'exécution

Les blocs-notes Studio offrent une expérience de développement à interface unique pour le développement, le débogage du code et l'exécution des applications de traitement des flux.

Traitement au moyen de SQL, Python ou Scala

Kinesis Data Analytics Studio prend en charge SQL, Python et Scala dans le même environnement de développement. La mise en évidence de la syntaxe, la validation et les suggestions contextuelles vous guident dans le bloc-notes pour interagir avec vos données, avec une prise en charge intégrée des capacités spécifiques d'Apache Flink.

Développement rapide et sans serveur d'applications de traitement des flux

Il n'y a pas de serveurs à approvisionner, à gérer ou à mettre à l'échelle. Il suffit d'écrire du code et de payer pour les ressources que vos applications consomment. Déployez facilement votre code dans le bloc-notes vers une application de traitement de flux en continu avec AutoScaling et état durable.

Open source

Kinesis Data Analytics Studio fonctionne sur et produit des applications Apache Flink utilisées en production, et les blocs-notes Apache Zeppelin offrent une expérience familière et facile à utiliser pour la création d'applications de streaming dans le langage de son choix.

S'intègre au catalogue de données AWS Glue

Le catalogue AWS Glue est un magasin de métadonnées persistant qui sert de référentiel central contenant les définitions des tables. Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapides sur plusieurs ensembles de données AWS. Kinesis Data Analytics Studio est compatible avec le catalogue de données AWS Glue où vous pouvez définir le schéma de vos tables source et de destination.

Démarrer avec Amazon Kinesis Data Analytics

Calculez vos coûts

Consultez la page de tarification d'Amazon Kinesis Data Analytics.

Consultez le guide de démarrage

Découvrez comment utiliser Amazon Kinesis Data Analytics dans ce guide étape par étape concernant SQL et Java.

Création d'applications de streaming sur AWS

Créez votre première application de streaming à partir de la console Amazon Kinesis Data Analytics.

Fonctionnalités du service géré Amazon pour Apache Flink