Publié le: Apr 27, 2020
AWS Glue prend désormais en charge les ETL de streaming sans serveur. Cette fonction facilite la mise en place de pipelines d’ingestion continue qui préparent des données de streaming et les rendent disponibles pour analyse en quelques secondes. Les tâches ETL de streaming dans AWS Glue peuvent maintenant consommer des données provenant de sources de streaming comme Amazon Kinesis et Apache Kafka, les nettoyer et les transformer en vol, puis charger en continu les résultats dans les lacs de données Amazon S3, les entrepôts de données et autres magasins de données. Les clients peuvent utiliser cette fonctionnalité pour traiter les données d’événements comme les flux d’événements IoT, les parcours de navigation et les journaux de réseau. Les tâches ETL de streaming dans AWS Glue s’exécutent sur le moteur Apache Spark Structured Streaming, afin que les clients puissent les utiliser pour enrichir, agréger et combiner des données de streaming, ainsi que pour exécuter une variété d'opérations complexes d'analyse et de machine learning.
Auparavant, vous deviez construire et assembler manuellement des systèmes de traitement et de surveillance des flux pour construire des pipelines d’ingestion de données en streaming. Les tâches ETL de streaming dans AWS Glue exploitent l’infrastructure sans serveur d’AWS Glue pour simplifier la gestion des ressources, optimiser les coûts et vous permettre de mettre en place des pipelines d’ingestion continue sans écrire de code – réduisant ainsi le temps de mise en œuvre de plusieurs mois à quelques jours.
Cette fonction est désormais disponible dans les mêmes régions AWS que AWS Glue.
Pour en savoir plus sur cette fonction, consultez notre documentation.