Publié le: Aug 19, 2021
Aujourd'hui, nous avons le plaisir de vous annoncer le lancement d'AWS Glue 3.0, une nouvelle version d'AWS Glue Spark pour vos tâches par lot et de streaming qui accélère vos charges de travail d'intégration de données dans AWS. AWS Glue 3.0 présente une exécution Spark aux performances accrues qui comprend des améliorations d'AWS Glue et d'Amazon EMR, et est basée sur l'outil open-source Apache Spark 3.1.1. L'exécution d'AWS Glue 3.0 optimise les accès de lecture et d'écriture à Amazon Simple Storage Service (Amazon S3), à l'aide de lecteurs vectorisés plus rapides et d'enregistreurs de sortie optimisés Amazon S3. Elle améliore également l'accès au catalogue de données AWS Glue avec l'utilisation de prédicats de partition. Pour les jeux de données très partitionnés, Glue 3.0 augmente la vitesse d'exécution en filtrant les partitions inutiles à l'aide d'index de partition. L'exécution d'AWS Glue 3.0 est aussi entièrement intégrée à AWS Lake Formation. Ainsi, vous pouvez sécuriser l'accès aux données de plusieurs moyens comme le contrôle d'accès au niveau des bases de données, tables, colonnes, lignes et cellules, à l'aide de noms de ressources et le contrôle d'accès basé sur les identifications d'AWS Lake Formation. Avec AWS Glue 3.0, nous offrons également de nouvelles fonctionnalités afin d'améliorer l'expérience utilisateur en matière de surveillance, débogage et réglage d'applications Spark. Spark 3.1.1 propose une meilleure expérience d'interface utilisateur Spark qui comprend de nouvelles métriques de mémoire d'exécutant Spark et métriques de streaming structuré Spark très utiles pour les tâches de streaming AWS Glue. Comme AWS Glue 2.0, AWS Glue 3.0 réduit la latence de démarrage et les temps de réalisation de tâches.
AWS Glue 3.0 est disponible dans toutes les régions où AWS Glue est proposé. Pour en savoir plus sur cette fonction, consultez le blog et le guide de l'utilisateur d'AWS Glue.