Publié le: Nov 29, 2022
Amazon EMR annonce l'intégration d'Amazon Redshift à Apache Spark. Cette intégration aide les ingénieurs de données à créer et à exécuter des applications Spark qui peuvent consommer et écrire des données à partir d'un cluster Amazon Redshift. À partir d'Amazon EMR 6.9, cette intégration est disponible dans les trois modèles de déploiement pour EMR :EC2, EKS et Sans serveur.
Vous pouvez utiliser cette intégration pour construire des applications qui écrivent directement dans les tables Redshift dans le cadre de vos workflows ETL ou pour combiner les données dans Redshift avec des données dans une autre source. Les développeurs peuvent charger les données de tables Redshift dans des cadres de données Spark ou écrire des données dans des tables Redshift. Les développeurs n'ont pas à se soucier du téléchargement de connecteurs open source pour se connecter à Redshift.
L'intégration d'Amazon Redshift pour Apache Spark permet aux applications sur Amazon EMR qui accèdent aux données Redshift de s'exécuter jusqu'à 10 fois plus vite par rapport aux connecteurs Redshift-Spark existants. Elle prend en charge le transfert d'opérations relationnelles comme les jointures, les agrégations, les tris et les fonctions scalaires de Spark vers Redshift pour améliorer les performances de vos requêtes. Elle prend en charge les rôles basés sur IAM pour permettre des capacités d'authentification unique et s'intègre à AWS Secrets Manager pour gérer les clés en toute sécurité.
L'intégration d'Amazon Redshift pour Apache Spark est disponible dans toutes les régions où Amazon EMR, Amazon EMR sur EKS et Amazon sans serveur sont disponibles. Pour commencer, consultez notre documentation sur Amazon EMR, Amazon EMR sur EKS et Amazon EMR sans serveur.