Publié le: Nov 29, 2022
L'intégration Amazon Redshift pour Apache Spark permet aux développeurs de créer et d'exécuter en toute transparence des applications Apache Spark sur des données Amazon Redshift. Si vous utilisez des services AWS d'analyse et de machine learning (ML) comme Amazon EMR, AWS Glue et Amazon SageMaker, vous pouvez désormais créer des applications Apache Spark qui lisent et écrivent dans votre entrepôt de données Amazon Redshift sans compromettre les performances de vos applications ou la cohérence transactionnelle de vos données. L'intégration Amazon Redshift pour Apache Spark s'appuie sur un projet de connecteur open source existant et en améliore les performances et la sécurité, aidant ainsi les clients à obtenir des performances d'application jusqu'à 10 fois supérieures. Nous remercions les contributeurs initiaux du projet qui ont collaboré avec nous pour obtenir un tel résultat. À mesure que nous apporterons de nouvelles améliorations, nous continuerons de contribuer au projet open source.
L'intégration d'Amazon Redshift pour Apache Spark allège le processus fastidieux et souvent manuel de configuration d'un connecteur open source spark-redshift et réduit le temps nécessaire à la préparation des tâches d'analyse et de ML. Il vous suffit de spécifier la connexion à votre entrepôt de données et vous pouvez commencer à utiliser en quelques secondes les données Amazon Redshift à partir de vos applications basées sur Apache Spark. Vous pouvez utiliser plusieurs fonctionnalités de filtration pushdown pour des opérations comme le tri, l'agrégation, la limitation, la jointure et les fonctions scalaires afin que seules les données pertinentes soient déplacées de l'entrepôt des données Amazon Redshift vers l'application Spark qui les consomme. Cela vous permet d'améliorer les performances de vos applications. Vous pouvez également contribuer à renforcer la sécurité de vos applications en utilisant les informations d'identification AWS Identity Access and Management (IAM) pour vous connecter à Amazon Redshift.
Pour commencer, accédez à Amazon EMR 6.9, EMR sans serveur ou AWS Glue 4.0, utilisez une trame de données ou un code Spark SQL dans une tâche Apache Spark ou un bloc-notes pour vous connecter à l'entrepôt de données Amazon Redshift, puis commencez à exécuter des requêtes en quelques minutes. Pour en savoir plus, consultez Amazon Redshift ou Intégration Amazon Redshift pour Apache Spark.