Publié le: Sep 19, 2022
Nous sommes heureux de vous annoncer qu'à partir de la version 6.7.0, Amazon EMR sur EKS offre la possibilité d'exécuter des scripts Apache Spark SQL via l'API StartJobRun. Spark SQL est un module Spark dédié au traitement des données structurées. À la différence de l'API Spark DataFrame, les interfaces Spark SQL fournissent plus d'informations à Spark sur la structure des données et des calculs en cours. En interne, Spark SQL utilise ces informations supplémentaires pour affiner ses optimisations. Suite à ce lancement, vous pouvez exécuter des requêtes Spark SQL et des pipelines ETL basés sur SQL directement via l'API StartJobRun d'Amazon EMR sur EKS.
Les utilisateurs d'Amazon EMR sur EKS s'appuient sur l'API StartJobRun pour lancer des tâches Spark. Auparavant, pour lancer des scripts Spark SQL, les utilisateurs devaient intégrer leurs scripts SQL dans des interfaces telles que PySpark, ce qui les obligeait à apporter des modifications aux scripts Spark SQL existants. Suite à ce lancement, un nouveau pilote de tâches Spark SQL a été ajouté à l'image de base d'Amazon EMR sur EKS que les utilisateurs utilisent pour exécuter leurs tâches Spark. Ils pourront désormais approvisionner les fichiers des points d'entrée SQL pour exécuter des requêtes Spark SQL sur Amazon EMR sur EKS en utilisant directement l'API StartJobRun, sans apporter de modifications aux scripts Spark SQL existants. Cette fonction est disponible dans toutes les régions où Amazon EMR sur EKS est disponible.
Pour en savoir plus sur la manière d'exécuter des scripts Spark SQL sur Amazon EMR sur EKS, veuillez consulter la page de la documentation.