Publié le: Aug 15, 2023
Amazon EMR sans serveur est une option sans serveur pour Amazon EMR qui permet aux analystes de données et aux ingénieurs d'exécuter simplement des frameworks d'analyse de big data open source tels qu'Apache Spark et Apache Hive sans configurer, gérer ni dimensionner des clusters ou des serveurs. À compter d'aujourd'hui, vous pouvez définir des configurations de journaux précises pour vos journaux de pilote et d'exécution, afin de simplifier le dépannage de vos tâches Apache Spark.
Les développeurs ont souvent besoin d'analyser les journaux pour obtenir des informations détaillées sur leurs tâches afin d'assurer une surveillance et un débogage efficaces. Cependant, les paramètres de journal par défaut de Spark peuvent parfois être trop détaillés, ce qui rend difficile la recherche des entrées de journal pertinentes. Spark utilise Log4j2 pour configurer les journaux. Grâce à cette fonctionnalité, vous pouvez spécifier des paramètres Log4j2 personnalisés pour vos journaux de pilote et d'exécution Spark pour chaque tâche EMR sans serveur exécutée. Par exemple, vous pouvez définir le niveau de journalisation par défaut de Spark sur « ERROR » pour obtenir un minimum de journaux pour Spark, le niveau de journalisation de votre code sur « INFO » pour obtenir des journaux détaillés sur votre code et le niveau de journalisation des bibliothèques que vous souhaitez déboguer sur « DEBUG » pour obtenir des journaux encore plus détaillés, ce qui vous permet de mieux analyser les journaux et de fournir des informations pertinentes.
Cette fonctionnalité est disponible pour EMR 6.8.0 et les versions supérieures dans toutes les régions où Amazon EMR sans serveur est disponible. Pour en savoir plus, consultez la page Configuration de Log4j2.