Comment puis-je modifier la configuration de Spark dans un bloc-notes Amazon EMR ?

Lecture de 2 minute(s)

Comment personnaliser la configuration d'une tâche Apache Spark dans un bloc-notes Amazon EMR ?

Brève description

Un bloc-notes Amazon EMR est un bloc-notes Jupyter sans serveur. Un bloc-notes Jupyter utilise le noyau Sparkmagic comme client pour travailler de manière interactive avec Spark dans un cluster EMR distant via un serveur Apache Livy. Vous pouvez utiliser les commandes Sparkmagic pour personnaliser la configuration de Spark. Une configuration personnalisée est utile lorsque vous souhaitez effectuer les opérations suivantes :

Modifier la mémoire du programme d'exécution et les cœurs d'exécution pour une tâche Spark
modifier l'allocation des ressources pour Spark.

Solution

Modifiez la séance en cours

1. Dans une cellule de bloc-notes Jupyter, exécutez la commande %%configure pour modifier la configuration de la tâche. Dans l'exemple suivant, la commande modifie la mémoire du programme d'exécution pour la tâche Spark.

%%configure -f
{"executorMemory":"4G"}

2. Pour les configurations supplémentaires que vous transmettez généralement avec l'option --conf, utilisez un objet JSON imbriqué, comme illustré dans l'exemple suivant. Utilisez cette méthode au lieu de transmettre explicitement un objet conf à un SparkContext ou une SparkSession.

%%configure -f
{"conf":{"spark.dynamicAllocation.enabled":"false"}}

Confirmez la réussite de la modification de la configuration

1. Côté client, exécutez la commande %%info sur Jupyter pour afficher la configuration de la séance actuelle. Exemple de résultat :

Current session configs: {'executorMemory': '4G', 'conf': {'spark.dynamicAllocation.enabled': 'false'}, 'kind': 'pyspark'}

2. Côté serveur, vérifiez le journal /var/log/livy/livy-livy-server.out sur le cluster EMR. Si une SparkSession a démarré, vous devriez voir une entrée de journal semblable à celle-ci :

20/06/24 10:11:22 INFO InteractiveSession$: Creating Interactive session 2: [owner: null, request: [kind: pyspark, proxyUser: None, executorMemory: 4G, conf: spark.dynamicAllocation.enabled -> false, heartbeatTimeoutInSecond: 0]]

Informations connexes

Apache Livy – API REST

Sujets

Analytique

Balises

Amazon EMR

Langue

Français

Vidéos associées

Regarder la vidéo de Karthiga pour en savoir plus (2:57)

AWS OFFICIELA mis à jour il y a 2 ans

Aucun commentaire

Contenus pertinents

mon serveur arrête subitement de marcher sans que je ne fasse rien, plus possible d'utiliser SSH et l accès http web
ciao
demandé il y a 2 mois
Désactiver le chiffrement côté serveur sur Amazon S3
rePost-User-6017646
demandé il y a un an
supprimé un service
SAID
demandé il y a 9 mois
Créer un enregistrement
Réponse acceptée
Tikki
demandé il y a 4 mois
y aura-t'il un surcout pour moi si je sélectionne un autre GPU ?
GPU demand
demandé il y a un an
Comment accéder aux journaux de pilotes Spark dans un cluster Amazon EMR ?
AWS OFFICIELA mis à jour il y a 2 ans
Comment lier un bloc-notes Amazon EMR à un référentiel Git ?
AWS OFFICIELA mis à jour il y a 2 ans
Comment accéder à l'interface utilisateur Spark dans Amazon EMR ?
AWS OFFICIELA mis à jour il y a un an
Comment définir les paramètres Spark dans Amazon EMR ?
AWS OFFICIELA mis à jour il y a un an