Comment configurer une connexion JDBC Spark SQL sur Amazon EMR ?

Dernière mise à jour : 07/11/2022

Je veux configurer un pilote Java Database Connectivity (JDBC) pour Spark Thrift Server afin de pouvoir exécuter des requêtes SQL à partir d'un client SQL sur mon cluster Amazon EMR.

Solution

1.    Téléchargez et installez SQuirrel SQL Client.

2.    Connectez-vous au nœud principal en utilisant SSH.

3.    Sur le nœud principal, exécutez la commande suivante pour démarrer le serveur Spark Thrift Server :

sudo /usr/lib/spark/sbin/start-thriftserver.sh

4.    Copiez tous les fichiers .jar du répertoire /usr/lib/spark/jars du nœud principal sur votre ordinateur local.

5.    Ouvrez SQuirrel SQL Client et créez un nouveau pilote :
Dans Nom, entrez Pilote JDBC Spark.
Pour Exemple d'URL, saisissez jdbc:hive2 : //localhost:10001.

6.    Sous l'onglet Chemin de classe supplémentaire, choisissez Ajouter.

7.    Dans la boîte de dialogue, accédez au répertoire dans lequel vous avez copié les fichiers .jar à l'étape 4, puis sélectionnez tous les fichiers.

8.    Dans le champ Nom de la classe, entrez org.apache.hive.jdbc.hiveDriver, puis choisissez OK.

9.    Sur votre ordinateur local, configurez un tunnel SSH en utilisant le transfert de port local :

ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10001:localhost:10001 hadoop@master-public-dns-name

10.    Pour vous connecter au serveur Spark Thrift Server, créez un nouvel alias dans SQuirrel SQL Client :
Pour Nom, saisissez Spark JDBC.
Pour Pilote, saisissez Pilote JDBC Spark.
Pour URL, saisissez jdbc:hive2 : //localhost:10001.
Pour Nom d'utilisateur, saisissez hadoop.

11.    Exécutez des requêtes depuis SQuirrel SQL Client.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?