Comment configurer une connexion Spark SQL JDBC sur Amazon EMR ?

Date de la dernière mise à jour : 14/09/2020

Je souhaite exécuter des requêtes SQL depuis un client SQL sur mon cluster Amazon EMR. Comment configurer un pilote Java Database Connectivity (JDBC) pour un serveur Spark Thrift Server pour que je puisse le faire ?

Résolution

1.    Téléchargez et installez SQuirrel SQL Client.

2.    Connectez-vous au nœud principal en utilisant SSH.

3.    Sur le nœud principal, exécutez la commande suivante pour démarrer le serveur Spark Thrift Server :

sudo /usr/lib/spark/sbin/start-thriftserver.sh

4.    Copiez tous les fichiers .jar du répertoire /usr/lib/spark/jars du nœud principal sur votre ordinateur local.

5.    Ouvrez SQuirrel SQL Client et créez un nouveau pilote :
Dans Nom, entrez Pilote JDBC Spark.
Pour Exemple d'URL, saisissez jdbc:hive2 : //localhost:10001.

6.    Sous l'onglet Chemin de classe supplémentaire, choisissez Ajouter.

7.    Dans la boîte de dialogue, accédez au répertoire dans lequel vous avez copié les fichiers .jar à l'étape 4, puis sélectionnez tous les fichiers.

8.    Dans le champ Nom de la classe, entrez org.apache.hive.jdbc.hiveDriver, puis choisissez OK.

9.    Sur votre ordinateur local, configurez un tunnel SSH en utilisant le transfert de port local :

ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10001:localhost:10001 hadoop@master-public-dns-name

10.    Pour vous connecter au serveur Spark Thrift Server, créez un nouvel alias dans SQuirrel SQL Client :
Pour Nom, saisissez Spark JDBC.
Pour Pilote, saisissez Pilote JDBC Spark.
Pour URL, saisissez jdbc:hive2 : //localhost:10001.
Pour Nom d'utilisateur, saisissez hadoop.

11.    Exécutez des requêtes depuis SQuirrel SQL Client.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?