Publié le: Jun 14, 2018
Vous pouvez à présent utiliser JupyterHub sur Amazon EMR version 5.14.0. JupyterHub est un serveur notebook Jupyter multi-usages dont chaque utilisateur peut se servir pour sa propre interface notebook Jupyter. Ce serveur permet à plusieurs utilisateurs de se servir de leurs notebooks Jupyter, de créer et d'exécuter des codes et de réaliser des analyses exploratoires de données. Sur EMR, JupyterHub est intégré au cadre Spark. Ceci vous permet d'effectuer des requêtes Spark interactives sur les clusters EMR en utilisant les noyaux Scala, PySpark, Spark R et Spark SQL. Vous pouvez également accomplir localement des tâches Python et tirer profit des nombreuses bibliothèques de science des données courantes, qui sont préinstallées dans votre notebook. Désormais, avec la version 5.14.0 d'EMR, EMRFS (le connecteur d'Amazon EMR pour S3) accomplit la surveillance des utilisateurs qui ont effectué des requêtes leur ayant donné accès à des données dans S3 par le biais d'EMRFS. Cette fonction est activée par défaut et elle s'applique aux informations sur l'utilisateur et sur le groupe pour surveiller des fichiers journaux comme CloudTrail, ce qui vous permet de bénéficier d'un suivi global des requêtes. En plus de la surveillance, EMRFS offre des fonctions telles qu'une vision homogène, un chiffrement côté serveur S3 et côté client et une autorisation fine de S3.
Vous pouvez lancer JupyterHub en sélectionnant « JupyterHub » dans la liste des applications à installer lorsque vous configurez et lancez votre cluster. Veuillez consulter la documentation Amazon EMR pour plus d'informations sur EMR version 5.14.0, JupyterHub et EMRFS.
Amazon EMR version 5.14.0 est disponible dans toutes les régions prises en charge par Amazon EMR.