Publié le: Sep 6, 2019

La version EMR 6.0.0 (bêta) permet aux utilisateurs de définir des dépendances d’applications et de bibliothèques à l’aide d’images Docker depuis Docker Hub et Amazon Elastic Container Registry (ECR) via Spark 2.4.3 et Hadoop 3.1.0.

Aujourd’hui, les utilisateurs PySpark et SparkR doivent installer leurs dépendances sur chaque hôte dans un cluster. En conséquence, les équipes exploitant des clusters à locataires multiples ont du mal à suivre le rythme de versions de bibliothèques spécifiques et à gérer les dépendances, ce qui limite la productivité des développeurs accroît les délais de préparation d’un cluster pour l’utilisation et complexifie les mises à niveau de clusters. 

Grâce à Hadoop 3, Docker et EMR, les utilisateurs Spark n’ont plus à installer des dépendances de bibliothèques sur des hôtes de clusters respectifs, et les dépendances d’applications peuvent désormais être conçues pour des applications Spark individuelles. Cette performance résulte de l’exécution d’applications Spark dans des conteneurs Docker plutôt que directement sur les hôtes de clusters EMR. Pour utiliser Docker avec votre application Spark, référencez simplement le nom de l’image Docker lors de la soumission de vos tâches sur un cluster EMR. Exécuté sur un cluster EMR, le gestionnaire YARN extraira automatiquement l’image de Docker Hub ou ECR et exécutera votre application. Vous pouvez utiliser des images Docker pour empaqueter vos propres dépendances de bibliothèques, mais aussi exécuter sur le même cluster des conteneurs avec différentes versions de R et Python. 

La version EMR 6.0.0 (bêta) prend également en charge Amazon Linux 2 et Amazon Corretto JDK 8. Amazon Linux 2 est la nouvelle génération de systèmes d’exploitation de serveurs Amazon Linux. Elle fournit ainsi de nouveaux outils système, notamment le système systemd init et le noyau LTS haute performance d’Amazon Linux. Amazon Corretto JDK 8 propose un langage Java SE certifié compatible JDK incluant le support longue durée, l’optimisation des performances et les correctifs de sécurité. 

La version EMR 6.0.0 (bêta) est disponible dans les régions USA Est (Virginie du Nord) et USA Ouest (Oregon). Pour démarrer, consultez la section Exécuter des applications Spark avec Docker via Amazon EMR 6.0.0 (bêta). Pour donner votre avis ou poser des questions sur cette version, veuillez remplir notre formulaire Amazon EMR.

Vous pouvez rester à jour sur les versions EMR en vous abonnant au flux des notes de mises à jour EMR. Utilisez l'icône en haut du Guide des versions EMR pour lier l'URL du flux directement à votre lecteur de flux préféré.