Publié le: Dec 22, 2017
Vous pouvez désormais utiliser Apache Spark 2.2.1, Apache Hive 2.3.2 et l'intégration Amazon SageMaker avec Apache Spark sur Amazon EMR version 5.11.0. En outre, Spark 2.2.1 et Hive 2.3.2 incluent plusieurs correctifs et diverses améliorations. Amazon SageMaker Spark est une bibliothèque Spark open source destinée à Amazon SageMaker, un service entièrement géré permettant de créer, former et déployer des modèles de Machine Learning à grande échelle. Elle vous permet d'entrelacer les phases Spark et celles qui interagissent avec Amazon SageMaker dans vos pipelines de ML Spark. Vous pouvez ainsi former des modèles à l'aide des objets Spark DataFrame dans Amazon SageMaker en utilisant les algorithmes ML fournis par Amazon, tels que K-moyennes (algorithme de clustering) ou XGBoost.
Vous pouvez créer un cluster Amazon EMR 5.11.0 en choisissant l'étiquette de version « emr-5.11.0 » dans AWS Management Console, l'interface de ligne de commande AWS ou le SDK. Vous pouvez sélectionner Spark et Hive pour installer ces applications sur votre cluster. Lorsque vous installez Spark, la bibliothèque Amazon SageMaker Spark est automatiquement incluse. Veuillez consulter la documentation Amazon EMR pour plus d'informations sur la version 5.11.0, Spark 2.2.1, ainsi que Hive 2.3.2, et en savoir plus sur l'utilisation d'Amazon SageMaker avec Spark.
Amazon EMR 5.11.0 est disponible dans toutes les régions prises en charge par Amazon EMR.