Publié le: Oct 1, 2021
Vous pouvez désormais utiliser des cadres open source tels que Apache Spark, Apache Hive et Presto fonctionnant sur des clusters Amazon EMR directement à partir des notebooks Amazon SageMaker Studio pour exécuter l’analytique des données et de machine learning à l'échelle du pétaoctet. Amazon EMR installe et configure automatiquement les cadres open source. Il fournit un moteur d'exécution à performances optimisées, compatible et plus rapide que les cadres open source standard. Par exemple, Spark 3.0 sur Amazon EMR est 1,7 fois plus rapide que son équivalent open source. Amazon SageMaker Studio offre une interface visuelle unique basée sur le web dans laquelle vous pouvez effectuer toutes les étapes de développement avec ML requises pour préparer les données, ainsi que pour créer et entraîner les modèles. L'analyse, la transformation et la préparation de grands volumes de données est une étape fondamentale de tout flux de science des données et de ML. Cette version simplifie l'utilisation de cadres populaires tels qu'Apache Spark, Hive et Presto fonctionnant sur des clusters EMR directement à partir de Sagemaker Studio pour aider à simplifier les flux de science des données et de ML.
Grâce à cette version, vous pouvez désormais parcourir visuellement une liste de clusters EMR directement depuis SageMaker Studio et vous y connecter en un clic. Une fois connecté à un cluster EMR, vous pouvez utiliser Spark SQL, Scala, Python et HiveQL pour interroger, explorer et visualiser les données de manière interactive, et exécuter des tâches Apache Spark, Hive et Presto pour traiter les données. Les tâches s'exécutent rapidement par le biais des versions à performances optimisées de Spark, Hive et Presto de EMR. En outre, les clusters peuvent augmenter ou diminuer automatiquement leur capacité en fonction des applications et s'intégrer aux instances Spot et aux processeurs basés sur Graviton2 pour réduire les coûts. Enfin, les utilisateurs de Sagemaker Studio peuvent s'authentifier lorsqu'ils se connectent aux clusters Amazon EMR au moyen d'informations d'identification basées sur LDAP ou Kerberos.
Ces fonctions sont prises en charge par EMR 5.9.0 et les versions ultérieures, et sont généralement disponibles dans toutes les régions AWS disposant de SageMaker Studio. Pour en savoir plus, regardez la démo Interactive de traitement des données sur Amazon EMR à partir d'Amazon SageMaker, consultez le blog Exécuter des flux interactifs d'ingénierie et de science des données à partir des notebooks Amazon SageMaker Studio ou de la documentation SageMaker Studio ici.