Utiliser Apache Spark sur Amazon EMR sans serveur directement depuis Amazon Sagemaker Studio

Publié le: 4 sept. 2024

Vous pouvez désormais exécuter des analyses de données et des tâches de machine learning à l'échelle du pétaoctet sur Amazon EMR sans serveur directement à partir de blocs-notes Amazon SageMaker Studio. EMR sans serveur provisionne et adapte automatiquement les ressources requises, ce qui vous permet de vous concentrer sur vos données et vos modèles sans avoir à configurer, optimiser, régler ou gérer des clusters. EMR sans serveur installe et configure automatiquement les cadres open source. Il fournit un moteur d'exécution à performances optimisées, compatible et plus rapide que les cadres open source standard.

Grâce à cette version, vous pouvez désormais créer et parcourir visuellement des applications EMR sans serveur directement depuis SageMaker Studio, et vous y connecter en quelques clics. Une fois connecté à une application EMR sans serveur, vous pouvez utiliser Spark SQL, Scala, Python pour interroger, explorer et visualiser les données de manière interactive, et exécuter des tâches Apache Spark pour traiter les données directement depuis Studio Notebooks. Les tâches s'exécutent rapidement par le biais des versions à performances optimisées de Spark. Par exemple, Spark sur EMR 7.1 est 4,5 fois plus rapide que son équivalent open source. EMR sans serveur propose une mise à l'échelle automatique précise, qui provisionne et adapte rapidement les ressources de calcul et de mémoire en fonction des exigences de votre application, et vous ne payez que pour ce que vous utilisez.

Ces fonctions sont prises en charge par SageMaker Distribution 1.10 et les versions ultérieures, et sont généralement disponibles dans toutes les régions AWS disposant de SageMaker Studio. Pour en savoir plus, consultez le blog Utiliser LangChain avec PySpark pour traiter des documents à grande échelle avec Amazon SageMaker Studio et EMR sans serveur, ou la documentation relative à SageMaker Studio ici.