Publié le: Dec 21, 2020
Amazon SageMaker Studio est le premier environnement de développement entièrement intégré (IDE) dédié au machine learning. D'un simple clic, les scientifiques des données et les développeurs peuvent rapidement lancer les blocs-notes de SageMaker Studio pour explorer et préparer des ensembles de données afin de créer, d'entraîner et de déployer des modèles de machine learning dans un seul et même volet. Amazon EMR est un service Web qui facilite le traitement rapide et économique de grandes quantités de données. Dès aujourd'hui, les clients peuvent utiliser les blocs-notes de Studio pour se connecter facilement et en toute sécurité aux clusters Amazon EMR et préparer de grandes quantités de données pour l'analyse et la création de rapports, l'entraînement de modèles ou l'inférence.
La préparation des données est une étape critique dans le flux de travail de machine learning. Avec SageMaker Studio, vous avez accès à une gamme d'outils pour la préparation des données selon vos préférences. Si vous préférez une interface visuelle, vous pouvez utiliser Amazon SageMaker Data Wrangler pour vous connecter à Amazon S3, Amazon RedShift ou Amazon Athena pour accéder, visualiser et analyser les données de SageMaker Studio. Si vous préférez écrire du code, vous pouvez également utiliser les blocs-notes de SageMaker Studio pour préparer des données de manière interactive à l'aide de bibliothèques et de SDK, ou traiter de grandes quantités de données par lots en utilisant Amazon SageMaker Processing avec le conteneur Spark intégré. Toutefois, si vous préférez connecter les blocs-notes de Studio à des clusters EMR existants pour accéder aux données et les traiter, vous devez configurer manuellement l'environnement, apporter votre propre noyau Sparkmagic, configurer les informations du cluster cible et installer des outils tels que Kerberos pour l'authentification, avant d'exécuter vos tâches Spark ou d'interroger vos tables Hive.
Amazon SageMaker Studio est désormais doté d'outils intégrés qui permettent de connecter rapidement et facilement et en toute sécurité votre bloc-notes à un cluster EMR pour le traitement de grandes quantités de données. Vous pouvez créer un bloc-notes de Studio à partir d'une image SageMaker intégrée avec le noyau PySpark, utiliser les commandes intégrées pour vous connecter à un cluster EMR, et commencer à interroger, analyser et traiter des données en quelques étapes. Pour plus de sécurité, vous pouvez vous connecter aux clusters EMR en utilisant l'authentification Kerberos. La fonctionnalité est désormais disponible dans toutes les régions AWS où Amazon SageMaker Studio est disponible. Pour plus d'informations, consultez la documentation d'Amazon SageMaker Studio.