Publié le: Dec 1, 2021
Amazon SageMaker Studio est le premier environnement de développement entièrement intégré (IDE) dédié au machine learning (ML). Ce programme offre une interface visuelle unique basée sur le web où vous pouvez effectuer toutes les étapes de développement avec ML nécessaires pour préparer les données, ainsi que pour créer et entraîner les modèles. Nous avons récemment introduit la possibilité de parcourir visuellement et de se connecter aux clusters Amazon EMR directement à partir du bloc-notes SageMaker Studio. À compter d'aujourd'hui, vous pouvez désormais contrôler et déboguer en un clic vos tâches Apache Spark exécutées sur EMR directement à partir des blocs-notes SageMaker Studio. De plus, vous pouvez désormais découvrir, vous connecter, créer, résilier et gérer des clusters EMR directement à partir de SageMaker Studio. L'intégration native à EMR vous permet donc d'effectuer une préparation interactive des données et un machine learning à l'échelle du pétaoctet directement dans le seul bloc-notes universel SageMaker Studio.
L'analyse, la transformation et la préparation de grands volumes de données est une étape fondamentale de tout flux de science des données et de ML. Les travailleurs des données tels que les scientifiques et les ingénieurs des données tirent parti d'Apache Spark, Hive et Presto exécutés sur EMR pour une préparation rapide des données. Jusqu'à aujourd'hui, ces travailleurs des données pouvaient facilement se connecter aux clusters EMR à partir des blocs-notes Studio dans le même compte. Cependant, ils devaient configurer des règles de sécurité et des proxys web complexes pour se connecter sur différents comptes ou pour surveiller et déboguer leurs tâches Apache Spark exécutées sur EMR. De plus, lorsque ces travailleurs des données devaient créer des clusters EMR adaptés à leurs charges de travail spécifiques, ils devaient soit demander à leur administrateur de le faire, ou passer à l'emploi d'autres outils et utiliser des connaissances techniques détaillées de la configuration du réseau, du calcul et du cluster pour créer les clusters eux-mêmes. Ce processus était non seulement difficile et perturbant pour leur flux de travail, mais il les empêchait également de se concentrer sur leurs tâches de préparation des données. Par conséquent, bien que non rentables, de nombreux clients ont maintenu des clusters persistants en cours d'exécution en prévision de la charge de travail entrante, quelle que soit l'utilisation active.
À partir d'aujourd'hui, les travailleurs des données peuvent facilement découvrir et se connecter aux clusters EMR dans des configurations de compte unique et inter-comptes, directement à partir de SageMaker Studio. De plus, les travailleurs des données peuvent désormais accéder en un clic à l'interface utilisateur d'Apache Spark pour surveiller et déboguer les tâches Apache Spark exécutées sur EMR directement à partir des blocs-notes SageMaker Studio. Ce processus simplifie donc considérablement leur flux de débogage. Les clients peuvent également utiliser AWS Service Catalog pour définir et déployer des modèles préconfigurés aux travailleurs des données sélectionnés, afin de leur permettre de créer des clusters EMR directement à partir de SageMaker Studio. Les clients peuvent entièrement contrôler les barrières de protection organisationnelles, de sécurité, de calcul et de mise en réseau lorsque les travailleurs des données utilisent ces modèles. Les travailleurs des données peuvent parcourir visuellement un ensemble de modèles mis à leur disposition, les personnaliser pour leurs charges de travail spécifiques, créer des clusters EMR à la demande et les résilier en quelques clics directement à partir de SageMaker Studio. Les clients peuvent utiliser ces fonctions pour simplifier leur flux de préparation des données et utiliser de manière plus optimale les clusters EMR pour les charges de travail interactives de SageMaker Studio.
Ces fonctions sont généralement disponibles sans frais supplémentaires dans les régions AWS suivantes : USA Est (Virginie du Nord et Ohio), USA Ouest (Californie du Nord et Oregon), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Stockholm), Europe (Paris) et Europe (Londres), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney) et Asie-Pacifique (Tokyo) et Amérique du Sud (Sao Paulo). Pour en savoir plus, consultez cet article de blog et le guide de l'utilisateur des blocs-notes SageMaker Studio.