Publié le: Dec 5, 2022

Amazon SageMaker Studio est un environnement de développement entièrement intégré (IDE) pour le machine learning. Amazon EMR est directement intégré à Studio pour permettre aux scientifiques des données de préparer les données de manière interactive à l'échelle du pétaoctet à l'aide de frameworks tels qu'Apache Spark, directement depuis des blocs-notes Studio. Nous sommes heureux d'annoncer que SageMaker Studio prend désormais en charge l'application du contrôle d'accès précis aux données avec AWS Lake Formation en cas d'accès aux données via Amazon EMR.

Jusqu'à présent, tous les tâches que vous exécutiez sur le cluster EMR utilisaient le même rôle IAM, le profil d'instance EC2 du cluster, pour accéder aux données. Par conséquent, pour exécuter des tâches nécessitant un accès à différentes sources de données, par exemple différents compartiments S3, vous deviez configurer le profil d'instance EC2 avec des politiques permettant un accès à l'union de toutes ces sources de données. En outre, pour fournir aux groupes d'utilisateurs un accès différentiel aux données, vous deviez créer des clusters distincts, un pour chaque groupe, ce qui entraînait des frais d'exploitation. Séparément, les tâches soumises à EMR depuis les blocs-notes Studio étaient incapables d'appliquer un contrôle d'accès précis aux données à l'aide d'AWS Lake Formation.

À compter d'aujourd'hui, lorsque vous vous connectez aux clusters EMR depuis des blocs-notes SageMaker Studio, vous pouvez choisir le rôle IAM (appelé Rôle IAM d'exécution) auquel vous souhaitez vous connecter. Les tâches Apache Spark, Hive ou Presto créées depuis des blocs-notes Studio accéderont uniquement aux données ressources autorisées par les politiques associées au rôle d'exécution. De même, lorsque l'accès aux données se fait depuis des lacs de données gérés avec AWS Lake Formation, vous pouvez appliquer un accès au niveau des colonnes et des tableaux à l'aide de politiques associées au rôle d'exécution. Grâce à cette nouvelle fonctionnalité, plusieurs utilisateurs de SageMaker Studio peuvent se connecter au même cluster EMR, chacun utilisant un rôle d'exécution limité en fonction d'autorisations d'accès aux données personnalisées. Les sessions utilisateurs sont complètement isolées les unes des autres sur le cluster partagé. Cette fonction permet aux clients de simplifier la mise en service des clusters EMR, ce qui permet de réduire les frais opérationnels et d'économiser des coûts.

Cette fonction est publiquement disponible dans SageMaker Studio lorsque les utilisateurs sont connectés à Amazon EMR 6.9, et ce dans les régions AWS suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon) et Europe (Paris). Pour en savoir plus, référez-vous à ce blog.