Veröffentlicht am: Dec 5, 2022

Amazon SageMaker Studio ist eine vollständig integrierte Entwicklungsumgebung (Integrated Development Environment, IDE) für Machine Learning. Studio verfügt über eine integrierte Integration in Amazon EMR, damit Data Scientists Daten im Petabyte-Umfang mit Frameworks wie Apache Spark direkt aus Studio-Notebooks interaktiv vorbereiten können. Wir freuen uns, bekannt zu geben, dass SageMaker Studio jetzt bei AWS Lake Formation die Anwendung differenzierter Datenzugriffskontrollen beim Zugriff auf Daten über Amazon EMR unterstützt.

Bislang verwendeten alle Aufträge, die Sie im EMR-Cluster ausführten, dieselbe IAM-Rolle – das EC2-Instance-Profil des Clusters –, um auf Daten zuzugreifen. Daher mussten Sie für die Ausführung von Aufträgen, die auf verschiedene Datenquellen, z. B. verschiedene S3-Buckets, zugreifen mussten, das EC2-Instance-Profil mit Richtlinien konfigurieren, die den Zugriff auf all diese Datenquellen erlaubten. Darüber hinaus mussten Sie, um Benutzergruppen differenziellen Zugriff auf Daten zu ermöglichen, für jede Gruppe einen separaten Cluster erstellen, was zu einem hohen Betriebsaufwand führte. Außerdem konnten aus Studio-Notebooks in EMR eingereichte Aufträge auf Daten keine differenzierte Zugriffskontrolle mit AWS LakeFormation anwenden.

Ab heute können Sie, wenn Sie aus SageMaker-Studio-Notebooks eine Verbindung zu EMR-Clustern herstellen, die IAM-Rolle (genannt Laufzeit-IAM-Rolle) auswählen, zu der Sie eine Verbindung herstellen möchten. Von Studio-Notebooks erstellte Apache-Spark-, Hive- oder Presto-Aufträge werden nur auf die Daten und Ressourcen zugreifen, die von den an die Laufzeit-Rolle angehängten Richtlinien zugelassen werden. Und wenn von Data Lake aus auf Daten zugegriffen wird, die von AWS LakeFormation verwaltet werden, können Sie mit den an die Laufzeit-Rolle angehängten Richtlinien einen Zugriff auf Tabellen- und Spaltenebene erzwingen. Mit dieser neuen Funktion können mehrere SageMaker-Studio-Benutzer eine Verbindung zum selben EMR-Cluster herstellen, wobei jeder Benutzer eine mit benutzerdefinierten Datenzugriffsberechtigungen beschränkte Laufzeit-Rolle verwendet. Die Benutzersitzungen sind im geteilten Cluster vollständig voneinander isoliert. Mit dieser Funktion können Kunden die Bereitstellung von EMR-Clustern vereinfachen und damit den Betriebsaufwand verringern sowie Kosten sparen.

Diese Funktion ist in den folgenden AWS-Regionen in SageMaker Studio allgemein verfügbar, wenn eine Verbindung zu Amazon EMR 6.9 hergestellt wird: USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon) und Europa (Paris). Weitere Informationen hierzu finden Sie in diesem Blog.