Veröffentlicht am: Nov 22, 2022
Amazon EMR Serverless gibt Unterstützung für das Lesen und Schreiben von Daten in Amazon DynamoDB mit Ihren Spark- und Hive-Workflows bekannt. Sie können jetzt Tabellen in Amazon DynamoDB direkt von Ihren Anwendungen in EMR Serverless Spark und/oder Hive aus exportieren, importieren, abfragen und zusammenfügen. Amazon DynamoDB ist eine vollständig verwaltete NoSQL-Datenbank, die die Latenz- und Durchsatzanforderungen äußerst anspruchsvoller Anwendungen erfüllt, indem sie Latenz im einstelligen Millisekundenbereich und vorhersagbare Leistung mit nahtloser Durchsatz- und Speicherskalierbarkeit bietet.
AWS-Benutzer müssen in Amazon DynamoDB gespeicherte Daten häufig effizient und im großen Maßstab verarbeiten, um eine nachgelagerte Analyse zu ermöglichen. Das Amazon-EMR-Team hat einen Open-Source emr-dynamodb-connector entwickelt, der Kunden den Zugriff auf und die Konfiguration von Amazon DynamoDB mit ihren Apache-Spark- und Apache-Hive-Anwendungen erleichtert. Dieser Connector ermöglicht mehrere Analyse-Anwendungsfälle, darunter die effiziente Datenverarbeitung in Amazon DynamoDB oder das Zusammenfügen von Tabellen in Amazon DynamoDB mit externen Tabellen in Amazon S3, Amazon RDS oder anderen Datenspeichern, auf die Amazon EMR Serverless zugreifen kann. Mit Amazon EMR Version 6.9 erhalten Sie bei Ihren Amazon-EMR-Serverless-Anwendungen alle Vorteile des Amazon-DynamoDB-Connector. Sie können sowohl regions- als auch kontoübergreifend auf Amazon-DynamoDB-Tabellen zugreifen.
Wir geben außerdem bekannt, dass EMR Serverless den Zugriff auf spezifische Amazon-S3-Buckets von anderen AWS-Konten aus unterstützt, um Daten aus Ihren Spark- und Hive-Anwendungen zu verarbeiten. AWS-Kunden nutzen mehrere AWS-Konten, um unterschiedliche Projekte oder Geschäftsbereiche besser voneinander zu trennen. Durch die kontoübergreifenden Funktionen lassen sich verteilte Data Lakes leichter mit einem zentralisierten Ansatz über mehrere Konten hinweg sichern und verwalten. Mit dem kontoübergreifenden Zugriff auf Amazon S3 können Sie Ihre EMR-Serverless-Spark- oder Hive-Anwendung in einem AWS-Konto verwenden und für die Bearbeitung auf Daten zugreifen, die in spezifischen Buckets von anderen AWS-Konten gespeichert sind.
Diese Funktion ist jetzt in allen EMR-Serverless-Regionen verfügbar. Weitere Informationen finden Sie in der Dokumentation zu Amazon EMR Serverless.