Veröffentlicht am: Nov 29, 2022
Amazon EMR gibt Amazon-Redshift-Integration mit Apache Spark bekannt. Diese Integration hilft Dateningenieuren beim Erstellen und Ausführen von Spark-Anwendungen, die Daten von einem Amazon Redshift-Cluster abrufen und schreiben können. Ab Amazon EMR 6.9 ist diese Integration für alle drei Bereitstellungsmodelle für EMR verfügbar - EC2, EKS und Serverless.
Sie können diese Integration nutzen, um Anwendungen zu erstellen, die als Teil Ihrer ETL-Workflows direkt in Redshift-Tabellen schreiben oder um Daten in Redshift mit Daten in anderen Quellen zu kombinieren. Entwickler können Daten aus Redshift-Tabellen in Spark-Datenrahmen laden oder Daten in Redshift-Tabellen schreiben. Entwickler müssen sich nicht um das Herunterladen von Open-Source-Konnektoren kümmern, um eine Verbindung zu Redshift herzustellen.
Die Amazon Redshift-Integration für Apache Spark ermöglicht Anwendungen auf Amazon EMR, die auf Redshift-Daten zugreifen, eine bis zu 10-mal schnellere Ausführung im Vergleich zu bestehenden Redshift-Spark-Konnektoren. Es unterstützt die Übertragung von relationalen Operationen wie Joins, Aggregationen, Sortierungen und skalaren Funktionen von Spark zu Redshift, um die Abfrageleistung zu verbessern. Es unterstützt IAM-basierte Rollen, um Single-Sign-On-Funktionen zu ermöglichen, und ist mit AWS Secrets Manager für die sichere Verwaltung von Schlüsseln integriert.
Die Amazon-Redshift-Integration für Apache Spark ist in allen Regionen verfügbar, in denen Amazon EMR, Amazon EMR auf EKS und Amazon Serverless verfügbar sind. Sehen Sie sich zum Einstieg unsere Dokumentation für Amazon EMR, Amazon EMR auf EKS und Amazon EMR Serverless an.