Veröffentlicht am: Nov 29, 2022
Die Amazon Redshift-Integration für Apache Spark unterstützt Entwickler bei der nahtlosen Erstellung und Ausführung von Apache Spark-Anwendungen auf Amazon Redshift-Daten. Wenn Sie AWS-Services für Analysen und Machine Learning (ML) verwenden - wie Amazon EMR, AWS Glue und Amazon SageMaker - können Sie jetzt Apache Spark-Anwendungen erstellen, die aus Ihrem Amazon Redshift-Data Warehouse lesen und in dieses schreiben, ohne die Leistung Ihrer Anwendungen oder die Transaktionskonsistenz Ihrer Daten zu beeinträchtigen. Die Amazon Redshift-Integration für Apache Spark baut auf einem bestehenden quelloffenen Connector-Projekt auf und verbessert es im Hinblick auf Leistung und Sicherheit, sodass Kunden eine bis zu 10-mal schnellere Anwendungsleistung erzielen können. Wir danken den ursprünglichen Mitwirkenden an dem Projekt, die mit uns zusammengearbeitet haben, um dies zu ermöglichen. Wenn wir weitere Verbesserungen vornehmen, werden wir auch weiterhin einen Beitrag zum Open-Source-Projekt leisten.
Die Amazon Redshift-Integration für Apache Spark minimiert den mühsamen und oft manuellen Prozess der Einrichtung eines quelloffenen Spark-Redshift-Connectors und reduziert die Zeit, die für die Vorbereitung von Analyse- und ML-Aufgaben benötigt wird. Sie müssen nur die Verbindung zu Ihrem Data Warehouse angeben und können innerhalb von Sekunden mit Amazon Redshift-Daten aus Ihren Apache Spark-basierten Anwendungen arbeiten. Sie können verschiedene Pushdown-Funktionen für Vorgänge wie Sortieren, Aggregieren, Begrenzen, Verknüpfen und skalare Funktionen verwenden, damit nur die relevanten Daten von Ihrem Amazon Redshift Data Warehouse in die verbrauchende Spark-Anwendung übertragen werden. So können Sie die Leistung Ihrer Anwendungen verbessern. Sie können auch dazu beitragen, Ihre Anwendungen sicherer zu machen, indem Sie AWS Identity Access and Management (IAM)-Anmeldeinformationen verwenden, um eine Verbindung zu Amazon Redshift herzustellen.
Um loszulegen, wechseln Sie zu Amazon EMR 6.9, EMR Serverless oder AWS Glue 4.0, verwenden Sie Data-Frame- oder Spark-SQL-Code in einem Apache Spark-Auftrag oder Notebook, um eine Verbindung zum Amazon Redshift-Data Warehouse herzustellen, und beginnen Sie mit der Ausführung von Abfragen in wenigen Minuten. Mehr erfahren Sie unter Amazon Redshift oder Amazon Redshift-Integration für Apache Spark.