Erstellen Sie Apache-Spark-Anwendungen, die Daten von Amazon Redshift lesen und schreiben
Die Amazon-Redshift-Integration für Apache Spark vereinfacht und beschleunigt Apache-Spark-Anwendungen, die auf Amazon Redshift-Daten von AWS-Analyseservices wie Amazon EMR, AWS Glue und Amazon SageMaker zugreifen. Mit Amazon EMR, AWS Glue und SageMaker können Sie schnell Apache-Spark-Anwendungen erstellen, die aus Ihrem Data Warehouse in Amazon Redshift lesen und in dieses schreiben, ohne die Leistung oder Transaktionskonsistenz zu beeinträchtigen. Die Amazon-Redshift-Integration für Apache Spark verwendet auch AWS Identity and Access Management(IAM)-basierte Anmeldeinformationen, um die Sicherheit zu verbessern. Mit der Amazon-Redshift-Integration für Apache Spark entfällt die manuelle Einrichtung und Wartung von nicht zertifizierten Versionen von Konnektoren von Drittanbietern. Sie können innerhalb von Sekunden mit Apache-Spark-Aufträgen beginnen, indem Sie Daten in Amazon Redshift verwenden. Diese neue Integration verbessert die Leistung von Apache-Spark-Anwendungen mit Amazon-Redshift-Daten.
Vorteile
Verbessern Sie die Apache-Spark-Analyse mit Amazon-Redshift-Daten
Erweitern Sie die Breite der Datenquellen, die Sie in Ihren Rich-Analytics- und Machine-Learning-Anwendungen (ML) verwenden können, die in Amazon EMR, AWS Glue oder SageMaker ausgeführt werden, indem Sie Daten aus Ihrem Data Warehouse lesen und in dieses schreiben.
Greifen Sie mit minimalem Setup auf Amazon-Redshift-Daten zu
Optimieren Sie den umständlichen und oft manuellen Prozess der Einrichtung nicht zertifizierter Konnektoren und JDBC-Treiber und reduzieren Sie die Vorbereitungszeit für Analyse- und ML-Aufgaben.
Verbessern Sie Leistung und Sicherheit mit einem Amazon-zertifizierten Konnektor
Verwenden Sie mehrere Pushdown-Funktionen wie Sortieren, Aggregieren, Begrenzen, Verbinden und Skalarfunktionen, damit nur relevante Daten aus dem Amazon Redshift Data Warehouse verschoben werden.
Funktionsweise

Anwendungsfälle
Erstellen Sie ETL-, ML- und interaktive Anwendungen
Erstellen Sie Apache-Spark-Anwendungen in Java, Scala und Python mit Apache-Spark-basierten AWS-Analyseservices.
Verbinden Sie sich mit Ihrem Data Warehouse in Amazon-Redshift
Lesen und schreiben Sie Daten in und aus Amazon Redshift mit Amazon EMR, AWS Glue, SageMaker und AWS Analytics und ML-Services.
Führen Sie Abfragen in Sekunden aus
Verwenden Sie Amazon EMR oder AWS Glue, um Datenrahmencode aus Ihrer Apache-Spark-Aufgabe oder -Notebook zu übernehmen und eine Verbindung zu Amazon Redshift herzustellen.
AWS-zertifizierter Konnektor zur sofortigen Verwendung
Optimieren Sie Ihren Prozess ohne Installation oder Tests, mit verbesserter Sicherheit (IAM-basierte Anmeldeinformationen) und Betriebs-Pushdowns, sowie Parquet-Dateiformat für Leistung.
Kunden

Huron ist ein globales Unternehmen für professionelle Dienstleistungen, das mit Kunden zusammenarbeitet, um das Mögliche in die Praxis umzusetzen, indem es solide Strategien entwickelt, Abläufe optimiert, die digitale Transformation beschleunigt und Unternehmen und ihre Mitarbeiter in die Lage versetzt, ihre Zukunft selbst in die Hand zu nehmen.
„Wir befähigen unsere Ingenieure, ihre Datenpipelines und Anwendungen mit Apache Spark unter Verwendung von Python und Scala zu erstellen. Wir wollten eine maßgeschneiderte Lösung, die den Betrieb vereinfacht und schneller und effizienter für unsere Kunden bereitgestellt wird, und genau das bekommen wir mit der neuen Amazon Redshift-Integration für Apache Spark.“
Corey Johnson, Data Architect Manager – Huron Consulting

GE Aerospace ist ein globaler Anbieter von Strahltriebwerken, Komponenten und Systemen für Verkehrs- und Militärflugzeuge. Das Unternehmen entwirft, entwickelt und fertigt seit dem Ersten Weltkrieg Strahltriebwerke.
„GE Aerospace nutzt AWS Analytics und Amazon Redshift, um wichtige Geschäftseinblicke zu ermöglichen, die wichtige Geschäftsentscheidungen vorantreiben. Mit der Unterstützung für das automatische Kopieren von Amazon S3 können wir einfachere Datenpipelines erstellen, um Daten von Amazon S3 zu Amazon Redshift zu verschieben. Dies beschleunigt die Fähigkeit unserer Datenproduktteams, auf Daten zuzugreifen und Endbenutzern Einblicke zu liefern. Wir verbringen mehr Zeit mit der Wertschöpfung durch Daten und weniger Zeit mit Integrationen.“
Alcuin Weidus, Sr Principal Data Architect – GE Aerospace

Die Goldman Sachs Group, Inc. ist ein führendes globales Finanzinstitut, das einem großen und diversifizierten Kundenstamm, zu dem Unternehmen, Finanzinstitute, Regierungen und Privatpersonen gehören, eine breite Palette von Finanzdienstleistungen in den Bereichen Investment Banking, Wertpapiere, Anlageverwaltung und Privatkundengeschäft anbietet.
„Unser Fokus liegt darauf, allen unseren Nutzern bei Goldman Sachs einen Self-Service-Zugriff auf Daten zu bieten. Über Legend, unsere Open-Source-Datenmanagement- und Governance-Plattform, ermöglichen wir es Benutzern, datenzentrische Anwendungen zu entwickeln und datengesteuerte Erkenntnisse zu gewinnen, während wir in der gesamten Finanzdienstleistungsbranche zusammenarbeiten. Mit der Amazon Redshift-Integration für Apache Spark wird unser Datenplattformteam in der Lage sein, mit minimalen manuellen Schritten auf Amazon-Redshift-Daten zuzugreifen – was Zero-Code-ETL ermöglicht, was unsere Fähigkeit erhöht, es Ingenieuren zu erleichtern, sich auf die Perfektionierung ihres Arbeitsablaufs zu konzentrieren, während sie vollständige und zeitnahe Informationen sammeln. Wir erwarten eine Leistungssteigerung von Anwendungen und eine verbesserte Sicherheit, da unsere Benutzer jetzt problemlos auf die neuesten Daten in Amazon Redshift zugreifen können.“
Neema Raphael, Chief Data Officer – Goldman Sachs
Ressourcen
Sehen Sie sich das technische Video über Amazon-Redshift-Integration für Apache Spark an.
Lesen Sie den Blog-Beitrag zu Amazon-Redshift-Integration für Apache Spark.
Lesen Sie den Leitfaden zum technischen Management über Amazon-Redshift-Integration für Apache Spark.
Erste Schritte mit Amazon Redshift

Erfahren Sie in diesem Management-Leitfaden für Amazon Redshift mehr über Amazon Redshift, um mit einem vollständig verwalteten Data-Warehouse-Service im Petabyte-Bereich in der Cloud zu beginnen.

Verschieben Sie Daten zu und von Amazon Redshift mit AWS Glue Extraktions-, Transformations- und Ladeaufträgen (ETL).

Erfahren Sie mehr über Verbindungstypen und Optionen für ETL in AWS Glue.