Amazon Redshift – Häufig gestellte Fragen

Allgemeines

Zehntausende von Kunden nutzen Amazon Redshift jeden Tag, um SQL-Analysen in der Cloud auszuführen und Exabytes von Daten für Geschäftseinblicke zu verarbeiten. Ganz gleich, ob Ihre wachsenden Daten in betrieblichen Datenspeichern, Data Lakes, Streaming-Datenservices oder in Datensätzen von Drittanbietern gespeichert sind – mit Amazon Redshift können Sie sicher auf Daten zugreifen, sie kombinieren und gemeinsam nutzen, ohne sie zu verschieben oder zu kopieren. Amazon Redshift ist tief in AWS-Datenbank-, Analyse- und Machine-Learning-Services integriert, um Zero-ETL-Ansätze zu verwenden oder Ihnen dabei zu helfen, an Ort und Stelle auf Daten zuzugreifen, um nahezu in Echtzeit Analysen durchzuführen, Machine-Learning-Modelle in SQL zu erstellen und Apache-Spark-Analysen mit Daten in Redshift zu ermöglichen. Amazon Redshift Serverless ermöglicht Ihren Technikern, Entwicklern, Datenwissenschaftlern und Analysten einen einfachen Einstieg und eine schnelle Skalierung von Analysen in einer verwaltungsfreien Umgebung. Mit seiner Massively-Parallel-Processing-Engine und einer Architektur, die Rechen- und Speicherkapazität für eine effiziente Skalierung trennt, sowie von Machine Learning gesteuerten Leistungsinnovationen (z. B. AutoMaterialized Views) ist Amazon Redshift auf Skalierung ausgelegt und bietet eine bis zu 5x bessere Preisleistung als andere Cloud Data Warehouses.

Tausende von Kunden entscheiden sich für Amazon Redshift, um schneller zu Erkenntnissen zu gelangen, da es sich um ein leistungsstarkes Analysesystem handelt, das sich gut mit Datenbank- und Machine-Learning-Services integrieren lässt, einfach zu bedienen ist und als zentraler Service dienen kann, der all ihre Analyseanforderungen erfüllt. Amazon Redshift Serverless stellt Data-Warehouse-Kapazität automatisch bereit und skaliert sie, um eine hohe Leistung für anspruchsvolle und unvorhersehbare Workloads zu liefern. Amazon Redshift bietet eine führende Preisleistung für verschiedene Analyse-Workloads, sei es Dashboarding, Anwendungsentwicklung, Datenfreigabe, ETL (Extract, Transform, Load)-Aufträge oder verschiedene andere. Mit Zehntausenden von Kunden, die Analysen auf Terabytes bis Petabytes von Daten durchführen, optimiert Amazon Redshift die Leistung von realen Kunden-Workloads auf der Grundlage von Flottenleistungstelemetrie und liefert eine Leistung, die linear zur Workload skaliert und gleichzeitig die Kosten niedrig hält. Die Leistungsinnovationen sind für Kunden ohne zusätzliche Kosten erhältlich. Mit Amazon Redshift erhalten Sie Einblicke, indem Sie Echtzeit- und Vorhersageanalysen für alle Ihrer Daten aus Ihren operativen Datenbanken, Data Lake, Data Warehouse, Streaming-Daten und Datensätzen durch Drittanbieter durchführen. Amazon Redshift unterstützt branchenführende Sicherheit mit integriertem Identitätsmanagement und Verbund für Single Sign-On (SSO), Multi-Faktor-Authentifizierung, Zugriffskontrolle auf Spaltenebene, Sicherheit auf Zeilenebene, rollenbasierte Zugriffskontrolle, Amazon Virtual Private Cloud (Amazon VPC) und schnellerer Änderung der Cluster.

Amazon Redshift wird vollständig von AWS verwaltet, so dass Sie sich nicht mehr um Verwaltungsaufgaben von Data Warehouse wie Hardware-Bereitstellung, Software-Patching, Einrichtung, Konfiguration, Überwachung von Knoten und Laufwerken zur Wiederherstellung bei Ausfällen oder Sicherungen kümmern müssen. AWS verwaltet die Arbeit, die für die Einrichtung, den Betrieb und die Skalierung eines Data Warehouse erforderlich ist, in Ihrem Namen, sodass Sie sich auf die Entwicklung Ihrer Anwendungen konzentrieren können. Amazon Redshift Serverless stellt die Data-Warehouse-Kapazität automatisch bereit und skaliert sie, um eine hohe Leistung für anspruchsvolle und unvorhersehbare Workloads zu liefern, und Sie zahlen nur für die genutzten Ressourcen. Amazon Redshift besitzt auch automatische Optimierungsfunktionen und gibt Empfehlungen für die Verwaltung Ihres Warehouses in Redshift Advisor aus. Amazon Redshift verwaltet mit Redshift Spectrum die gesamte Datenverarbeitungsinfrastruktur, das Load Balancing, die Planung, Terminierung und Ausführung der Abfragen für Daten in Amazon S3. Amazon Redshift ermöglicht Analysen für alle Ihre Daten mit einer tiefen Integration in Datenbankservices mit Funktionen wie Amazon Aurora Zero-ETL to Amazon Redshift und Verbundabfragen für den Zugriff auf Daten aus operativen Datenbanken wie Amazon RDS und Ihrem Amazon-S3-Data-Lake. Redshift ermöglicht eine optimierte Datenaufnahme mit programmlosen, automatisierten Datenpipelines, die Streaming-Daten oder Amazon-S3-Dateien automatisch aufnehmen. Redshift ist auch in AWS Data Exchange integriert, so dass Benutzer Datensätze von Drittanbietern finden, abonnieren und abfragen und mit ihren Daten für umfassende Einblicke kombinieren können. Mit der nativen Integration in Amazon SageMaker können Kunden direkt in ihrem Data Warehouse bleiben und Modelle für Machine Learning in SQL erstellen, trainieren und aufbauen. Amazon Redshift erfüllt alle Ihre SQL-Analyseanforderungen mit einer bis zu 5-fach besseren Preisleistung als andere Cloud Data Warehouses.

Amazon Redshift ist ein vollständig verwalteter Service und bietet sowohl Bereitstellungs- als auch Serverless-Optionen, damit es für Sie effizienter wird, Analysen auszuführen und zu skalieren, ohne Ihr Data Warehouse verwalten zu müssen. Sie können einen neuen Amazon-Redshift-Serverless-Endpunkt einrichten, um das Data Warehouse in Sekundenschnelle automatisch bereitzustellen, oder Sie können die bereitgestellte Option für vorhersehbare Workloads wählen.

Mit wenigen Schritten in der AWS-Managementkonsole können Sie mit der Datenabfrage beginnen. Sie können vorinstallierte Beispieldatensätze, einschließlich Benchmark-Datensätze TPC-H, TPC-DS und andere Beispielabfragen nutzen, um sofort mit der Analyse zu beginnen. Um mit Amazon Redshift Serverless zu beginnen, wählen Sie „Try Amazon Redshift Serverless“ (Amazon Redshift Serverless testen) und beginnen Sie mit der Datenabfrage. Fangen Sie hier an.

Die TPC-DS-Benchmark-Ergebnisse zeigen, dass Amazon Redshift selbst bei einem vergleichsweise kleinen 3-TB-Datensatz die beste Preisleistung bietet. Amazon Redshift bietet eine bis zu 5-fach bessere Preisleistung als andere Cloud Data Warehouses. Das bedeutet, dass Sie von Anfang an von der führenden Preisleistung von Amazon Redshift profitieren können, ohne manuelle Optimierung. Aus der Telemetrie unserer Leistungsflotte wissen wir auch, dass die meisten Workloads kurze Abfragen sind (Workloads, die in weniger als 1 Sekunde ausgeführt werden). Für diese Workloads zeigen die neuesten Benchmarks, dass Amazon Redshift bei Workloads mit hoher Parallelität und geringer Latenz eine bis zu 7-mal bessere Preisleistung bietet als andere Cloud Data Warehouses. Weitere Informationen finden Sie hier.

Ja, Amazon-Redshift-Spezialisten stehen für Fragen und Support zur Verfügung. Kontaktieren Sie uns und Sie werden innerhalb eines Werktages von uns hören, um zu besprechen, wie AWS Ihrem Unternehmen helfen kann.

Verwalteter Amazon-Redshift-Speicher ist bei serverloser RA3-Knotentypen verfügbar. Damit können Sie die Datenverarbeitung und den Speicher unabhängig voneinander skalieren und bezahlen, sodass Sie die Größe des Clusters ausschließlich basierend auf Ihre Rechenbedürfnisse in festlegen können. Es kommt automatisch hochleistungsfähiger SSD-basierter lokaler Speicher als Tier-1-Cache zum Einsatz. Außerdem wird mithilfe von Optimierungen für die Temperatur und das Alter von Datenblöcken sowie für Workload-Muster eine hohe Leistung bereitgestellt. Bei Bedarf wird der Speicher automatisch auf Amazon S3 skaliert, ohne dass ein Eingreifen erforderlich ist.

Wenn Sie bereits Knoten von Amazon Redshift Dense Storage oder Dense Compute verwenden, können Sie zum Upgrade Ihrer vorhandenen Cluster auf die neue Datenverarbeitungs-Instance RA3, Elastic Resize benutzen. Amazon Redshift Serverless und Cluster, die die RA3-Instance verwenden, nutzen automatisch von Redshift verwalteten Speicher zum Speichern von Daten. Um diese Funktion zu nutzen, sind außer der Verwendung von Amazon-Redshift-Serverless- oder RA3-Instances keine weiteren Maßnahmen erforderlich.

Amazon Redshift Spectrum ist eine Funktion von Amazon Redshift, die es Ihnen ermöglicht Abfragen gegen Ihren Data Lake in Amazon S3 auszuführen, ohne dass Ladevorgänge von Daten oder ETL erforderlich sind. Wenn Sie eine SQL-Abfrage ausgeben, erreicht diese den Amazon-Redshift-Endpunkt, der einen Abfrageplan generiert und optimiert. Amazon Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon-S3-Datenmenge und fordert Amazon-Redshift-Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten.

In diesen Fällen sollten Sie sich für RA3-Knotentypen entscheiden:

  • Sie brauchen die Flexibilität, die Datenverarbeitung unabhängig vom Speicher zu skalieren und zu bezahlen.
  • Sie fragen einen Bruchteil Ihrer Gesamtdaten ab.
  • Ihr Datenvolumen wächst schnell oder wird voraussichtlich schnell wachsen.
  • Sie möchten die Flexibilität haben, die Größe des Clusters ausschließlich basierend auf Ihren Leistungsanforderungen auszurichten.

Da der Umfang der Daten immer größer wird und Petabytes erreicht, wächst auch die Menge der Daten, die Sie in Ihr Amazon Redshift Data Warehouse aufnehmen. Vielleicht suchen Sie nach Möglichkeiten, alle Ihre Daten kostengünstig zu analysieren.

Bei den neuen Amazon-Redshift-RA3-Instances mit verwaltetem Speicher können Sie die Anzahl der Knoten basierend auf Ihren Leistungsanforderungen wählen und zahlen nur für den verwalteten Speicher, den Sie nutzen. Dies gibt Ihnen die Flexibilität, die Größe Ihres RA3-Clusters basierend auf der täglich verarbeiteten Datenmenge zu bestimmen, ohne Ihre Speicherkosten zu erhöhen. RA3-Instances mit verwaltetem Speicher, die auf dem AWS Nitro System basieren, verwenden Hochleistungs-SSDs für Ihre heißen Daten und Amazon S3 für Ihre kalten Daten und bieten so Benutzerfreundlichkeit, kostengünstigen Speicher und schnelle Abfrageleistung.

Amazon-Redshift-Spatial bietet standortbasierte Analysen für umfassende Einblicke in Ihre Daten. Es integriert nahtlos räumliche und geschäftliche Daten, um Analysen für die Entscheidungsfindung bereitzustellen. Amazon Redshift hat im November 2019 die native Unterstützung für die Verarbeitung räumlicher Daten mit dem polymorphen Datentyp GEOMETRY und mehreren wichtigen räumlichen SQL-Funktionen eingeführt. Wir unterstützen jetzt den Datentyp GEOGRAPHY, und unsere Bibliothek mit räumlichen SQL-Funktionen ist auf 80 gewachsen. Wir unterstützen alle gängigen räumlichen Datentypen und Standards, einschließlich Shapefiles, GeoJSON, WKT, WKB, eWKT und eWKB. Weitere Informationen finden Sie auf der Seite Dokumentation oder auf der Seite Amazon Redshift Spatial Tutorial.

Amazon Athena und Amazon Redshift Serverless adressieren unterschiedliche Anforderungen und Anwendungsfälle, auch wenn beide Services serverlos sind und SQL-Benutzer ermöglichen.

Mit seiner Massively-Parallel-Processing (MPP)-Architektur, die Speicher und Rechenleistung trennt, und den durch Machine Learning geleiteten automatischen Optimierungsfunktionen ist ein Data Warehouse wie Amazon Redshift, ob Serverless oder bereitgestellt, eine hervorragende Wahl für Kunden, die für komplexe BI- und Analyse-Workloads die beste Preisleistung in jedem Maßstab benötigen. Kunden können Amazon Redshift als zentrale Komponente ihrer Datenarchitektur verwenden, wobei tiefgreifende Integrationen zur Verfügung stehen, um auf Daten vor Ort zuzugreifen oder Daten für Hochleistungsanalysen über ZeroETL- und No-Code-Methoden einfach in das Warehouse zu übernehmen oder zu verschieben. Durch die Integration mit AWS Data Exchange können Kunden auf Daten zugreifen, die in Amazon S3, in operativen Datenbanken wie Aurora und Amazon RDS sowie in Data Warehouses von Drittanbietern gespeichert sind, und diese mit Daten kombinieren, die im Amazon Redshift Data Warehouse für Analysen gespeichert sind. Sie können problemlos mit Data Warehousing beginnen und Machine Learning auf all diesen Daten durchführen.

Amazon Athena eignet sich hervorragend für die interaktive Analyse und Datenexploration von Daten in Ihrem Data Lake oder einer beliebigen Datenquelle über ein erweiterbares Konnektor-Framework (mit über 30 Out-of-Box-Konnektoren für Anwendungen und On-Premises- oder andere Cloud-Analysesysteme), ohne dass Sie sich um die Aufnahme oder Verarbeitung von Daten kümmern müssen. Amazon Athena basiert auf Open-Source-Engines und -Frameworks wie Spark, Presto und Apache Iceberg und bietet Kunden die Flexibilität, Python oder SQL zu verwenden oder mit offenen Datenformaten zu arbeiten. Wenn Kunden interaktive Analysen mit Open-Source-Frameworks und -Datenformaten durchführen möchten, ist Amazon Athena ein hervorragender Ausgangspunkt.

Serverless

Amazon Redshift Serverless ist eine serverlose Option von Amazon Redshift, mit der sich Analysen effizienter ausführen und skalieren lassen, ohne eine Data-Warehouse-Infrastruktur einrichten und verwalten zu müssen. Mit Redshift Serverless kann jeder Benutzer – einschließlich Datenanalysten, Entwickler, Geschäftsexperten und Datenwissenschaftler – durch einfaches Laden und Abfragen von Daten im Data Warehouse Einblicke in die Daten erhalten.

Mit ganz wenigen Schritten in der AWS-Managementkonsole können Sie „Amazon Redshift Serverless konfigurieren“ wählen und mit der Abfrage von Daten beginnen. Sie können vorinstallierte Beispieldatensätze, wie Wetterdaten, Census Data und Benchmark-Datensätze zusammen mit Beispielabfragen nutzen, um sofort mit der Analyse zu beginnen. Sie können Datenbanken, Schemas, Tabellen erstellen und Ihre eigenen Daten aus Amazon S3 laden, über Amazon-Redshift-Datenfreigaben auf Daten zugreifen oder einen vorhandenen von Redshift bereitgestellten Cluster-Snapshot wiederherstellen. Sie können auch Daten in offenen Formaten wie Parquet oder ORC, in Amazon-S3-Data-Lakes sowie Abfragedaten in Betriebsdatenbanken wie Amazon Aurora und Amazon RDS PostgreSQL und MySQL direkt abfragen. Siehe Handbuch „Erste Schritte“.

Wenn Sie keine Erfahrung mit der Verwaltung von Data Warehouses haben, müssen Sie sich nicht um das Einrichten, Konfigurieren, Verwalten von Clustern oder Abstimmen des Warehouses kümmern. Sie können sich darauf konzentrieren, aus Ihren Daten aussagekräftige Einblicke zu gewinnen oder mithilfe von Daten Ihre wichtigsten geschäftlichen Ergebnisse zu erzielen. Sie zahlen nur für das, was Sie nutzen, wodurch die Kosten überschaubar bleiben. Sie profitieren weiterhin von der erstklassigen Leistung von Amazon Redshift, den umfangreichen SQL-Funktionen, der nahtlosen Integration mit Data Lakes und operativen Data Warehouses sowie den integrierten Funktionen für prädiktive Analysen und Datenfreigabe. Wenn Sie eine differenzierte Kontrolle über Ihr Data Warehouse benötigen, können Sie Redshift-Cluster bereitstellen.

Sie können weiterhin alle umfangreichen Analysefunktionen von Amazon Redshift nutzen, wie z. B. komplexe Verknüpfungen, direkte Abfragen von Daten im Amazon S3 Data Lake und in operativen Datenbanken, materialisierte Ansichten, gespeicherte Prozeduren, Unterstützung für halbstrukturierte Daten und ML sowie hohe Leistung im großen Maßstab. Alle zugehörigen Services, mit denen Amazon Redshift integriert ist (wie Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation und AWS Glue), funktionieren weiterhin mit Amazon Redshift Serverless.

Sie können weiterhin alle analytischen Anwendungsfälle ausführen. Mit einem einfachen Workflow für die ersten Schritte, automatischer Skalierung und der Möglichkeit, für die Nutzung zu bezahlen, macht Amazon Redshift Serverless die Ausführung von Entwicklungs- und Testumgebungen, die schnell gestartet werden müssen, Ad-hoc-Geschäftsanalysen, Arbeitslasten mit variierenden und unvorhersehbaren Rechenanforderungen und intermittierenden oder sporadischen Arbeitslasten jetzt noch effizienter und kostengünstiger.

Datenerfassung und -ladevorgänge

Sie können Daten aus verschiedenen Datenquellen in Amazon Redshift laden, darunter aus Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline und aus SSH-fähigen Hosts in Amazon EC2 oder in On-Premises-Bereitstellungen. Amazon Redshift versucht, die Daten parallel in die einzelnen Datenverarbeitungsknoten zu laden, um die Rate zu maximieren, mit der Daten in Ihrem Data Warehouse-Cluster aufgenommen werden können. Clients können sich über ODBC oder JDBC mit Amazon Redshift verbinden und den SQL-Befehl „INSERT“ aufrufen, um die Daten einzufügen. Beachten Sie, dass dies langsamer als beim Verwenden von S3 oder DynamoDB erfolgt, da dabei Daten parallel auf alle Datenverarbeitungsknoten geladen werden, während bei der SQL-Anweisung INSERT Daten über den zentralen Hauptknoten geladen werden. Weitere Details zum Laden von Daten in Amazon Redshift finden Sie in unserem Handbuch „Erste Schritte“.

Automatisches Kopieren von Redshift bietet die Möglichkeit, Kopiervorgänge zu automatisieren, indem Amazon-S3-Ordner verfolgt und neue Dateien ohne Eingreifen des Kunden aufgenommen werden. Ohne die automatische Kopierfunktion startet eine Kopieranweisung sofort den Prozess zum Einlesen der vorhandenen Dateien. Automatisches Kopieren erweitert den bestehenden Kopierbefehl und bietet die Möglichkeit, 1/ die Aufnahme von Dateien zu automatisieren, indem angegebene Amazon-S3-Pfade auf neue Dateien überwacht werden, 2/ Kopierkonfigurationen wiederzuverwenden und so die Notwendigkeit zu verringern, neue Kopieranweisungen für sich wiederholende Aufnahmeaufgaben zu erstellen und auszuführen und 3/ den Überblick über geladene Dateien zu behalten, um Datenduplikate zu vermeiden.

Um loszulegen, sollten Kunden über einen Amazon-S3-Ordner verfügen, auf den ihr Redshift-Cluster/Serverless-Endpunkt über die zugehörigen IAM-Rollen zugreifen kann, und eine Redshift-Tabelle erstellen, die als Ziel verwendet werden soll. Sobald ein Amazon-S3-Pfad und die Redshift-Tabelle bereit sind, können Kunden mit dem Befehl „copy“ (kopieren) einen Kopierauftrag erstellen. Sobald der Kopierauftrag erstellt ist, beginnt Redshift im Hintergrund mit der Verfolgung des angegebenen Amazon-S3-Pfads und initiiert die benutzerdefinierten Kopieranweisungen, um automatisch neue Dateien in die Zieltabelle zu kopieren.

Zu den wichtigsten Anwendungsfällen gehören: 1/ Kunden, die Amazon EMR und AWS Glue verwenden, um Apache-Spark-Aufträge auszuführen, die auf Daten zugreifen und diese in Amazon Redshift als Teil der Datenerfassungs- und -transformationspipelines (Batch und Streaming) laden. 2/ Kunden, die Amazon SageMaker verwenden, um Machine Learning mit Apache Spark durchzuführen, und die auf Daten zugreifen müssen, die in Amazon Redshift für Feature Engineering und Transformation gespeichert sind. 3/Amazon-Athena-Kunden verwenden Apache Spark, um interaktive Analysen an Daten in Amazon Redshift durchzuführen.

Baikal bietet die folgenden Vorteile:

  • Benutzerfreundlich für den Einstieg und die Ausführung von Apache-Spark-Anwendungen auf Daten in Amazon Redshift, ohne dass Sie sich Gedanken über manuelle Schritte zur Einrichtung und Wartung nicht zertifizierter Versionen von Spark machen müssen
  • Praktische Verwendung von Apache Spark aus verschiedenen AWS-Services wie Amazon EMR, AWS Glue, Amazon Athena und Amazon SageMaker mit Amazon Redshift mit minimaler Konfiguration
  • Verbesserte Leistung beim Ausführen von Apache-Spark-Anwendungen auf Amazon Redshift

Amazon Aurora Zero-ETL to Amazon Redshift ermöglicht es Amazon Aurora- und Amazon-Redshift-Kunden, Analysen und Machine Learning auf Petabytes von Transaktionsdaten nahezu in Echtzeit durchzuführen, indem eine vollständig verwaltete Lösung angeboten wird, mit der Transaktionsdaten von Amazon Aurora innerhalb von Sekunden nach dem Schreiben in Amazon Redshift verfügbar gemacht werden. Mit Amazon Aurora Zero-ETL to Amazon Redshift wählen Kunden einfach die Amazon-Aurora-Tabellen aus, die die Daten enthalten, die sie mit Amazon Redshift analysieren möchten, und die Funktion repliziert das Schema und die Daten nahtlos in Amazon Redshift. Die Kunden müssen weniger komplexe Datenpipelines erstellen und verwalten und können sich stattdessen auf die Verbesserung ihrer Anwendungen konzentrieren. Mit Amazon Aurora Zero-ETL to Amazon Redshift können Kunden Daten aus mehreren Amazon-Aurora-Datenbankclustern in dieselbe Amazon-Redshift-Instance replizieren, um umfassende Einblicke über mehrere Anwendungen hinweg zu erhalten und gleichzeitig ihre wichtigsten Analyse-Assets zu konsolidieren, was zu erheblichen Kosteneinsparungen und betrieblicher Effizienz führt. Mit Amazon Aurora Zero-ETL to Amazon Redshift können Kunden auch auf die zentralen Analyse- und Machine-Learning-Funktionen von Amazon Redshift zugreifen, wie z. B. materialisierte Ansichten, Datenfreigabe und föderierter Zugriff auf mehrere Datenspeicher und Data Lakes. Dies ermöglicht es Kunden, Echtzeit- und Kernanalysen zu kombinieren, um zeitkritische Erkenntnisse zu gewinnen, die als Grundlage für Geschäftsentscheidungen dienen. Darüber hinaus verwenden Kunden Amazon Aurora für Transaktionen und Amazon Redshift für Analysen, so dass es keine gemeinsamen Rechenressourcen gibt, was zu einer leistungsstarken und betrieblich stabilen Lösung führt.

Die Integration von Amazon-Aurora-Null-ETL-Integration mit Amazon Redshift bietet eine nahtlose Integration zwischen den beiden Services für Transaktionsanalysen.

Streaming-Daten unterscheiden sich von herkömmlichen Datenbanktabellen dadurch, dass Sie bei der Abfrage eines Streams die Entwicklung einer zeitlich veränderlichen Beziehung erfassen. Tabellen hingegen erfassen eine Momentaufnahme dieser zeitlich veränderlichen Beziehung. Die Kunden von Amazon Redshift sind es gewohnt, mit regulären Tabellen zu arbeiten und die nachgelagerte Verarbeitung (d. h. Transformationen) von Daten mit einem traditionellen Batch-Modell, zum Beispiel „ELT“, durchzuführen. Wir stellen eine Methode zur Verwendung von Redshift Materialized Views (MVs) zur Verfügung, mit der Kunden auf einfache Weise eine Point-in-Time-Ansicht des Datenstroms materialisieren können, die bis zum Zeitpunkt der Abfrage akkumuliert wurde, um ELT-Workflows so schnell wie möglich zu unterstützen.

Daten-Freigabe

Zu den wichtigsten Anwendungsfällen gehören:

  • Ein zentraler ETL-Cluster, der Daten mit vielen BI/Analyse-Clustern gemeinsam nutzt, um eine Isolierung der Lese-Workload und optionale Abrechenbarkeit zu gewährleisten.
  • Ein Datenanbieter, der Daten für externe Verbraucher bereitstellt.
  • Gemeinsame Nutzung von Datensätzen wie Kunden und Produkten durch verschiedene Unternehmensgruppen und Zusammenarbeit für umfassende Analysen und Datenwissenschaft.
  • Dezentralisierung einer Data Warehouse zur Vereinfachung der Verwaltung.
  • Gemeinsame Nutzung von Daten zwischen Entwicklungs-, Test- und Produktionsumgebungen.
  • Zugriff auf Redshift-Daten von anderen AWS-Analyseservices aus.

Mit datenbankübergreifenden Abfragen können Sie Daten aus einer beliebigen Redshift-Datenbank, auf die Sie Zugriff haben, nahtlos abfragen und zusammenführen, und zwar unabhängig davon, mit welcher Datenbank Sie verbunden sind. Dabei kann es sich um lokale Datenbanken auf dem Cluster und auch um freigegebene Datasets handeln, die über Remote-Cluster bereitgestellt werden. Datenbankübergreifende Abfragen ermöglichen Ihnen die Flexiblität, Daten als separate Datenbanken zu organisieren, um Konfigurationen mit mehreren Mandanten zu unterstützen.

AWS Data Exchange macht es für AWS-Kunden effizienter, Daten von Drittanbietern in AWS sicher auszutauschen und zu nutzen. Datenanalysten, Produktmanager, Portfoliomanager, Datenwissenschaftler, Quants, Techniker für klinische Studien und Entwickler in fast jeder Branche hätten gerne Zugriff auf mehr Daten, um Analysen voranzutreiben, ML-Modelle zu trainieren und datengesteuerte Entscheidungen zu treffen. Es gibt jedoch keinen zentralen Ort, an dem man Daten von mehreren Anbietern finden kann, und keine einheitliche Methode, wie Anbieter Daten bereitstellen, sodass sie mit einer Mischung aus versendeten physischen Medien, FTP-Anmeldeinformationen und maßgeschneiderten API-Aufrufen zurechtkommen müssen. Umgekehrt würden viele Organisationen ihre Daten gerne für Forschungs- oder kommerzielle Zwecke zur Verfügung stellen, aber es ist zu schwierig und teuer, Datenbereitstellungs-, Berechtigungs- und Abrechnungstechnologien zu entwickeln und zu pflegen, was das Angebot an wertvollen Daten weiter einschränkt.

Skalierbarkeit und Nebenläufigkeit

Amazon Redshift Serverless stellt automatisch die Data-Warehouse-Kapazität bereit und skaliert die zugrundeliegenden Ressourcen intelligent. Amazon Redshift Serverless passt die Kapazität in Sekundenschnelle an, um selbst für die anspruchsvollsten und volatilsten Workloads eine konstant hohe Leistung und einen vereinfachten Betrieb zu gewährleisten. Mithilfe der Funktion zur Nebenläufigkeitsskalierung können Sie eine unbegrenzte Anzahl gleichzeitiger Benutzer und Abfragen mit gleichbleibend hoher Abfragegeschwindigkeit unterstützen. Wenn die Nebenläufigkeitssskalierung aktiviert ist, fügt Amazon Redshift automatisch Cluster-Kapazität hinzu, wenn Ihr Cluster einen Anstieg der Abfrage-Warteschlangen verzeichnet.

Für manuelle Skalierung, wenn Sie die Abfrageleistung steigern oder auf eine CPU-, Arbeitsspeicher- oder I/O-Überlastung reagieren möchten, können Sie über die AWS-Managementkonsole oder ModifyCluster-API die Anzahl der Knoten in Ihrem Data Warehouse-Cluster erhöhen. Alle gewünschten Änderungen am Data-Warehouse-Cluster erfolgen unmittelbar. Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Redshift-Data-Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon-CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon-CloudWatch-Funktionalität für benutzerdefinierte Metriken können Sie auch eigene Metriken hinzufügen.

Mit Amazon Redshift Spectrum können Sie mehrere Redshift-Cluster ausführen, die auf die gleichen Daten in Amazon S3 zugreifen. Sie können unterschiedliche Cluster für unterschiedliche Anwendungsfälle verwenden. Sie können beispielsweise einen Cluster für die Standard-Berichterstellung und einen anderen für wissenschaftliche Datenabfragen verwenden. Ihr Marketingteam kann einen eigenen Cluster verwenden, der sich von dem Ihres Betriebsteams unterscheidet. Redshift Spectrum verteilt die Ausführung einer Abfrage automatisch an mehrere Redshift Spectrum-Arbeitsressourcen aus einem gemeinsam genutzten Ressourcenpool, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und sendet Ergebnisse zurück in den Redshift-Cluster, wo sie weiterverarbeitet werden.

Das kommt darauf an. Wenn Sie die Funktion zur Nebenläufigkeitsskalierung verwenden, steht der Cluster währenddessen vollständig für Lese- und Schreibvorgänge zur Verfügung. Bei der elastischen Größenänderung steht der Cluster während des Vorgangs vier bis acht Minuten lang nicht zur Verfügung. Bei der Redshift-RA3-Speicherelastizität im verwalteten Speicher steht der Cluster vollständig zur Verfügung. Die Daten werden automatisch zwischen dem verwalteten Speicher und den Datenverarbeitungsknoten verschoben.

Die elastische Größenänderung entfernt oder fügt zur Verwaltung des Abfragedurchsatzes in Minuten Knoten von einem einzelnen Redshift-Cluster hinzu. Beispielsweise sind eventuell für den rechtzeitigen Abschluss einer ETL-Workload für bestimmte Stunden in einem Tages- oder Monatsendbericht zusätzliche Amazon-Redshift-Ressourcen erforderlich. Mit der Nebenläufigkeitsskalierung werden zusätzliche Cluster-Ressourcen hinzugefügt, um die gesamte Nebenläufigkeitsverarbeitung von Abfragen zu erhöhen.

Nein, die Nebenläufigkeitsskalierung greift auf einen hochskalierbaren Pool aus Amazon-Redshift-Ressourcen zurück, auf die Kunden keinen direkten Zugriff haben.

Sicherheit

Amazon Redshift unterstützt branchenführende Sicherheit mit integriertem Identitätsmanagement und Verbund für Single Sign-On (SSO), Multi-Faktor-Authentifizierung, Zugriffskontrolle auf Spaltenebene, Sicherheit auf Zeilenebene, rollenbasierte Zugriffkontrolle und Amazon Virtual Private Cloud (Amazon VPC). Mit Amazon Redshift sind Ihre Daten sowohl während der Übertragung als auch im Ruhezustand verschlüsselt. Alle Sicherheitsfunktionen von Amazon Redshift werden Out-of-the-Box kostenlos angeboten, um die höchsten Sicherheits-, Datenschutz- und Compliance-Anforderungen zu erfüllen. Sie erhalten den Vorteil von AWS, was mehr Sicherheitsstandards und Compliance-Zertifizierungen als jeder andere Anbieter unterstützt, darunter ISO 27001, SOC, HIPAA/HITECH und FedRAMP.

Ja, Amazon Redshift bietet Unterstützung für rollenbasierte Zugriffskontrolle an. Die Zugriffskontrolle auf Zeilenebene ermöglicht es Ihnen, einem Benutzer eine oder mehrere Rollen zuzuweisen und System- und Objektberechtigungen nach Rollen zu vergeben. Sie können fertige Systemrollen verwenden – Root-Benutzer, DBA, Operator und Security Admins – oder Ihre eigenen Rollen erstellen.

Mit den benutzerdefinierten Funktionen (UDFs) von AWS Lambda können Sie eine AWS-Lambda-Funktion als UDF in Amazon Redshift verwenden und sie aus Redshift SQL-Abfragen heraus abrufen. Diese Funktionalität ermöglicht es Ihnen, benutzerdefinierte Erweiterungen für Ihre SQL-Abfrage zu schreiben, um eine engere Integration in andere Services oder Produkte von Drittanbietern zu erreichen. Sie können Lambda-UDFs schreiben, um in Abfragezeit externe Tokenisierung, Data Masking und die Identifizierung oder Deidentifizierung von Daten zu ermöglichen, indem Sie Anbieter wie Protegrity integrieren, und den Schutz vertraulicher Daten je nach den Berechtigungen und Gruppen eines Nutzers einschalten oder aufheben.

Mit der Unterstützung für dynamische Datenmaskierung können Kunden ihre sensiblen Daten problemlos schützen und den Zugriff durch die Verwaltung von Datenmaskierungsrichtlinien granular steuern. Angenommen, Sie haben Anwendungen mit mehreren Benutzern und Objekten mit sensiblen Daten, die nicht allen Benutzern zugänglich gemacht werden können. Sie müssen verschiedene Sicherheitsstufen für verschiedene Benutzergruppen vorsehen. Redshift Dynamic Data Masking ist konfigurierbar, so dass Kunden konsistente, formaterhaltende und irreversible maskierte Datenwerte definieren können. Sobald die Funktion GA ist, können Sie sie sofort nutzen. Die Sicherheitsadministratoren können mit nur wenigen Befehlen Richtlinien erstellen und anwenden.

Ja. Kunden, die ihre Corporate-Identity-Anbieter wie Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate oder andere SAML-konforme Identitätsanbieter nutzen möchten, können Amazon Redshift so konfigurieren, dass Single Sign-On bereitgestellt wird. Sie können sich mit Microsoft-Azure-AD-Identitäten (Active Directory) beim Amazon-Redshift-Cluster anmelden. So können Sie sich bei Redshift anmelden, ohne die Azure-Active-Directory-Identitäten in Redshift zu duplizieren.

Ja. Mit MFA können Sie bei der Authentifizierung gegenüber dem Amazon-Redshift-Cluster für zusätzliche Sicherheit sorgen.

Verfügbarkeit und Beständigkeit

Amazon Redshift erkennt automatisch, wenn ein Knoten in Ihrem Data Warehouse-Cluster ausfällt, und tauscht diesen aus. Bei Clustern von Dense Compute (DC) und Dense Storage (DS2) werden die Daten auf den Rechenknoten gespeichert, um eine hohe Datenbeständigkeit zu gewährleisten. Wenn ein Knoten ersetzt wird, werden die Daten von der Spiegelkopie auf dem anderen Knoten aktualisiert. RA3-Cluster und Redshift Serverless sind nicht auf die gleiche Weise betroffen, da die Daten in Amazon S3 gespeichert werden und das lokale Laufwerk nur als Daten-Cache verwendet wird. Der Data-Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt den Ersatzknoten sofort zur Verfügung und lädt zunächst Ihre Daten aus Amazon S3, auf die am meisten zugegriffen wird, damit Sie schnellstmöglich das Abfragen Ihrer Daten fortsetzen können. Cluster mit nur einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

Wenn es sich bei Ihrem Amazon Redshift Data Warehouse um eine Single-AZ-Bereitstellung handelt und die Availability Zone des Clusters Ihres Amazon Redshift Data Warehouses nicht verfügbar ist, verlagert Amazon Redshift Ihren Cluster automatisch in eine andere AWS Availability Zone (AZ), und zwar ohne Datenverlust und Änderungen an den Anwendungen. Zur Aktivierung müssen Sie die Funktion für die Verlagerung in den Einstellungen der Cluster-Konfiguration aktivieren.

Im Gegensatz zu Single-AZ-Implementierungen können Kunden jetzt die Verfügbarkeit von Redshift verbessern, indem sie ihr Data Warehouse in einer Multi-AZ-Bereitstellung betreiben. Mit einer Multi-AZ-Bereitstellung können Sie Ihr Data Warehouse in mehreren AWS Availability Zones (AZ) gleichzeitig betreiben und den Betrieb in unvorhergesehenen Ausfallszenarien fortsetzen. Zur Aufrechterhaltung der Geschäftskontinuität sind keine Anwendungsänderungen erforderlich, da die Multi-AZ-Bereitstellung als ein einziges Data Warehouse mit einem Endpunkt verwaltet wird. Multi-AZ-Bereitstellungen verkürzen die Wiederherstellungszeit, indem sie die Kapazität zur automatischen Wiederherstellung garantieren. Sie sind für Kunden mit geschäftskritischen Analyseanwendungen gedacht, die ein Höchstmaß an Verfügbarkeit und Widerstandsfähigkeit gegenüber AZ-Ausfällen benötigen. Dies ermöglicht es Kunden auch, eine Lösung zu implementieren, die den Empfehlungen der Zuverlässigkeits-Säule des AWS-Well-Architected Framework besser entspricht. Um mehr über Amazon Redshift Multi-AZ zu erfahren, klicken Sie hier.

RPO ist ein Akronym für Recovery Point Objective (Wiederherstellungspunktziel) und ist ein Begriff, der die Garantie für die Wiederherstellung von Daten im Falle von Ausfällen beschreibt. RPO ist die maximal akzeptable Zeitspanne seit dem letzten Datenwiederherstellungspunkt. Damit wird festgelegt, was als akzeptabler Datenverlust zwischen dem letzten Wiederherstellungspunkt und der Unterbrechung des Services gilt. Redshift Multi-AZ unterstützt RPO = 0, d. h. die Daten sind im Falle eines Ausfalls garantiert aktuell und auf dem neuesten Stand. Unsere Tests vor dem Start haben ergeben, dass die RTO bei Amazon-Redshift-Multi-AZ-Bereitstellungen im unwahrscheinlichen Fall eines AZ-Fehlers unter 60 Sekunden oder weniger liegt.

Redshift Relocation ist standardmäßig auf allen neuen RA3-Clustern und serverlosen Endpunkten aktiviert. Dadurch kann ein Data Warehouse im Falle eines großflächigen Ausfalls in einer anderen AZ neu gestartet werden, ohne dass es zu Datenverlusten oder zusätzlichen Kosten kommt. Die Verwendung von „Verschieben“ ist zwar kostenlos, hat aber den Nachteil, dass es sich um einen Best-Effort-Ansatz handelt, der von der Ressourcenverfügbarkeit in der AZ abhängt, die wiederhergestellt werden soll, und dass das Recovery Time Objective (RTO) durch andere Probleme im Zusammenhang mit dem Start eines neuen Clusters beeinträchtigt werden kann. Dies kann zu Erholungszeiten zwischen 10 und 60 Minuten führen. Redshift Multi-AZ unterstützt die Anforderungen an die Hochverfügbarkeit, indem es einen RTO von einigen zehn Sekunden liefert und einen kontinuierlichen Betrieb garantiert, da es nicht von Kapazitätsbeschränkungen oder anderen potenziellen Problemen bei der Erstellung eines neuen Clusters betroffen ist.

Abfragen und Analysen

Ja, Amazon Redshift arbeitet mit branchenüblicher SQL und der Zugriff erfolgt über JDBC- und ODBC-Standardtreiber. Sie können von der Registerkarte "Connect Client" der Redshift-Konsole unsere benutzerdefinierten Amazon Redshift JDBC- und ODBC-Treiber herunterladen. Wir haben Integrationen bei einer Reihe beliebter Anbieter von BI- und ETL-Lösungen validiert, von denen wiederum einige kostenlose Testversionen anbieten, um Ihnen die ersten Schritte beim Laden und Analysieren von Daten zu erleichtern. Ferner haben Sie auch im AWS Marketplace die Möglichkeit zum Bereitstellen und Konfigurieren von Lösungen, die für die Zusammenarbeit mit Amazon Redshift innerhalb von Minuten ausgelegt sind.

Amazon Redshift Spectrum unterstützt alle Amazon Redshift-Clienttools. Die Clienttools können mithilfe von ODBC- oder JDBC-Verbindungen weiterhin eine Verbindung zum Amazon Redshift-Cluster-Endpunkt herstellen. Änderungen sind nicht erforderlich.

Sie verwenden genau dieselbe Abfragesyntax und dieselben Abfragefunktionen zum Zugreifen auf Tabellen in Redshift Spectrum wie für Tabellen im lokalen Speicher Ihres Redshift-Clusters. Externe Tabellen werden mithilfe des Schemanamens referenziert, der im CREATE EXTERNAL SCHEMA-Befehl definiert wird, wo die Tabellen registriert wurden.

Amazon Redshift Spectrum unterstützt derzeit viele Open-Source-Datenformate, darunter Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text und TSV. <br>Amazon Redshift Spectrum unterstützt derzeit die Gzip- und Snapy-Komprimierung.

Wie bei den lokalen Tabellen können Sie den Schemanamen verwenden, um exakt auszuwählen, welche Tabelle Sie meinen. Dazu verwenden Sie in Ihrer Abfrage "schema_name.table_name".

Ja. Der CREATE EXTERNAL SCHEMA-Befehl unterstützt Hive-Metaspeicher. Derzeit wird DDL nicht für Hive-Metaspeicher unterstützt.

Sie können Sie Systemtabelle SVV_EXTERNAL_TABLES abfragen, um diese Informationen zu erhalten.

Ja, die Funktion von Amazon Redshift ML vereinfacht SQL-Nutzern das Erstellen, Trainieren und Implementieren von Machine-Learning (ML)-Modellen mit bekannten SQL-Befehlen. Amazon Redshift ML ermöglicht Ihnen die Nutzung Ihrer Daten in Amazon Redshift mit Amazon SageMaker, einem vollständig verwalteten ML-Service. Amazon Redshift unterstützt sowohl Unsupervised Learning (K-Means) als auch Supervised Learning (Autopilot, XGBoost, MLP-Algorithmen). Sie können auch mithilfe von AWS Language AI Services Textfelder in SQL-Abfragen mit vorgefertigten Lambda-UDF-Funktionen übersetzen, redigieren und analysieren – siehe Blogbeitrag.

Amazon Redshift bietet eine Daten-API, die den problemlosen Zugriff auf Daten von Amazon Redshift mit allen Arten von herkömmlichen, cloudnativen und containerisierten, auf serverlosen Webservices basierten und ereignisgesteuerten Anwendungen ermöglicht. Die Daten-API vereinfacht den Zugriff auf Amazon Redshift, weil Sie keine Treiber konfigurieren und Datenbankverbindungen verwalten müssen. Stattdessen können Sie SQL-Befehle für einen Amazon Redshift-Cluster ausführen, indem Sie einfach einen gesicherten API-Endpunkt aufrufen, der von der Daten-API bereitgestellt wird. Die Daten-API kümmert sich um die Verwaltung von Datenbankverbindungen und das Puffern von Daten. Die Daten-API ist asynchron gestaltet, sodass Sie Ihre Ergebnisse später abrufen können. Die Abfrageergebnisse werden 24 Stunden lang aufbewahrt.

Die Daten-API unterstützt sowohl IAM-Anmeldeinformationen als auch die Verwendung eines geheimen Schlüssels von AWS Secrets Manager. Die Daten-API fasst AWS-Identitäs- und Zugriffsverwaltungs-Anmeldeinformationen (IAM) zusammen, sodass Sie Identitätsanbieter wie Okta oder Azure Active Directory oder Datenbank-Anmeldeinformationen verwenden können, die in Secrets Manager gespeichert sind, ohne dass Datenbank-Anmeldeinformationen in API-Aufrufen weitergegeben werden.

Ja, Sie können die Data API über AWS CLI mit der Befehlszeilenoption „aws redshift-data“ verwenden.

Sie können die Daten-API von anderen Services wie AWS Lambda, AWS Cloud9, AWS AppSync und Amazon EventBridge verwenden.

Nein, es fällt keine separate Gebühr für die Nutzung der Daten-API an.

Null-ETL-Integrationen

Sie sollten die Aurora-Null-ETL-Integration mit Amazon Redshift verwenden, wenn Sie nahezu in Echtzeit Zugriff auf Transaktionsdaten benötigen. Diese Integration ermöglicht es Ihnen, Amazon Redshift ML mit einfachen SQL-Befehlen zu nutzen.

Die Aurora-Null-ETL-Integration mit Amazon Redshift ist in der Aurora MySQL-Compatible Edition für Aurora MySQL 3.05 Version (kompatibel mit MySQL 8.0.32) und höher in den Regionen USA Ost (Ohio), USA Ost (N. Virginia), USA West (Oregon), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio) Europa (Frankfurt), Europa (Irland) und Europa (Stockholm) verfügbar. Die Aurora-Null-ETL-Integration mit Amazon Redshift ist in der Aurora PostgreSQL-kompatiblen Edition für Aurora PostgreSQL 15.4 in der Region USA Ost (Ohio) verfügbar.

Durch die Aurora-Null-ETL-Integration mit Amazon Redshift müssen Sie keine komplexen Datenpipelines mehr erstellen und verwalten. Sie können Daten aus einem oder mehreren Aurora-Datenbankclustern in einem einzigen Amazon Redshift-Datenbank-Cluster konsolidieren und mithilfe von Amazon Redshift nahezu in Echtzeit Analysen und ML für Petabyte an Transaktionsdaten von Amazon Aurora ausführen.

Die Aurora-Null-ETL-Integration mit Amazon Redshift ist mit Amazon Redshift Serverless und Amazon Aurora Serverless v2 kompatibel. Wenn Sie sowohl Aurora Serverless v2 als auch Amazon Redshift Serverless verwenden, können Sie Analysen zu Transaktionsdaten nahezu in Echtzeit erstellen, ohne die Infrastruktur für Datenpipelines verwalten zu müssen.

Sie können beginnen, indem Sie die Amazon-RDS-Konsole verwenden, um die Null-ETL-Integration zu erstellen, indem Sie die Aurora-Quelle und das Amazon Redshift-Ziel angeben. Sobald die Integration erstellt wurde, wird die Aurora-Datenbank auf Amazon Redshift repliziert, und Sie können mit der Abfrage der Daten beginnen, sobald das erste Seeding abgeschlossen ist. Weitere Informationen finden Sie im Handbuch Erste Schritte für Aurora-Null-ETL-Integrationen mit Amazon Redshift.

Die Null-ETL-Integration von Aurora zu Amazon Redshift repliziert Transaktionen atomar, um die Datenkonsistenz zwischen der Aurora-Quelldatenbank und dem Amazon Redshift-Zielcluster sicherzustellen.
Nachfolgend finden Sie einige wichtige Punkte zur Atomisierung von Transaktionen bei dieser Integration:

  • Nur bestätigte Transaktionen in Aurora werden zu Amazon Redshift repliziert. Unverbindliche oder rückgängig gemachte Transaktionen werden nicht berücksichtigt.
  • Die Integration verwendet einen zweiphasigen Commit-Prozess, um jede Transaktion atomar auf Amazon Redshift anzuwenden. Entweder werden alle Datenänderungen in der Transaktion übernommen oder, wenn ein Fehler auftritt, werden keine übernommen.
  • Die Transaktionskonsistenz zwischen Quelle und Ziel wird aufrechterhalten. Nach der Replikation sind die Daten für eine bestimmte Transaktion sowohl in Aurora als auch in Amazon Redshift konsistent.
  • Schemaänderungen durch DDL oder DML werden ebenfalls atomar angewendet, um die Integrität aufrechtzuerhalten.
  • Die atomare Anwendung von Transaktionen stellt sicher, dass keine teilweisen Transaktionen oder inkonsistente Datenzustände zwischen den Datenbanken auftreten können.
 

Die Aurora Null-ETL-Integration in Amazon Redshift gewährleistet die vollständige Transaktionskonsistenz zwischen der Aurora-Quelldatenbank und dem Amazon Redshift-Zielcluster.

Hier sind einige wichtige Punkte zur Handhabung von Schemaänderungen:

  • DDL-Anweisungen wie CREATE TABLE, ALTER TABLE, DROP TABLE usw. werden automatisch von Aurora nach Amazon Redshift repliziert.
  • Die Integration nimmt die erforderlichen Prüfungen und Anpassungen in Amazon-Redshift-Tabellen für replizierte Schemaänderungen vor. Wenn Sie beispielsweise eine Spalte in Aurora hinzufügen, wird die Spalte in Amazon Redshift hinzugefügt.
  • Die Replikation und Schemasynchronisierung erfolgen automatisch in Echtzeit mit minimaler Verzögerung zwischen Quell- und Zieldatenbanken.
  • Die Schemakonsistenz bleibt erhalten, auch wenn DML-Änderungen parallel zu DDL-Änderungen erfolgen.

Sie können materialisierte Ansichten in Ihrer lokalen Amazon-Redshift-Datenbank erstellen, um Daten zu transformieren, die durch die Null-ETL-Integration repliziert wurden. Stellen Sie eine Verbindung zu Ihrer lokalen Datenbank her und verwenden Sie datenbankübergreifende Abfragen, um auf die Zieldatenbanken zuzugreifen. Sie können entweder voll qualifizierte Objektnamen mit dreiteiliger Notation (destination-database-name.schema-name.table-name) verwenden oder ein externes Schema erstellen, das auf das Zieldatenbank- und Schemapaar verweist und die zweiteilige Notation verwendet (external-schema-name.table-name).

Null-ETL und die fortlaufende Verarbeitung von Datenänderungen werden ohne zusätzliche Kosten angeboten. Sie zahlen für vorhandene Amazon-RDS- und Amazo- Redshift-Ressourcen, die zur Erstellung und Verarbeitung der im Rahmen einer Null-ETL-Integration generierten Änderungsdaten verwendet werden. Zu diesen Ressourcen könnten gehören:

  • Zusätzliche I/O und Speicher, die durch die Aktivierung von Enhanced Binlog verwendet werden
  • Snapshot-Exportkosten für den ersten Datenexport zum Seed Ihrer Amazon-Redshift-Datenbanken
  • Zusätzlicher Amazon-Redshift-Speicher zum Speichern replizierter Daten
  • AZ-übergreifende Datenübertragungskosten für die Übertragung von Daten von der Quelle zum Ziel

Weitere Informationen finden Sie auf der Seite mit der Preisübersicht für Aurora.

Sicherung und Wiederherstellung

Amazon-Redshift-RA3-Cluster und Amazon Redshift Serverless verwenden Redshift Managed Storage, das immer die aktuellste Kopie der Daten bereithält. DS2- und DC2-Cluster spiegeln die Daten auf dem Cluster, um sicherzustellen, dass im Falle eines Ausfalls die aktuellste Kopie verfügbar ist. Sicherungen werden bei allen Redshift-Clustertypen automatisch erstellt und 24 Stunden lang aufbewahrt. Bei serverlosen Clustern werden für die letzten 24 Stunden Wiederherstellungspunkte bereitgestellt.

Sie können auch eigene Sicherungen erstellen, die auf unbestimmte Zeit beibehalten werden können. Diese Backups können jederzeit erstellt werden, und die automatisierten Backups von Amazon Redshift oder die Amazon-Redshift-Serverless-Wiederherstellungspunkte können für eine längere Aufbewahrung in ein Benutz-Backup umgewandelt werden.

Amazon Redshift kann Ihre Snapshots oder Wiederherstellungspunkte zur Notfallwiederherstellung auch asynchron in Amazon S3 in einer anderen Region replizieren.

Auf einem DS2- oder DC2-Cluster, der kostenlose Backup-Speicher ist auf die Gesamtgröße des Speichers auf den Knoten im Data Warehouse-Cluster begrenzt und gilt nur für aktive Data Warehouse-Cluster.

Wenn Sie beispielsweise über einen Data Warehouse-Speicher von insgesamt 8 TB verfügen, bieten wir Ihnen ohne Aufpreis maximal 8 TB Speicher für Backups Nach Wunsch können Sie den Aufbewahrungszeitraum für Backups mithilfe der AWS-Managementkonsole oder Amazon Redshift-APIs verlängern. Weitere Informationen zu automatischen Snapshots finden Sie im Amazon Redshift-Management-Guide.

Amazon Redshift sichert nur Daten, die sich geändert haben, sodass die meisten Snapshots nur einen kleinen Bereich Ihres kostenlosen Backups-Speichers belegen. Wenn Sie ein Backup wiederherstellen müssen, haben Sie Zugriff auf alle automatisierten Backups innerhalb Ihres Aufbewahrungszeitraums für Backups. Nachdem Sie eine wiederherzustellende Sicherung ausgewählt haben, stellen wir einen neuen Data Warehouse-Cluster bereit, in dem Ihre Daten wiederhergestellt werden.

Mithilfe der AWS-Managementkonsole oder der ModifyCluster-API können Sie den Beibehaltungszeitraum für automatische Sicherungen verwalten, indem Sie den RetentionPeriod-Parameter ändern. Wenn Sie automatische Sicherungen vollständig deaktivieren möchten (was nicht empfohlen wird), legen Sie den Aufbewahrungszeitraum auf 0 fest.

Beim Löschen eines Data-Warehouse-Clusters können Sie angeben, ob ein letzter Snapshot erstellt werden soll. Dies ermöglicht eine Wiederherstellung des gelöschten Data-Warehouse-Clusters zu einem späteren Zeitpunkt. Alle zuvor manuell erstellten Snapshots Ihres Data Warehouse-Clusters werden beibehalten und Ihnen zu den Amazon-S3-Standardgebühren in Rechnung gestellt, es sei denn, Sie löschen sie.

Überwachung und Wartung

Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon-Redshift-Data-Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon-CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon-CloudWatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen. Die AWS-Managementkonsole stellt ein Überwachungsdashboard bereit, das Sie beim Überwachen des Zustands und der Leistung all Ihrer Cluster unterstützt. Amazon Redshift bietet über die AWS-Managementkonsole außerdem Informationen zur Abfrage- und Cluster-Leistung. Anhand dieser Informationen können Sie erkennen, welche Benutzer und Abfragen die meisten Systemressourcen belegen. Durch Anzeigen von Abfrageplänen und Ausführungsstatistiken können Sie Leistungsprobleme untersuchen. Darüber hinaus können Sie die Ressourcenauslastung auf allen Datenverarbeitungsknoten erkennen, um sicherzustellen, dass Daten und Abfragen gleichmäßig auf alle Knoten verteilt sind.

Zur Installation von Programmkorrekturen, Verbesserungen und neuen Funktionen in Ihrem Cluster führt Amazon Redshift regelmäßig Wartungen aus. Das geplante Wartungsfenster für Ihr Cluster können Sie programmatisch oder über die Redshift-Konsole ändern. Während der Wartungsfenster steht Ihr Amazon-Redshift-Cluster für den normalen Betrieb nicht zur Verfügung. Weitere Informationen zu Wartungsfenstern und -zeitplänen nach Region finden Sie unter dem Thema Maintenance Windows im Amazon-Redshift-Verwaltungshandbuch.