Allgemeines

F: Was ist Amazon Redshift?

Amazon Redshift ist ein schnelles, vollständig verwaltetes Data Warehouse, mit dem Sie im Zusammenspiel mit Ihren vorhandenen Business Intelligence-Tools und mithilfe von Standard-SQL alle Ihre Daten einfach und kostengünstig analysieren können. Es ermöglicht Ihnen die Ausführung komplexer Analyseabfragen für mehrere Petabyte strukturierter Daten mithilfe einer durchdachten Abfrageoptimierung, Spaltenspeicherung auf lokalen Hochleistungsdatenträgern und einer umfangreichen parallelen Abfrageausführung. Sie erhalten innerhalb weniger Sekunden mehr Ergebnisse. Mit Redshift können Sie für nur 0,25 USD pro Stunde ohne Verpflichtungen klein beginnen und für 1 000 USD pro Terabyte und Jahr eine Skalierung bis in den Petabytebereich vornehmen – für weniger als ein Zehntel der Kosten herkömmlicher Lösungen. Amazon Redshift umfasst außerdem Amazon Redshift Spectrum, sodass Sie SQL-Abfragen direkt für mehrere Exabyte unstrukturierter Daten in Amazon S3 ausführen können. Es sind keine Lade- oder Umwandlungsprozesse erforderlich und Sie können offene Datenformate einschließlich Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile und TSV verwenden. Redshift Spectrum skaliert automatisch die Abfragerechenkapazität basierend auf den abgerufenen Daten, sodass Abfragen für Amazon S3 (unabhängig von der Größe des Datensatzes) schnell ausgeführt werden.

Herkömmliche Data Warehouses erfordern einen hohen Zeit- und Ressourcenaufwand für die Verwaltung, insbesondere bei großen Datenmengen. Darüber hinaus sind die Kosten für das Einrichten, Verwalten und Anpassen selbstverwalteter, lokaler Data Warehouses sehr hoch. Wenn Ihre Datenmenge wächst, müssen Sie ständig entscheiden, welche Daten in Ihr Data Warehouse geladen werden und welche im Speicher archiviert werden sollen, damit Sie die Kosten verwalten, die ETL-Komplexität möglichst niedrig halten und eine gute Leistung bereitstellen können. Amazon Redshift senkt nicht nur die Kosten und den Betriebsaufwand eines Data Warehouse deutlich, sondern vereinfacht mit Redshift Spectrum außerdem das Analysieren großer Datenmengen im nativen Format, ohne dass Sie die Daten laden müssen.

Amazon Redshift bietet schnelle Abfragefunktionen für strukturierte Daten mithilfe vertrauter auf SQL basierender Clients und Business Intelligence (BI)-Tools unter Verwendung von ODBC- und JDBC-Standardverbindungen. Abfragen werden auf mehrere physische Ressourcen verteilt und parallel ausgeführt. Sie können die Größe eines Amazon Redshift Data Warehouse über ein paar Mausklicks in der AWS-Managementkonsole oder einen einzelnen API-Aufruf anpassen. Amazon Redshift führt automatisch Patches der Data Warehouse-Software durch und erstellt Sicherungen, die für einen vom Benutzer definierten Zeitraum aufbewahrt werden. Amazon Redshift arbeitet mit Replikation und fortlaufenden, inkrementellen Datensicherungen, um die Verfügbarkeit und Datenbeständigkeit zu verbessern, und kann nach Komponenten- oder Knotenausfällen automatisch eine Wiederherstellung durchführen. Außerdem unterstützt Amazon Redshift die Amazon Virtual Private Cloud (Amazon VPC), SSL- und AES-256-Verschlüsselung sowie Hardware-Sicherheitsmodule (HSMs), um Ihre Daten während der Übertragung und am Speicherort zu schützen.

Wie bei allen Amazon Web Services fallen keine Vorabkosten an und Sie zahlen nur für die Ressourcen, die Sie tatsächlich nutzen. Amazon Redshift bietet ein nutzungsabhängiges Zahlungsmodell. Darüber hinaus können Sie Amazon Redshift kostenlos ausprobieren.

Informationen zur regionalen Verfügbarkeit von Amazon Redshift finden Sie in der Tabelle der AWS-Regionen.

F: Was ist Redshift Spectrum?

Redshift Spectrum ist eine Funktion von Amazon Redshift, die es Ihnen ermöglicht, Abfragen für Exabyte an unstrukturierten Daten in Amazon S3 auszuführen, ohne dass Ladevorgänge oder ETL erforderlich sind. Wenn Sie eine Abfrage ausgeben, erreicht diese den Amazon Redshift-SQL-Endpunkt, der einen Abfrageplan generiert und optimiert. Amazon Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in Amazon S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon S3-Datenmenge, fordert Amazon Redshift Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten.

Redshift Spectrum kann bei Bedarf auf Tausende von Instances skaliert werden, damit Abfragen unabhängig von der Datengröße schnell ausgeführt werden. Außerdem können Sie exakt die gleiche SQL für Amazon S3-Daten wie für Ihre aktuellen Amazon Redshift-Abfragen verwenden und eine Verbindung zum gleichen Amazon Redshift-Endpunkt mithilfe der gleichen BI-Tools herstellen. Durch die Trennung von Speicher- und Rechenressourcen können Sie mit Redshift Spectrum beides unabhängig voneinander skalieren. Sie können so viele Amazon Redshift-Cluster wie nötig einrichten, um Ihren Amazon S3-Data Lake abzufragen, und so hohe Verfügbarkeit und unbegrenzte Gleichzeitigkeit bereitstellen. Mit Redshift Spectrum haben Sie die Möglichkeit, Ihre Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen.

Informationen zur regionalen Verfügbarkeit von Redshift Spectrum finden Sie auf der Seite mit den Preisen zu Amazon Redshift.

F: Was verwaltet Amazon Redshift für mich?

Amazon Redshift verwaltet sämtliche Aufgaben, die zum Einrichten, Betreiben und Skalieren eines Data Warehouse erforderlich sind – von der Bereitstellung von Infrastrukturkapazität bis zu laufenden administrativen Aufgaben wie Sicherungen und Einspielung von Patches. Amazon Redshift überwacht Ihre Knoten automatisch und sorgt nach Ausfällen für eine Wiederherstellung. Amazon Redshift verwaltet für Redshift Spectrum die gesamte Datenverarbeitungsinfrastruktur, das Load Balancing, die Planung, Terminierung und Ausführung Ihrer Abfragen für in Amazon S3 gespeicherte Daten.

F: Wie unterscheidet sich die Leistung von Amazon Redshift von der herkömmlicher Datenbanken für Data Warehouses und Analysen?

Amazon Redshift nutzt verschiedene Innovationen zum Erreichen einer um das Zehnfache höheren Leistung als herkömmliche Datenbanken für Data Warehouses und Analysen:

  • Spaltenbasierte Datenspeicherung: Anstatt Daten als eine Folge von Zeilen zu speichern, organisiert Amazon Redshift die Daten spaltenweise. Im Gegensatz zu zeilenbasierten Systemen, die für die Transaktionsverarbeitung ideal sind, eignen sich spaltenbasierte Systeme besonders für Data Warehouses und Analysen, bei denen Abfragen häufig Aggregationen umfassen, die für große Datenmengen erfolgen. Da nur die an den Abfragen beteiligten Spalten verarbeitet werden und Spaltendaten sequenziell auf dem Speichermedium gespeichert werden, benötigen spaltenbasierte Systeme weitaus weniger E/A-Vorgänge, wodurch die Abfrageleistung stark verbessert wird.
  • Erweiterte Komprimierung: Spaltenbasierte Datenspeicher können wesentlich stärker als zeilenbasierte Datenspeicher komprimiert werden, da ähnliche Daten sequenziell auf dem Datenträger gespeichert werden. Amazon Redshift arbeitet mit mehreren Komprimierungstechniken und kann im Vergleich zu herkömmlichen Datenspeichern eine wesentlich stärkere Komprimierung erreichen. Außerdem erfordert Amazon Redshift keine Indizes oder materialisierten Sichten, weshalb weniger Speicherplatz als bei herkömmlichen relationalen Datenbanksystemen belegt wird. Wenn Daten in eine leere Tabelle geladen werden, untersucht Amazon Redshift Ihre Daten automatisch und wählt das geeignetste Komprimierungsschema.
  • Massive Parallelverarbeitung (MPP): Amazon Redshift verteilt die Daten- und Abfragelast automatisch auf alle Knoten. Amazon Redshift erleichtert das Hinzufügen von Knoten zu Ihrem Data Warehouse und ermöglicht Ihnen, bei Anwachsen Ihres Data Warehouse eine schnelle Abfrageleistung beizubehalten.
  • Redshift Spectrum: Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zu Exabyte-Größe in Amazon S3 abzufragen. Wenn Sie eine Abfrage ausgeben, erreicht diese den Amazon Redshift-SQL-Endpunkt, der einen Abfrageplan generiert. Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in Amazon S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon S3-Datenmenge, fordert Amazon Redshift Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und leitet die Ergebnisse für alle restlichen Verarbeitungsschritte zurück in Ihren Amazon Redshift-Cluster.

F: Wie erstelle ich einen Amazon Redshift Data Warehouse-Cluster und greife darauf zu?

Sie können einen Amazon Redshift Data Warehouse-Cluster über die AWS-Managementkonsole oder die Amazon Redshift-APIs erstellen. Sie können mit einem einzelnen 160 GB großen Data Warehouse und einem Knoten beginnen und über ein paar Mausklicks in der AWS-Konsole oder einen einzelnen API-Aufruf eine Skalierung auf bis zu einem Petabyte und mehr vornehmen.

Die Konfiguration mit einem Knoten ermöglicht Ihnen, rasch und kostengünstig den Betrieb mit Amazon Redshift aufzunehmen und bei wachsendem Bedarf auf eine Konfiguration mit mehreren Knoten zu skalieren. Je nach Knotentyp kann ein Redshift Data Warehouse-Cluster 1-128 Rechenknoten enthalten. Details finden Sie in unserer Dokumentation.

Die Konfiguration mit mehreren Knoten erfordert einen Hauptknoten, der die Client-Verbindungen verwaltet und Abfragen empfängt, sowie zwei Rechenknoten, auf denen Daten gespeichert werden und Abfragen und Berechnungen erfolgen. Der Hauptknoten wird automatisch für Sie eingerichtet, ohne dass Gebühren anfallen.

Sie müssen lediglich (optional) Ihre bevorzugte Availability Zone, die Anzahl und die Typen der Knoten, den Namen und das Kennwort für den Hauptknoten, Sicherheitsgruppen, Ihre Einstellungen für die Aufbewahrung von Sicherungen und andere Systemeinstellungen angeben. Nach Wahl der gewünschten Konfiguration stellt Amazon Redshift die benötigten Ressourcen bereit und richtet Ihren Data Warehouse-Cluster ein.

Sobald Ihr Data Warehouse-Cluster verfügbar ist, können Sie seinen Endpunkt und die JDBC- und ODBC-Verbindungszeichenfolge über die AWS-Managementkonsole oder Redshift-APIs. abrufen. Sie können anschließend diese Verbindungszeichenfolge mit dem gewünschten Datenbank- oder Business Intelligence-Tool (BI) bzw. der gewünschten Programmiersprache verwenden. Sie müssen an Ihren ausgeführten Data Warehouse-Cluster gestellte Netzwerkanforderungen autorisieren. Eine detaillierte Erläuterung finden Sie in unserem Handbuch ''Erste Schritte''.

F: Welche Aufgabe hat der Hauptknoten? Welche Aufgabe hat ein Rechenknoten?

Ein Hauptknoten empfängt Abfragen von Client-Anwendungen, analysiert diese und entwickelt Ausführungspläne, bei denen es sich um eine geordnete Reihe von Schritten zur Verarbeitung dieser Abfragen handelt. Der Hauptknoten koordiniert anschließend die parallele Ausführung dieser Pläne mit den Rechenknoten, aggregiert die Zwischenergebnisse dieser Knoten und gibt schließlich das Ergebnis an die Client-Anwendungen zurück.

Rechenknoten führen die in den Ausführungsplänen angegebenen Schritte aus und übertragen Daten untereinander, um diese Abfragen zu erfüllen. Die Zwischenergebnisse werden zur Aggregation an den Hauptknoten zurückgesendet, ehe sie an die Client-Anwendungen zurückgesendet werden.

F: Welche maximale Speicherkapazität hat ein Rechenknoten? Was ist die für eine optimale Leistung pro Rechenknoten empfohlene Datenmenge?

Sie können ein Cluster erstellen, indem Sie entweder Dense Storage (DS)-Knotentypen oder Dense Compute (DC)-Knotentypen verwenden. Dense Storage-Knotentypen ermöglichen die Einrichtung sehr großer Data Warehouses mithilfe von Festplattenlaufwerken zu einem sehr niedrigen Einstiegspreis. Dense Computer-Knotentypen ermöglichen das Einrichten sehr leistungsstarker Data Warehouses unter Verwendung von schnellen CPUs, großen Arbeitsspeichermengen und SSD-Festplatten (Solid-State Disks).

Dense Storage (DS)-Knotentypen werden in zwei Größen angeboten, Extra Large und Eight Extra Large. Extra Large (XL) hat 3 HDDs mit insgesamt 2 TB Magnetspeicher, während Eight Extra Large (8XL) 24 HDDs mit insgesamt 16 TB Magnetspeicher hat. DS2.8XLarge hat 36 Intel Xeon E5-2676 v3 (Haswell) virtuelle Kerne und 244 GiB RAM und DS2.XL hat 4 Intel Xeon E5-2676 v3 (Haswell) virtuelle Kerne und 31 GiB RAM. Auf unserer Seite mit den Preisen finden Sie weitere Details. Sie können mit einem einzelnen Data Warehouse mit Extra Large-Knoten mit 2 TB für 0,85 USD pro Stunde beginnen und eine Skalierung auf bis zu einem Petabyte und mehr vornehmen. Sie können sich für eine stundenweise Zahlung oder das Reserved Instance-Preismodell entscheiden, um Ihre Kosten auf unter 1000linear USD pro TB pro Jahr zu senken.

Dense Compute (DC)-Knotentypen werden ebenfalls in zwei Größen angeboten. "Large" bietet 160 GB SSD-Speicher, 2 virtuelle Prozessorkerne vom Typ Intel Xeon E5-2670v2 und 15 GB Arbeitsspeicher (RAM). "Eight Extra Large" bietet eine um das 16-fache höhere Kapazität mit 2,56 TB SSD-Speicher, 32 virtuellen Prozessorkernen vom Typ Intel Xeon E5-2670v2 und 244 GB Arbeitsspeicher (RAM). Sie können mit einem einzelnen DC2.Large-Knoten für 0,25 USD pro Stunde einsteigen und maximal eine Skalierung auf 128 8XL-Knoten mit 326 TB SSD-Speicher, 3 200 virtuellen Prozesskernen und 24 TB Arbeitsspeicher (RAM) vornehmen.

Die MPR-Architektur von Amazon Redshift ermöglicht, dass Sie die Leistung steigern können, indem Sie die Anzahl der Knoten im Data Warehouse-Cluster erhöhen. Die optimale Datenmenge pro Rechenknoten hängt von den Merkmalen Ihrer Anwendung und Anforderungen an die Abfrageleistung ab. Je nach Knotentyp kann ein Amazon Redshift Data Warehouse-Cluster 1-128 Rechenknoten enthalten. Details finden Sie in unserer Dokumentation.

F: Wann sollte ich Amazon Redshift oder Redshift Spectrum und wann Amazon EMR verwenden?

Sie sollten Amazon EMR verwenden, wenn Sie benutzerdefinierten Code zum Verarbeiten und Analysieren extrem großer Datensätze mit den Frameworks für Big Data-Bearbeitungen wie beispielsweise Apache Spark, Hadoop, Presto oder HBase einsetzen. Mit Amazon EMR erhalten Sie die volle Kontrolle über die Konfiguration Ihrer Cluster und die darauf installierte Software.

Data Warehouses wie Amazon Redshift wurden für völlig andere Analysetypen entworfen. Data Warehouses sollen Daten aus vielen verschiedenen Quellen zusammenziehen, beispielsweise aus Inventar-, Finanz- und Einzelhandelssystemen. Um sicherzustellen, dass die Berichterstellung im gesamten Unternehmen konsistent erfolgt, speichern Data Warehouses Daten auf hochgradig strukturierte Weise. Diese Struktur erstellt Datenkonsistenzregeln direkt in den Tabellen der Datenbank. Amazon Redshift ist der beste Service, wenn Sie komplexe Abfragen für riesige Sammlungen an strukturierten Daten mit äußerst hoher Geschwindigkeit ausführen müssen.

Während Redshift Spectrum hervorragend für das Ausführen von Abfragen für Daten in Amazon Redshift und S3 geeignet ist, passt es nicht für die Arten von Anwendungsfällen, die Unternehmen normalerweise von Verarbeitungsframeworks wie Amazon EMR benötigen. Amazon EMR bietet viel mehr als nur SQL-Abfragen. Amazon EMR ist ein verwalteter Service, mit dem Sie äußerst große Datensätze mit den neuesten Versionen der beliebten Big Data-Verarbeitungsframeworks wie Spark, Hadoop und Presto auf vollständig anpassbaren Clustern verarbeiten und analysieren können. Mit Amazon EMR können Sie eine Vielzahl von Datenverarbeitungsaufgaben mit horizontaler Skalierung für Anwendungen ausführen wie beispielsweise maschinelles Lernen, Grafikanalysen, Datentransformationen, Daten-Streaming und praktisch alles, was sie codieren können.

Sie können Redshift Spectrum zusammen mit EMR verwenden. Redshift Spectrum verwendet den gleichen Ansatz zum Speichern von Tabellendefinitionen wie Amazon EMR. Redshift Spectrum kann den gleichen Apache Hive-Metaspeicher unterstützen, der auch von Amazon EMR zum Suchen von Daten- und Tabellendefinitionen verwendet wird. Wenn Sie Amazon EMR verwenden und bereits ein Hive-Metaspeicher zur Verfügung steht, müssen Sie für die Verwendung dieses Speichers nur noch Ihren Amazon Redshift-Cluster konfigurieren. Dann können Sie sofort mit dem Abfragen dieser Daten und mit dem Ausführen Ihrer Amazon EMR-Aufträge beginnen. Wenn Sie also Amazon EMR bereits zum Verarbeiten eines großen Datenspeichers verwenden, können Sie Redshift Spectrum zum Abfragen der Daten zum exakt gleichen Zeitpunkt verwenden, ohne dadurch die Amazon EMR-Aufträge zu beeinflussen.

Abfrage-Services, Data Warehouses und komplexe Datenverarbeitungsframeworks haben alle ihren Platz und werden für unterschiedliche Zwecke verwendet. Sie müssen lediglich das richtige Tool für den Job auswählen.

 

F: Wann sollte ich Amazon Athena und wann Redshift Spectrum verwenden?

Amazon Athena ist die einfachste Methode, um Mitarbeitern die Möglichkeit zu geben, Ad-hoc-Abfragen für Daten in Amazon S3 auszuführen. Athena ist serverlos, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss und Sie sofort mit dem Analysieren Ihrer Daten beginnen können.

Wenn Sie häufig auf Daten zugegriffen haben, die in einem konsistenten, hochgradig strukturierten Format gespeichert werden müssen, sollten Sie ein Data Warehouse wie Amazon Redshift verwenden. So erhalten Sie die Flexibilität, Ihre strukturierten, häufig benötigten Daten in Amazon Redshift zu speichern und Redshift Spectrum zu verwenden, um Ihre Amazon Redshift-Abfragen auf das gesamte Datenuniversum in Ihrem Amazon S3-Data Lake auszuweiten. Damit haben Sie die Möglichkeit, Ihre Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen.

F: Was spricht für Amazon Redshift und gegen die Ausführung eines eigenen MPR Data Warehouse-Clusters in Amazon EC2?

Amazon Redshift übernimmt automatisch viele der zeitaufwendigen Aufgaben bei der Verwaltung eines eigenen Data Warehouse, wie z. B.:

  • Einrichtung: Bei Amazon Redshift können Sie einfach einen Data Warehouse-Cluster erstellen, Ihr Schema definieren und mit dem Laden und Abfragen Ihrer Daten beginnen. Sie müssen sich nicht um die Bereitstellung, Konfiguration und Einspielung von Patches kümmern.
  • Datenbeständigkeit: Amazon Redshift repliziert Ihre Daten in Ihrem Data Warehouse-Cluster und sichert diese fortlaufend in Amazon S3, das auf eine Beständigkeit von 99,999999999 % ausgelegt ist. Amazon Redshift spiegelt die Daten jedes Laufwerks auf andere Knoten im Cluster. Bei Ausfall eines Laufwerks werden Ihre Abfragen mit einer kurzen Latenzerhöhung weiter verarbeitet, während Redshift Ihr Laufwerk anhand von Replikaten neu erstellt. Bei einem Ausfall von Knoten stellt Amazon Redshift automatisch neue Knoten bereit und beginnt mit der Wiederherstellung von Daten von anderen Laufwerken im Cluster oder aus Amazon S3. Priorität liegt auf der Wiederherstellung der am häufigsten abgefragten Daten, damit Ihre am meisten ausgeführten Abfragen schnell wieder zu nutzen sind.
  • Skalierung: Bei sich ändernden Kapazität- oder Leistungsanforderungen können Sie über einen einzelnen API-Aufruf und einige wenige Klicks in der AWS-Managementkonsole Ihrem Amazon Redshift Data Warehouse Knoten hinzufügen oder daraus entfernen.
  • Automatische Updates und Patches: Amazon Redshift spielt Updates und Patches automatisch in Ihr Data Warehouse ein, sodass Sie sich auf Ihre Anwendung und nicht auf deren Verwaltung konzentrieren können.
  • Abfragefunktion in Exabyte-Größe: Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zu Exabyte-Größe in Amazon S3 abzufragen.

Fakturierung

F: Wie wird mir die Nutzung von Amazon Redshift in Rechnung gestellt?

Sie zahlen nur für das, was Sie tatsächlich nutzen. Es gibt keine Mindest- oder Einrichtungsgebühren. Die Fakturierung eines Data Warehouse-Clusters beginnt zu dem Zeitpunkt, ab dem der Data Warehouse-Cluster verfügbar ist. Die Fakturierung wird so lange fortgesetzt, bis der Data Warehouse-Cluster durch Löschen oder aufgrund eines Instance-Ausfalls beendet wird. Ihre Nutzung wird folgendermaßen abgerechnet:

Falls nicht anders angegeben, gelten unsere Preise zuzüglich anfallender Steuern und Abgaben, u. a. MwSt. und Umsatzsteuer. Bei Kunden mit japanischer Rechnungsadresse unterliegt die Nutzung von AWS-Services der japanischen Verbrauchssteuer. Weitere Informationen.

Preisinformationen zu Amazon Redshift finden Sie auf der Seite mit den Preisen von Amazon Redshift.

Datenintegration und -ladevorgänge

F: Wie lade ich Daten aus meinen vorhandenen Amazon RDS-, Amazon EMR-, Amazon DynamoDB- und Amazon EC2-Datenquellen in Amazon Redshift?

Sie können unseren COPY-Befehl verwenden, um Daten parallel aus Amazon EMR, Amazon DynamoDB oder jedem anderen SSH-fähigen Host direkt in Amazon Redshift zu laden. Redshift Spectrum ermöglicht Ihnen außerdem das Laden von Daten aus Amazon S3 in Ihren Cluster mit einem einfachen INSERT INTO-Befehl. Auf diese Weise können Sie u. U. Daten in verschiedenen Formaten wie Parquet und RC in Ihren Cluster laden. Beachten Sie, dass beim Verwenden dieses Ansatzes Redshift Spectrum-Gebühren für die aus Amazon S3 gescannten Daten anfallen.

Darüber hinaus haben viele Anbieter von ETL-Lösungen Amazon Redshift für die Nutzung mit ihren Tools zertifiziert, und eine Reihe von ihnen bietet kostenlose Testversionen an, um Ihnen die ersten Schritte beim Laden Ihrer Daten zu erleichtern. AWS Data Pipeline ist eine leistungsfähige, zuverlässige und fehlertolerante Lösung zum Laden von Daten aus einer Vielzahl von AWS-Datenquellen. Sie können mithilfe von AWS Data Pipeline die Datenquelle und gewünschten Datenumwandlungen angeben und anschließend über ein vorbereitetes Importskript Ihren Daten in Amazon Redshift importieren. Ebenso ist AWS Glue ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der das Vorbereiten und Laden von Daten zu Analysezwecken erleichtert. Sie können AWS Glue ETL-Aufträge mit wenigen Mausklicks in der AWS-Managementkonsole erstellen und ausführen.

Sicherheit

F: Wie schützt Amazon Redshift meine Daten?

Amazon Redshift verschlüsselt Ihre Daten mithilfe Branchenstandards entsprechenden Verschlüsselungsmethoden, sodass diese während der Übertragung und am Speicherort sicher sind. Zum Schutz von Daten währen der Übertragung unterstützt Amazon Redshift SSL-Verbindungen zwischen Ihrer Client-Anwendung und Ihrem Redshift Data Warehouse-Cluster. Damit Ihre gespeicherten Daten sicher sind, verschlüsselt Amazon Redshift jeden Block mithilfe des hardwarebeschleunigten AES-256-Verfahrens, während diese auf den Datenträger geschrieben werden. Dieser Vorgang erfolgt auf einer unteren Ebene im E/A-Subsystem, wobei alle auf den Datenträger geschriebenen Daten verschlüsselt werden, so auch Zwischenergebnisse von Abfragen. Die Blöcke werden wie vorhanden gesichert, was bedeutet, dass Sicherungen auch verschlüsselt sind. Amazon Redshift übernimmt standardmäßig die Schlüsselverwaltung, aber Sie können Ihre Schlüssel auch mit Ihren eigenen Hardware Security Modules (HSMs) oder über AWS Key Management Service verwalten.

Redshift Spectrum unterstützt die serverseitige Verschlüsselung (Server Side Encryption, SSE) von Amazon S3 mithilfe des Standardschlüssels Ihres Kontos, der vom AWS Key Management Service (KMS) verwaltet wird.

F: Kann ich Amazon Redshift in Amazon Virtual Private Cloud (Amazon VPC) verwenden?

Ja, Amazon Redshift kann als Teil Ihrer VPC-Konfiguration verwendet werden. Mit Amazon VPC können Sie eine virtuelle Netzwerkarchitektur definieren, die weitgehend einem herkömmlichen Netzwerk entspricht, wie Sie es in Ihrem Rechenzentrum betreiben. Dadurch haben Sie die vollständige Kontrolle über den Zugriff auf Ihren Amazon Redshift Data Warehouse-Cluster.

Sie können Redshift Spectrum mit einem Amazon Redshift-Cluster verwenden, der Teil Ihrer VPC ist. Beachten Sie, dass Redshift Spectrum erweitertes VPC-Routing derzeit nicht unterstützt.

F: Kann ich auf meine Amazon Redshift-Rechenknoten direkt zugreifen?

Ihre Amazon Redshift-Rechenknoten befinden sich in einem privaten Netzwerkbereich, auf den nur über den Hauptknoten Ihres Data Warehouse-Clusters zugegriffen werden kann. Dies sorgt für eine zusätzliche Sicherheitsebene für Ihre Daten.

Verfügbarkeit und Beständigkeit

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein Laufwerk in einem meiner Knoten ausfällt?

Bei einem Laufwerkausfall bleibt Ihr Amazon Redshift Data Warehouse-Cluster verfügbar. Es kann jedoch bei bestimmten Abfragen zu geringfügigen Leistungseinbußen kommen. Wenn ein Laufwerk ausfällt, nutzt Amazon Redshift unbemerkt ein Replikat der Daten auf diesen Laufwerk, das auf anderen Laufwerken innerhalb dieses Knotens gespeichert ist. Darüber hinaus versucht Amazon Redshift, Ihre Daten auf ein funktionierendes Laufwerk zu verschieben oder Ihren Knoten auszutauschen, falls dies nicht möglich ist. Cluster mit einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein einzelner Knoten ausfällt?

Amazon Redshift erkennt automatisch, wenn ein Knoten in Ihrem Data Warehouse-Cluster ausfällt, und tauscht diesen aus. Der Data Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt den Ersatzknoten sofort zur Verfügung und lädt zunächst Ihre Daten aus S3, auf die am meisten zugegriffen wird, damit Sie schnellstmöglich das Abfragen Ihrer Daten fortsetzen können. Cluster mit einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn die Availability Zone (AZ) meines Data Warehouse-Clusters ausfällt?

Wenn die Availability Zone (AZ) Ihres Amazon Redshift Data Warehouse-Clusters ausfällt, können Sie den Cluster erst wieder nutzen, nachdem die Stromversorgung und der Netzwerkzugriff auf die AZ wiederhergestellt wurden. Die Daten in Ihrem Data Warehouse-Cluster bleiben erhalten, sodass Sie Ihr Amazon Redshift Data Warehouse nutzen können, sobald die AZ wieder verfügbar ist. Darüber hinaus können Sie auch vorhandene Snapshots in einer neuen AZ in derselben Region wiederherstellen. Amazon Redshift stellt zuerst die Daten her, auf die am meisten zugegriffen wird, damit Sie Abfragen schnellstmöglich fortsetzen können.

F: Unterstützt Amazon Redshift Multi-AZ-Bereitstellungen?

Derzeit unterstützt Amazon Redshift nur Single-AZ-Bereitstellungen. Sie können Data Warehouse-Cluster in mehreren AZs ausführen, indem Sie anhand derselben Menge von Amazon S3-Eingabedateien Daten in zwei Amazon Redshift Data Warehouse-Cluster in getrennten AZs laden. Mit Redshift Spectrum können Sie mehrere Cluster in verschiedenen AZs einrichten und auf Daten in Amazon S3 zugreifen, ohne sie in Ihren Cluster laden zu müssen. Darüber hinaus können Sie auch einen Data Warehouse-Cluster in einer anderen AZ aus den Snapshots Ihres Data Warehouse-Clusters wiederherstellen.

Sicherung und Wiederherstellung

F: Wie sichert Amazon Redshift meine Daten? Wie stelle ich meinen Cluster aus einer Sicherung wieder her?

Amazon Redshift repliziert alle Ihre Daten innerhalb Ihres Data Warehouse-Clusters, wenn diese geladen werden, und sichert außerdem Ihre Daten fortlaufend in S3. Amazon Redshift versucht stets, mindestens drei Kopien Ihrer Daten beizubehalten (das Original und ein Replikat auf den Rechenknoten und eine Sicherung in Amazon S3). Redshift kann zum Zweck der Notfallwiederherstellung Ihre Snapshots auch asynchron in S3 in einer anderen Region replizieren.

Die automatische Sicherung Ihres Data Warehouse-Clusters ist in Amazon Redshift standardmäßig aktiviert. Es gilt ein Aufbewahrungszeitraum von einem Tag. Die maximale Aufbewahrungsdauer ist 35 Tage.

Der kostenlose Speicher für Sicherungen ist auf die Gesamtgröße des Speichers auf den Knoten im Data Warehouse-Cluster begrenzt und gilt nur für aktive Data Warehouse-Cluster. Wenn Sie beispielsweise über einen Data Warehouse-Speicher von insgesamt 8 TB verfügen, bieten wir Ihnen ohne Aufpreis maximal 8 TB Speicher für Sicherungen. Nach Wunsch können Sie den Aufbewahrungszeitraum für Backups mithilfe der AWS-Managementkonsole oder Amazon Redshift-APIs verlängern. Weitere Informationen zu automatischen Snapshots finden Sie im Amazon Redshift-Management-Guide. Amazon Redshift sichert nur Daten, die sich geändert haben, sodass die meisten Snapshots nur einen kleinen Bereich Ihres kostenlosen Speichers für Sicherungen belegen.

Wenn Sie eine Sicherung wiederherstellen müssen, haben Sie Zugriff auf alle automatisierten Sicherungen innerhalb Ihres Aufbewahrungszeitraums für Sicherungen. Nachdem Sie eine wiederherzustellende Sicherung ausgewählt haben, stellen wir einen neuen Data Warehouse-Cluster bereit, in dem Ihre Daten wiederhergestellt werden.

F: Was passiert mit meinen Sicherungen, wenn ich meinen Data Warehouse-Cluster lösche?

Beim Löschen eines Data Warehouse-Clusters können Sie angeben, ob ein letzter Snapshot erstellt werden soll, mit dem der gelöschte Data Warehouse-Cluster zu einem späteren Zeitpunkt wiederhergestellt werden kann. Alle zuvor manuell erstellten Snapshots Ihres Data Warehouse-Clusters werden aufbewahrt und Ihnen zu den Amazon S3-Standardtarifen in Rechnung gestellt, es sei denn, Sie löschen sie.

Skalierbarkeit

F: Wie passe ich Größe und Leistung meines Amazon Redshift Data Warehouse-Clusters an?

Wenn Sie die Abfrageleistung steigern oder auf eine CPU-, Arbeitsspeicher- oder E/A-Überlastung reagieren möchten, können Sie über die AWS-Managementkonsole oder ModifyCluster-API die Anzahl der Knoten in Ihrem Data Warehouse-Cluster erhöhen. Alle gewünschten Änderungen am Data Warehouse-Cluster erfolgen unmittelbar. Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon Redshift Data Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon CloudWatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen.

Mit Redshift Spectrum können Sie mehrere Amazon Redshift-Cluster ausführen, die auf die gleichen Daten in Amazon S3 zugreifen. Sie können unterschiedliche Cluster für unterschiedliche Anwendungsfälle verwenden. Sie können beispielsweise einen Cluster für die Standard-Berichterstellung und einen anderen für wissenschaftliche Datenabfragen verwenden. Ihr Marketingteam kann einen eigenen Cluster verwenden, der sich von dem Ihres Betriebsteams unterscheidet. Je nach Typ und Knotenanzahl in Ihrem lokalen Cluster und der Anzahl der Dateien, die zum Verarbeiten Ihrer Abfrage erforderlich ist, verteilt Redshift Spectrum die Ausführung der Abfrage automatisch an mehrere Redshift Spectrum-Workers in einem gemeinsam genutzten Ressourcenpool, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und sendet Ergebnisse zurück in den Amazon Redshift-Cluster, wo sie weiterverarbeitet werden.

F: Ist mein Data Warehouse-Cluster während der Skalierung weiterhin verfügbar?

Der bestehende Data Warehouse-Cluster bleibt für Lesevorgänge verfügbar, während ein neuer Data Warehouse-Cluster während der Skalierungsvorgänge erstellt wird. Sobald der neue Data Warehouse-Cluster bereit ist, steht der bestehende Data Warehouse-Cluster vorübergehend nicht zur Verfügung, während der CNAME-Eintrag (Canonical Name) des bestehenden Data Warehouse-Clusters auf den neuen Data Warehouse-Cluster umgeschaltet wird. Die Nichtverfügbarkeit währt in der Regel nur wenige Minuten und erfolgt innerhalb des Wartungsfensters für Ihren Data Warehouse-Cluster, es sei denn, Sie legen fest, dass die Änderung sofort durchgeführt werden soll. Amazon Redshift verschiebt Daten parallel von den Rechenknoten in Ihrem vorhandenen Data Warehouse-Cluster auf die Rechenknoten im neuen Cluster. Dadurch kann der Vorgang so schnell wie möglich abgeschlossen werden.

Abfrage und Analyse

F: Welche Daten- und Kompressionsformate unterstützt Redshift Spectrum?

Redshift Spectrum unterstützt derzeit viele Open Source-Datenformate, einschließlich Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile und TSV.

Redshift Spectrum unterstützt derzeit Gzip- und Snappy-Komprimierung.

F: Was geschieht, wenn eine Tabelle in meinem lokalen Speicher den gleichen Namen wie eine externe Tabelle hat?

Wie bei den lokalen Tabellen können Sie den Schemanamen verwenden, um exakt auszuwählen, welche Tabelle Sie meinen. Dazu verwenden Sie in Ihrer Abfrage "schema_name.table_name".

F: Ich verwende einen Hive-Metaspeicher zum Speichern von Metadaten über meinen S3-Data Lake. Kann ich Redshift Spectrum verwenden?

Ja. Der CREATE EXTERNAL SCHEMA-Befehl unterstützt Hive-Metaspeicher. Derzeit wird DDL nicht für Hive-Metaspeicher unterstützt.

F: Wie erhalte ich eine Liste mit allen externen Datenbanktabellen, die in meinem Cluster erstellt wurden?

Sie können Sie Systemtabelle SVV_EXTERNAL_TABLES abfragen, um diese Informationen zu erhalten.

Überwachung

F: Ich bemerke, dass einige Abfragen, die auf Daten in meinem Cluster zugreifen, langsamer als meine Redshift Spectrum-Abfragen ausgeführt werden. Warum ist das so?

Amazon Redshift-Abfragen werden auf Ihren Clusterressourcen auf dem lokalen Datenträger ausgeführt. Redshift Spectrum-Abfragen werden mithilfe von Ressourcen, die für jede Abfrage skaliert werden, für Daten in S3 ausgeführt. Bei den meisten Abfragen ist der lokale Datenträger schneller, aber bei Abfragen, die viele Daten scannen und nur eine minimale Datenverarbeitung erfordern, können viele Redshift Spectrum-Workers angewendet und die Abfragen schnell abgeschlossen werden.

Weitere Informationen zu den Preisen von Amazon Glacier

Zur Seite mit den Preisen
Bereit zum Entwickeln?
Erste Schritte mit Amazon Redshift
Haben Sie Fragen?
Kontakt