Allgemeines

Aktuelle Informationen zu Amazon Redshift finden Sie auf der Seite mit den Neuigkeiten.
Ausführlichere Informationen und Orientierungshilfe zur Nutzung finden Sie in der Dokumentation.

F: Was ist Amazon Redshift?

Amazon Redshift ist ein schnelles, vollständig verwaltetes cloudbasiertes Data Warehouse, mit dem Sie im Zusammenspiel mit Ihren vorhandenen Business Intelligence-Tools und mithilfe von Standard-SQL alle Daten einfach und kostengünstig analysieren können. Es ermöglicht Ihnen die Ausführung komplexer Analyseabfragen für mehrere Tera- oder Petabyte strukturierter Daten mithilfe einer durchdachten Abfrageoptimierung, Spaltenspeicherung im Hochleistungsspeicher und einer umfangreichen parallelen Abfrageausführung. Sie erhalten innerhalb weniger Sekunden mehr Ergebnisse. Mit Redshift können Sie für nur 0,25 USD pro Stunde ohne Verpflichtungen klein beginnen und für 1 000 USD pro Terabyte und Jahr eine Skalierung bis in den Petabytebereich vornehmen – für weniger als ein Zehntel der Kosten herkömmlicher lokaler Lösungen. Amazon Redshift umfasst außerdem Amazon Redshift Spectrum, sodass Sie SQL-Abfragen direkt für mehrere Exabyte unstrukturierter Daten in Amazon S3-Data Lakes ausführen können. Es sind keine Lade- oder Umwandlungsprozesse erforderlich und Sie können offene Datenformate verwenden, darunter Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text und TSV. Redshift Spectrum skaliert automatisch die Abfrage-Rechenkapazität basierend auf den abgerufenen Daten, sodass Abfragen für Amazon S3 (unabhängig von der Datenmenge) schnell ausgeführt werden.

Amazon Redshift bietet schnelle Abfragefunktionen für strukturierte Daten mithilfe vertrauter auf SQL basierender Clients und BI-Tools (Business Intelligence), wobei ODBC- und JDBC-Standardverbindungen zum Einsatz kommen. Abfragen werden auf mehrere physische Ressourcen verteilt und parallel ausgeführt. Sie können die Größe eines Amazon Redshift-Data Warehouse über ein paar Mausklicks in der AWS-Managementkonsole oder einen einzigen API-Aufruf mühelos anpassen. Amazon Redshift führt automatisch Patches der Data Warehouse-Software durch und erstellt Sicherungen, die für einen vom Benutzer definierten Zeitraum aufbewahrt werden. Amazon Redshift arbeitet mit Replikation und fortlaufenden, inkrementellen Datensicherungen, um die Verfügbarkeit und Datenbeständigkeit zu verbessern, und kann nach Komponenten- oder Knotenausfällen automatisch eine Wiederherstellung durchführen. Darüber hinaus gewährleistet Amazon Redshift branchenführende Sicherheit: Durch die Integration in AWS IAM, den Identitätsverbund, die Zugriffskontrolle auf Spaltenebene, die Amazon Virtual Private Cloud (Amazon VPC), SSL- und AES-256-Verschlüsselung sowie die eingebaute AWS KMS-Integration werden die Daten während der Übertragung und am Speicherort geschützt. Alle Sicherheitsfunktionen von Amazon Redshift sind ohne Zusatzkosten enthalten.

Amazon Redshift ist mit AWS CloudTrail integriert, um sämtliche Aufrufe von Redshift-APIs überwachen zu können. Redshift protokolliert alle SQL-Vorgänge, so zum Beispiel Verbindungsversuche, Abfragen und Änderungen am Data Warehouse. Sie können auf diese Protokolle über SQL-Abfragen an Systemtabellen zugreifen oder die Protokolle in einen sicheren Speicherort in Amazon S3 herunterladen. Amazon Redshift erfüllt die Vorgaben von SOC1, SOC2, SOC3 und PCI DSS Level 1.

Wie bei allen Amazon Web Services fallen keine Vorabkosten an und Sie zahlen nur für die Ressourcen, die Sie tatsächlich nutzen. Amazon Redshift bietet ein nutzungsabhängiges Zahlungsmodell. Darüber hinaus können Sie Amazon Redshift kostenlos ausprobieren.

Informationen zur regionalen Verfügbarkeit von Amazon Redshift finden Sie in der Tabelle der AWS-Regionen.

F: Warum sollte ich Amazon Redshift anstelle eines lokalen Data Warehouse verwenden?

Lokale Data Warehouses erfordern einen hohen Zeit- und Ressourcenaufwand für die Verwaltung, insbesondere bei großen Datenmengen. Darüber hinaus sind die Kosten für das Einrichten, Warten und Anpassen selbstverwalteter, lokaler Data Warehouses sehr hoch. Bei zunehmenden Datenmengen müssen Sie ständig entscheiden, welche Daten in das Data Warehouse geladen werden und welche im Speicher archiviert werden sollen, damit Sie die Kosten und die ETL-Komplexität möglichst niedrig halten und eine gute Leistung bereitstellen können. Amazon Redshift senkt nicht nur die Kosten und den Betriebsaufwand eines Data Warehouse deutlich, sondern vereinfacht mit Redshift Spectrum außerdem das Analysieren großer Datenmengen im nativen Format, ohne dass Sie die Daten laden müssen.

F: Was ist Advanced Query Accelerator (AQUA) für Amazon Redshift?

AQUA ist ein neuer verteilter und hardwarebeschleunigter Cache, mit dessen Hilfe Redshift bis zu 10-mal schneller als alle anderen cloudbasierten Data Warehouses ausgeführt werden kann. Bei bestehenden Data-Warehousing-Architekturen mit zentralisiertem Speicher müssen Daten zur Verarbeitung in Rechencluster verschoben werden. Mit dem weiteren Wachstum von Data Warehouses in den kommenden Jahren wird die Netzwerkbandbreite, die zum Verschieben all dieser Daten benötigt wird, zu einem Engpass bei der Abfrageleistung.

Mit AQUA wird eine neue Herangehensweise an cloudbasiertes Data-Warehousing verfolgt. AQUA verlagert die Datenverarbeitung in den Speicher: Ein wesentlicher Teil der Datenverarbeitung erfolgt direkt im innovativen Cache. Darüber hinaus wird die Datenverarbeitung mit von AWS entwickelten Prozessoren und mit einer horizontal skalierbaren Architektur dermaßen beschleunigt, wie es die herkömmlichen CPUs heute nicht vermögen. Erhalten Sie weitere Informationen und registrieren Sie sich für die Vorschau.

F: Was ist Redshift Spectrum?

Redshift Spectrum ist eine Funktion von Amazon Redshift, die es Ihnen ermöglicht, Abfragen für Exabyte an unstrukturierten Daten in Amazon S3 auszuführen, ohne dass Ladevorgänge oder ETL erforderlich sind. Wenn Sie eine Abfrage ausgeben, erreicht diese den Amazon Redshift-SQL-Endpunkt, der einen Abfrageplan generiert und optimiert. Amazon Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in Amazon S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon S3-Datenmenge, fordert Amazon Redshift Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten.

Redshift Spectrum kann bei Bedarf auf Tausende von Instances skaliert werden, damit Abfragen unabhängig von der Datengröße schnell ausgeführt werden. Außerdem können Sie exakt die gleiche SQL für Amazon S3-Daten wie für Ihre Amazon Redshift-Abfragen verwenden und eine Verbindung zum selben Amazon Redshift-Endpunkt mithilfe derselben BI-Tools herstellen. Durch die Trennung von Speicher- und Rechenressourcen können Sie mit Redshift Spectrum beide Ressourcenarten unabhängig voneinander skalieren. Sie können so viele Amazon Redshift-Cluster wie nötig einrichten, um Ihren Amazon S3-Data Lake abzufragen, und so hohe Verfügbarkeit und unbegrenzte Gleichzeitigkeit bereitstellen. Mit Redshift Spectrum haben Sie die Möglichkeit, Ihre Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen. Informationen zur regionalen Verfügbarkeit von Redshift Spectrum finden Sie auf der Seite mit den Preisen zu Amazon Redshift.

F: Was ist verwalteter Amazon Redshift-Speicher?

Verwalteter Amazon Redshift-Speicher ist bei RA3-Knotentypen verfügbar. Damit können Sie die Datenverarbeitung und den Speicher unabhängig voneinander skalieren und bezahlen, sodass Sie die Größe des Clusters ausschließlich auf Grundlage Ihrer Rechenbedürfnisse in festlegen können. Es kommt automatisch hochleistungsfähiger SSD-basierter lokaler Speicher als Tier-1-Cache zum Einsatz. Außerdem wird mithilfe von Optimierungen für die Temperatur und das Alter von Datenblöcken sowie für Workload-Muster eine hohe Leistung bereitgestellt. Bei Bedarf wird der Speicher automatisch auf Amazon S3 skaliert, ohne dass ein Eingreifen erforderlich ist.

F: Wie nutze ich den verwalteten Speicher von Amazon Redshift?

Wenn Sie bereits Amazon Redshift-DS- oder -DC-Knoten verwenden, können Sie zur Nutzung von verwaltetem Speicher ein Upgrade der vorhandenen Cluster auf die neue Datenverarbeitungs-Instance RA3 durchführen. Außerdem können Sie einen neuen Cluster erstellen, der auf der RA3-Instance basiert. Der verwaltete Speicher ist dann automatisch inbegriffen. Zur Nutzung dieser Funktion ist keine weitere Maßnahme erforderlich.

F: Wie vereinfacht Amazon Redshift die Verwaltung von Data Warehouses?

Mit Amazon Redshift lassen sich die notwendigen Arbeiten für die Einrichtung, den Betrieb und die Skalierung eines Data Warehouse bewältigen. Dazu gehören zum Beispiel die Bereitstellung der Infrastrukturkapazität, die Automatisierung fortlaufender Verwaltungsaufgaben wie Backups und das Einspielen von Patches sowie die Überwachung von Knoten und Laufwerken zur Wiederherstellung nach Ausfällen. Amazon Redshift verwaltet für Redshift Spectrum die gesamte Datenverarbeitungsinfrastruktur, das Load Balancing, die Planung, Terminierung und Ausführung der Abfragen für Daten in Amazon S3.

F: Wie unterscheidet sich die Leistung von Amazon Redshift von der lokaler Datenbanken, was Data-Warehousing und Analysen angeht?

Amazon Redshift erzielt bei Data-Warehousing- und Analyse-Workloads mithilfe verschiedener Innovationen eine bis zu 10-mal bessere Leistung als herkömmliche Datenbanken. Dazu gehören folgende:

  • Spaltenbasierte Datenspeicherung: Anstatt Daten als eine Folge von Zeilen zu speichern, organisiert Amazon Redshift die Daten spaltenweise. Im Gegensatz zu zeilenbasierten Systemen, die für die Transaktionsverarbeitung ideal sind, eignen sich spaltenbasierte Systeme besonders für Data Warehouses und Analysen, bei denen Abfragen häufig Aggregationen umfassen, die für große Datenmengen erfolgen. Da nur die an den Abfragen beteiligten Spalten verarbeitet werden und Spaltendaten sequenziell auf dem Speichermedium gespeichert werden, benötigen spaltenbasierte Systeme weitaus weniger E/A-Vorgänge, wodurch die Abfrageleistung stark verbessert wird.
  • Erweiterte Komprimierung: Spaltenbasierte Datenspeicher können wesentlich stärker als zeilenbasierte Datenspeicher komprimiert werden, da ähnliche Daten sequenziell auf dem Datenträger gespeichert werden. Amazon Redshift arbeitet mit mehreren Komprimierungstechniken und kann im Vergleich zu herkömmlichen Datenspeichern eine wesentlich stärkere Komprimierung erreichen. Wenn Daten in eine leere Tabelle geladen werden, untersucht Amazon Redshift Ihre Daten automatisch und wählt das geeignetste Komprimierungsschema aus.
  • Massive Parallelverarbeitung (MPP): Amazon Redshift verteilt die Daten- und Abfragelast automatisch auf alle Knoten. Amazon Redshift erleichtert das Hinzufügen von Knoten zu Ihrem Data Warehouse und ermöglicht Ihnen, bei Anwachsen Ihres Data Warehouse eine schnelle Abfrageleistung beizubehalten.
  • Redshift Spectrum: Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zu Exabyte-Größe in Amazon S3 abzufragen. Wenn Sie eine Abfrage ausgeben, erreicht diese den Amazon Redshift-SQL-Endpunkt, der einen Abfrageplan generiert. Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in Amazon S3 befinden, und generiert einen Plan zum Minimieren der zu lesenden Amazon S3-Datenmenge. Anschließend fordert das Data Warehouse Redshift Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und leitet die Ergebnisse für alle restlichen Verarbeitungsschritte zurück in den Amazon Redshift-Cluster.
  • Materialisierte Ansichten: Diese bieten eine erheblich schnellere Abfrageleistung für wiederholte und vorhersagbare analytische Workloads wie Dashboards, Abfragen von BI-Tools und ELT-Datenverarbeitung (Extract, Load, Transform). Mithilfe von materialisierten Ansichten können Sie die vorberechneten Ergebnisse von Abfragen speichern und effizient verwalten, indem Sie die letzten Änderungen an den Quelltabellen schrittweise verarbeiten. Bei nachfolgende Abfragen, die auf die materialisierten Ansichten verweisen, wird die Ausführung anhand der vorberechneten Ergebnisse beschleunigt. Materialisierte Ansichten können basierend auf einer oder mehreren Quelltabellen mit Filtern, Projektionen, inneren Verknüpfungen, Aggregationen, Gruppierungen, Funktionen und anderen SQL-Konstrukten erstellt werden.
  • Skalierbarkeit: Die Rechen- und Speicherkapazität lokaler Data Warehouses wird durch die lokale Hardware beschränkt. Mit Redshift können Sie die Rechen- und Speicherkapazität nach Bedarf entsprechend den sich ändernden Workloads skalieren.

F: Was sind die ersten Schritte mit Amazon Redshift?

Sie können sich über die Detailseite zu Amazon Redshift oder die AWS-Managementkonsole registrieren und innerhalb weniger Minuten die ersten Schritte unternehmen. Wenn Sie noch kein AWS-Konto haben, werden Sie zum Erstellen eines Kontos aufgefordert. Auf der Seite Erste Schritte erfahren Sie, wie Sie Amazon Redshift kostenlos ausprobieren können.

F: Wie erstelle ich einen Amazon Redshift-Data Warehouse-Cluster und greife darauf zu?

Einen Amazon Redshift-Data Warehouse-Cluster können Sie mühelos über die AWS-Managementkonsole oder die Amazon Redshift-APIs erstellen. Sie können mit einem einzelnen 160 GB großen Data Warehouse und einem Knoten beginnen und über ein paar Mausklicks in der AWS-Konsole oder einen einzigen API-Aufruf eine Skalierung auf bis zu Petabyte und mehr vornehmen.

Durch die Konfiguration mit einem Knoten, die für Beurteilungs- oder Entwicklungs-/Test-Workloads am besten geeignet ist, können Sie schnell und kostengünstig den Betrieb mit Amazon Redshift aufnehmen und bei wachsendem Bedarf auf eine Konfiguration mit mehreren Knoten skalieren. Je nach Knotentyp kann ein Redshift-Data Warehouse-Cluster 1 bis 128 Datenverarbeitungsknoten enthalten. Details finden Sie in unserer Dokumentation.

Die Konfiguration mit mehreren Knoten erfordert einen Hauptknoten, der die Client-Verbindungen verwaltet und Abfragen empfängt, sowie zwei Datenverarbeitungsknoten, auf denen Daten gespeichert werden und Abfragen sowie Berechnungen erfolgen. Der Hauptknoten, der genauso groß ist wie der Datenverarbeitungsknoten, wird automatisch für Sie eingerichtet, ohne dass Gebühren anfallen.

Sie müssen lediglich (optional) Ihre bevorzugte Availability Zone, die Anzahl und die Typen der Knoten, den Namen und das Kennwort für den Hauptknoten, Sicherheitsgruppen, Ihre Einstellungen für die Aufbewahrung von Sicherungen und andere Systemeinstellungen angeben. Nach Wahl der gewünschten Konfiguration stellt Amazon Redshift die benötigten Ressourcen bereit und richtet Ihren Data Warehouse-Cluster ein.

Sobald Ihr Data Warehouse-Cluster verfügbar ist, können Sie seinen Endpunkt und die JDBC- und ODBC-Verbindungszeichenfolge über die AWS-Managementkonsole oder Redshift-APIs abrufen. Sie können anschließend diese Verbindungszeichenfolge mit dem gewünschten Datenbank- oder Business Intelligence-Tool (BI) bzw. der gewünschten Programmiersprache verwenden. Sie müssen an Ihren ausgeführten Data Warehouse-Cluster gestellte Netzwerkanforderungen autorisieren. Eine detaillierte Erläuterung finden Sie in unserem Handbuch ''Erste Schritte''.

F: Welche maximale Speicherkapazität hat ein Datenverarbeitungsknoten? Was ist die für eine optimale Leistung pro Datenverarbeitungsknoten empfohlene Datenmenge?

Sie können einen Cluster mit den Knotentypen RA3, DC oder DS erstellen. RA3-Knotentypen ermöglichen es Ihnen, für Datenverarbeitung und Speicherung getrennt zu skalieren und zu bezahlen. Sie wählen die Anzahl der benötigten Instances auf Grundlage der Leistungsanforderungen aus und zahlen nur für den tatsächlich genutzten verwalteten Speicher.

RA3-Knoten sind in zwei Größen verfügbar: RA3.16XL und RA3.4XL. Jeder RA3.16XL-Knoten verfügt über 48 vCPUs, 384 GiB Arbeitsspeicher und unterstützt 8 GB/s an IO. Sowohl RA3.16XL- als auch RA3.4XL-Cluster werden mit mindestens zwei Knoten ausgeführt. RA3.16XL- oder RA3.4XL-Cluster mit zwei Knoten und Minimalgröße bieten 128 TB verwalteten Speicher. Das Kontingent an verwaltetem Speicher beträgt für RA3.16XL und RA3.4XL pro Knoten jeweils 64 TB. Die RA3.16XL-Cluster können bis zu 128 Knoten hochskaliert werden. Dies ermöglicht das Erstellen eines Clusters mit bis zu 8 Petabyte an verwaltetem Speicher. Ein RA3.4XL-Knoten verfügt über 12 vCPUs, 96 GiB Arbeitsspeicher und unterstützt 2 GB/s an IO. Die RA3.4XL-Cluster können bis zu 64 Knoten hochskaliert werden. Dies ermöglicht das Erstellen eines Clusters mit bis zu 4 Petabyte an verwaltetem Speicher. Hinweis: Alle hier erwähnten Größen für verwalteten Speicher beziehen sich auf komprimierte Daten. Redshift komprimiert Daten drei- bis vierfach, sodass unkomprimierte Daten drei- bis viermal mehr Platz belegen als hier angegeben.

DC-Knoten sind ebenfalls in zwei Größen verfügbar. Large bietet 160 GB SSD-Speicher, zwei virtuelle Prozessorkerne vom Typ Intel Xeon E5-2670v2 (Ivy Bridge) und 15 GiB Arbeitsspeicher (RAM). Eight Extra Large bietet eine um das 16-fache höhere Kapazität mit 2,56 TB SSD-Speicher, 32 virtuellen Prozessorkernen vom Typ Intel Xeon E5-2670v2 und 244 GiB Arbeitsspeicher (RAM). Sie können mit einem einzelnen DC2.Large-Knoten für 0,25 USD pro Stunde einsteigen und maximal eine Skalierung auf 128 8XL-Knoten mit 326 TB SSD-Speicher, 3 200 virtuellen Prozessorkernen und 24 TiB Arbeitsspeicher (RAM) vornehmen.

DS-Knoten werden in zwei Größen angeboten, Extra Large und Eight Extra Large. Extra Large (XL) verfügt über drei HDDs mit insgesamt 2 TB Magnetspeicher, während Eight Extra Large (8XL) 24 HDDs mit insgesamt 16 TB Magnetspeicher aufweist. DS2.8XLarge hat 36 virtuelle Kerne vom Typ Intel Xeon E5-2676 v3 (Haswell) und 244 GiB RAM, während DS2.XL vier virtuelle Kerne desselben Typs und 31 GiB RAM aufweist.

Weitere Informationen finden Sie auf der Seite mit der Preisübersicht.

F: Wann sollte ich Amazon Redshift und wann Amazon RDS verwenden?

Sowohl Amazon Redshift als auch Amazon RDS ermöglichen Ihnen bei Auslagerung der Datenbankverwaltung den Betrieb herkömmlicher relationaler Datenbanken in der Cloud. Kunden verwenden Amazon RDS-Datenbanken primär für OLTP-Workloads (Online-Transaction Processing), während Redshift hauptsächlich für Berichterstellung und Analyse genutzt wird. OLTP-Workloads erfordern ein schnelles Abfragen spezifischer Informationen und eine Unterstützung für Transaktionen wie das Einfügen, Aktualisieren und Löschen. Deshalb ist Amazon RDS am besten dafür geeignet. Amazon Redshift nutzt die Leistungsfähigkeit und Ressourcen mehrerer Knoten und eine Vielzahl von Optimierungen. Diese ermöglichen im Vergleich zu herkömmlichen Datenbanken für Berichterstellung und Analyse bei sehr großen Datenmengen Verbesserungen in einer ganz neuen Größenordnung. Amazon Redshift bietet eine ausgezeichnete Option zur horizontalen Skalierung bei zunehmender Komplexität der Daten und Abfragen, wenn Sie verhindern möchten, dass die Berichts- und Analyseverarbeitung die Leistung der OLTP-Workload stört. Mit der neuen Funktion für Verbundabfragen können Sie Daten in Ihren Amazon RDS- oder Aurora-Datenbankservices mit Amazon Redshift problemlos abfragen.

F: Wann sollte ich Amazon Redshift oder Redshift Spectrum und wann Amazon EMR verwenden?

Amazon EMR sollten Sie verwenden, wenn Sie benutzerdefinierten Code zum Verarbeiten und Analysieren extrem großer Datensätze mit den Frameworks für Big Data-Verarbeitungen wie beispielsweise Apache Spark, Hadoop, Presto oder Hbase einsetzen. Mit Amazon EMR erhalten Sie die volle Kontrolle über die Konfiguration Ihrer Cluster und die darin installierte Software.

Data Warehouses wie Amazon Redshift wurden für völlig andere Analysetypen entworfen. Data Warehouses sollen Daten aus vielen verschiedenen Quellen zusammenziehen, beispielsweise aus Inventar-, Finanz- und Einzelhandelssystemen. Um sicherzustellen, dass die Berichterstellung im gesamten Unternehmen konsistent erfolgt, speichern Data Warehouses Daten auf hochgradig strukturierte Weise. Diese Struktur erstellt Datenkonsistenzregeln direkt in den Tabellen der Datenbank. Amazon Redshift ist der beste Service, wenn Sie komplexe Abfragen für riesige Sammlungen an strukturierten und halbstrukturierten Daten mit hoher Geschwindigkeit ausführen müssen.

Während die Redshift Spectrum-Funktion hervorragend für das Ausführen von Abfragen für Daten in Amazon Redshift und S3 geeignet ist, ist sie für Anwendungsfälle, in denen Unternehmen normalerweise Verarbeitungsframeworks wie Amazon EMR einsetzen, eher ungeeignet. Amazon EMR bietet viel mehr als nur SQL-Abfragen. Amazon EMR ist ein verwalteter Service, mit dem Sie äußerst große Datensätze mit den neuesten Versionen der beliebten Big Data-Verarbeitungsframeworks wie Spark, Hadoop und Presto auf vollständig anpassbaren Clustern verarbeiten und analysieren können. Mit Amazon EMR können Sie eine Vielzahl von Datenverarbeitungsaufgaben mit horizontaler Skalierung für Anwendungen ausführen, zum Beispiel Machine Learning, Grafikanalysen, Datentransformationen, Daten-Streaming und praktisch alles, was sich codieren lässt.

Sie können Redshift Spectrum mit EMR verwenden. Redshift Spectrum verwendet den gleichen Ansatz zum Speichern von Tabellendefinitionen wie Amazon EMR. Redshift Spectrum kann den gleichen Apache Hive-Metaspeicher unterstützen, der auch von Amazon EMR zum Suchen von Daten- und Tabellendefinitionen verwendet wird. Wenn Sie Amazon EMR verwenden und bereits ein Hive-Metaspeicher zur Verfügung steht, müssen Sie für die Verwendung dieses Speichers nur noch Ihren Amazon Redshift-Cluster konfigurieren. Dann können Sie sofort mit dem Abfragen dieser Daten und mit dem Ausführen der Amazon EMR-Aufträge beginnen. Wenn Sie mit Amazon EMR bereits einen großen Datenspeicher verarbeiten, können Sie daher mit Redshift Spectrum die Daten zum gleichen Zeitpunkt abfragen, ohne dadurch die Amazon EMR-Aufträge zu beeinflussen.

Abfrage-Services, Data Warehouses und komplexe Datenverarbeitungsframeworks haben alle ihren Platz und werden für unterschiedliche Zwecke verwendet. Sie müssen lediglich das richtige Werkzeug für die Aufgabe auswählen.

F: Wann sollte ich Amazon Athena und wann Redshift Spectrum verwenden?

Amazon Athena ist die einfachste Methode, um Mitarbeitern die Möglichkeit zu geben, Ad-hoc-Abfragen für Daten in Amazon S3 auszuführen. Athena ist serverlos, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss und Sie sofort mit dem Analysieren der Daten beginnen können.

Wenn Sie häufig auf Daten zugegriffen haben, die in einem konsistenten, hochgradig strukturierten Format gespeichert werden müssen, sollten Sie ein Data Warehouse wie Amazon Redshift verwenden. So erhalten Sie die Flexibilität, Ihre strukturierten, häufig abgerufenen Daten in Amazon Redshift zu speichern und mit Redshift Spectrum die Amazon Redshift-Abfragen auf die Daten im Amazon S3-Data Lake auszuweiten. Damit haben Sie die Möglichkeit, die Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen.

F: Was spricht für Amazon Redshift und gegen die Ausführung eines eigenen MPP-Data Warehouse-Clusters in Amazon EC2?

Amazon Redshift übernimmt automatisch viele der zeitaufwendigen Aufgaben bei der Verwaltung eines eigenen Data Warehouse, wie z. B.:
  • Einrichtung: Bei Amazon Redshift können Sie einfach einen Data Warehouse-Cluster erstellen, Ihr Schema definieren und mit dem Laden und Abfragen der Daten beginnen. Um die Bereitstellung, die Konfiguration oder das Einspielen von Patches müssen Sie sich nicht kümmern.
  • Datenbeständigkeit: Amazon Redshift repliziert die Daten in Ihrem Data Warehouse-Cluster und sichert diese fortlaufend in Amazon S3, das auf eine Beständigkeit von 99,999999999 % ausgelegt ist. Amazon Redshift spiegelt die Daten jedes Laufwerks auf andere Knoten im Cluster. Bei Ausfall eines Laufwerks werden Ihre Abfragen mit einer kurzen Latenzerhöhung weiter verarbeitet, während Redshift Ihr Laufwerk anhand von Replikaten neu erstellt. Bei einem Ausfall von Knoten stellt Amazon Redshift automatisch neue Knoten bereit und beginnt mit der Wiederherstellung von Daten von anderen Laufwerken im Cluster oder aus Amazon S3. Priorität liegt auf der Wiederherstellung der am häufigsten abgefragten Daten, damit Ihre am meisten ausgeführten Abfragen schnell wieder zu nutzen sind.
  • Skalierung: Bei sich ändernden Kapazitäts- oder Leistungsanforderungen können Sie über einen einzelnen API-Aufruf und einige wenige Klicks in der AWS-Managementkonsole Ihrem Amazon Redshift Data Warehouse Knoten hinzufügen oder daraus entfernen. Außerdem können Sie Ihre Skalierungs- und Größenänderungsvorgänge mithilfe der Planerfunktion in Redshift koordinieren.
  • Automatische Updates und Patches: Amazon Redshift spielt Updates und Patches automatisch in Ihr Data Warehouse ein, sodass Sie sich auf Ihre Anwendung und nicht auf deren Verwaltung konzentrieren können.
  • Abfragefunktion in Exabyte-Größe: Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zur Exabyte-Größe in Amazon S3 abzufragen.

Fakturierung

F: Wie wird mir die Nutzung von Amazon Redshift in Rechnung gestellt?

Sie zahlen nur für das, was Sie tatsächlich nutzen. Es gibt keine Mindest- oder Einrichtungsgebühren. Amazon Redshift unterstützt die Möglichkeit, einen Cluster anzuhalten und fortzusetzen, sodass Sie die On-Demand-Abrechnungen einfach aussetzen können, solange der Cluster nicht genutzt wird. Beispielsweise kann bei einem Cluster, der für die Entwicklung verwendet wird, die Abrechnung bei dessen Nichtgebrauch ausgesetzt werden. Während der Cluster angehalten ist, wird Ihnen nur der Speicherplatz des Clusters berechnet. Bei kontinuierlichen Produktions-Workloads können Sie gegenüber On-Demand-Preisen erhebliche Einsparungen erzielen, indem Sie zu Reserved Instance wechseln.

Die Fakturierung eines Data Warehouse-Clusters beginnt zu dem Zeitpunkt, ab dem der Cluster verfügbar ist. Sie wird so lange fortgesetzt, bis der Data Warehouse-Cluster durch Löschen oder aufgrund eines Instance-Ausfalls beendet wird. Die Abrechnung erfolgt auf folgender Grundlage:

  • Rechenknotenstunden: Die Gesamtanzahl von Stunden, die alle Rechenknoten im Abrechnungszeitraum ausgeführt werden. Die Abrechnung erfolgt für jede Stunde, die der Data Warehouse-Cluster in einem verfügbaren Zustand ausgeführt wird. Wenn für Ihren Data Warehouse-Cluster keine weiteren Gebühren entstehen sollen, müssen Sie ihn beenden, damit keine weiteren Knotenstunden berechnet werden. Angefangene Knoten-Stunden werden als volle Stunden in Rechnung gestellt. Die Fakturierung erfolgt für 1 Einheit pro Knoten pro Stunde. Wenn beispielsweise ein Data Warehouse-Cluster mit 3 Knoten einen ganzen Monat dauerhaft betrieben wird, fallen 2160 Instance-Stunden an. Für Hauptknotenstunden fallen im Gegensatz zu Rechenknoten keine Gebühren an.
  • Verwalteter Speicher: Für die im verwalteten Speicher abgelegten Daten zahlen Sie pro GB einen festen regionsabhängigen monatlichen Tarif. Verwalteter Speicher ist ein exklusives Angebot für RA3-Knoten. Sie zahlen hierbei für den von Redshift verwalteten Speicher unabhängig vom Datenvolumen den gleichen günstigen Preis. Die Nutzung des verwalteten Speichers wird stundenweise auf Grundlage der vorhandenen Gesamtdaten im verwalteten Speicher berechnet. Die Menge der Daten in Ihrem RA3-Cluster können Sie in Amazon CloudWatch oder der AWS-Managementkonsole überwachen. Für Datenübertragungen zwischen RA3-Knoten und dem verwalteten Speicher fallen keine Gebühren an. Die Gebühren für verwalteten Speicher beinhalten keinen Backup-Speicher für automatische oder manuelle Snapshots. Auch nach Beendigung des Clusters werden Ihnen noch die Gebühren für die Aufbewahrung Ihrer manuellen Backups in Rechnung gestellt.
  • Backup-Speicher: Hierbei handelt es sich um den Speicher für die automatischen und manuellen Snapshots Ihres Data Warehouse. Wenn Sie die Aufbewahrungszeit Ihrer Backups erhöhen oder zusätzliche Snapshots erstellen, belegt Ihr Data Warehouse entsprechend mehr Backup-Speicher. Für Backup-Speicher bis zu 100 % des bereitgestellten Speichers für einen aktiven Data Warehouse-Cluster fallen keine zusätzlichen Gebühren an. Wenn Sie beispielsweise einen aktiven Data Warehouse-Cluster vom Typ "Single Node XL" mit 2 TB lokalem Instance-Speicher nutzen, stellen wir ohne Aufpreis bis zu 2 TB Backup-Speicher pro Monat bereit. Backup-Speicher über die bereitgestellte Speichergröße hinaus und Backups, die nach der Kündigung des Clusters gespeichert werden, werden zu den Amazon S3-Standardtarifen berechnet.
  • Datenübertragung:Es gibt keine Datenübertragungskosten für Daten, die zu oder von Amazon Redshift und Amazon S3 innerhalb der gleichen AWS-Region übertragen werden. Für alle anderen Datenübertragungen in und aus Amazon Redshift werden Ihnen die standardmäßigen AWS-Datenübertragungspreise in Rechnung gestellt.
  • Gescannte Daten: Bei Redshift Spectrum wird Ihnen die Menge an Amazon S3-Daten in Rechnung gestellt, die zum Ausführen der Abfragen gescannt werden. Wenn Sie keine Abfragen ausführen, fallen keine Kosten für Redshift Spectrum an. Speichern Sie Daten in einem Spaltenformat, beispielsweise Parquet oder RC, sinken die Kosten, da Redshift Spectrum nur die für die Abfrage erforderlichen Spalten scannt, anstatt ganze Zeilen zu verarbeiten. Wenn Sie darüber hinaus die Daten mithilfe eines der von Redshift Spectrum unterstützten Formate komprimieren, sinken die Kosten ebenfalls. Sie zahlen die Amazon S3-Standardpreise für Datenspeicherung und die Amazon Redshift-Instance-Preise für den verwendeten Cluster.

Falls nicht anders angegeben, gelten unsere Preise zuzüglich anfallender Steuern und Abgaben, u. a. MwSt. und Umsatzsteuer. Bei Kunden mit japanischer Rechnungsadresse unterliegt die Nutzung von AWS-Services der japanischen Verbrauchssteuer. Weitere Informationen.

Preisinformationen zu Amazon Redshift finden Sie auf der Seite mit den Preisen von Amazon Redshift.

Datenintegration und -ladevorgänge

F: Wie werden Daten in mein Amazon Redshift-Data Warehouse geladen?

Sie können Daten aus verschiedenen Datenquellen in Amazon Redshift laden, darunter aus Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline und aus SSH-fähigen Hosts in Amazon EC2 oder in lokalen Bereitstellungen. Amazon Redshift versucht, die Daten parallel in die einzelnen Datenverarbeitungsknoten zu laden, um die Rate zu maximieren, mit der Daten in Ihrem Data Warehouse-Cluster aufgenommen werden können. Clients können sich über ODBC oder JDBC mit Amazon Redshift verbinden und den SQL-Befehl INSERT aufrufen, um die Daten einzufügen. Beachten Sie, dass dies langsamer als beim Verwenden von S3 oder DynamoDB erfolgt, da dabei Daten parallel auf alle Datenverarbeitungsknoten geladen werden, während bei der SQL-Anweisung INSERT Daten über den zentralen Hauptknoten geladen werden. Weitere Details zum Laden von Daten in Amazon Redshift finden Sie in unserem Handbuch „Erste Schritte“.

F: Wie lade ich Daten aus meinen vorhandenen Amazon RDS-, Amazon EMR-, Amazon DynamoDB- und Amazon EC2-Datenquellen in Amazon Redshift?

Sie können unseren COPY-Befehl verwenden, um Daten parallel aus Amazon EMR, Amazon DynamoDB oder jedem anderen SSH-fähigen Host direkt in Amazon Redshift zu laden. Redshift Spectrum ermöglicht Ihnen außerdem das Laden von Daten aus Amazon S3 in Ihren Cluster mit einem einfachen INSERT INTO-Befehl. Auf diese Weise können Sie u. U. Daten in verschiedenen Formaten wie Parquet und RC in Ihren Cluster laden. Beachten Sie, dass beim Verwenden dieses Ansatzes Redshift Spectrum-Gebühren für die aus Amazon S3 gescannten Daten anfallen. 

Darüber hinaus haben viele Anbieter von ETL-Lösungen Amazon Redshift für die Nutzung mit ihren Tools zertifiziert. Eine Reihe von ihnen bietet kostenlose Testversionen an, um Ihnen die ersten Schritte beim Laden Ihrer Daten zu erleichtern. AWS Data Pipeline stellt eine leistungsfähige, zuverlässige und fehlertolerante Lösung zum Laden von Daten aus einer Vielzahl von AWS-Datenquellen dar, von Amazon RDS bis Redshift. Sie können mithilfe von AWS Data Pipeline die Datenquelle und gewünschten Datenumwandlungen angeben und anschließend über ein vorbereitetes Importskript Ihre Daten in Amazon Redshift laden. Außerdem ist AWS Glue ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der das Vorbereiten und Laden von Daten zu Analysezwecken erleichtert. Sie können AWS Glue ETL-Aufträge mit wenigen Mausklicks in der AWS-Managementkonsole erstellen und ausführen.

F: Die Datenmenge für meinen ersten Ladevorgang in Amazon Redshift ist sehr groß. Die Übertragung über das Internet würde sehr lange dauern. Wie lade ich diese Daten?

Sie können die Daten über AWS Import/Export und tragbare Speichergeräte in Amazon S3 übertragen. Darüber hinaus können Sie mithilfe von AWS Direct Connect eine private Netzwerkverbindung zwischen Ihrem Netzwerk bzw. Rechenzentrum und AWS einrichten. Zum Übertragen der Daten stehen Verbindungs-Ports mit 1 Gbit/s oder 10 Gbit/s zur Auswahl.

Sicherheit

F: Wie schützt Amazon Redshift meine Daten?

Amazon Redshift gewährleistet branchenführende Sicherheit: Durch die eingebaute Integration in AWS IAM, den Identitätsverbund für Single Sign-On (SSO), die Multifaktor-Authentifizierung, die Zugriffskontrolle auf Spaltenebene, die Amazon Virtual Private Cloud (Amazon VPC) sowie die eingebaute AWS KMS-Integration werden die Daten während der Übertragung und am Speicherort geschützt. Amazon Redshift verschlüsselt Ihre Daten mithilfe Branchenstandards entsprechenden Verschlüsselungsmethoden, sodass diese während der Übertragung und am Speicherort sicher sind. Zum Schutz von Daten währen der Übertragung unterstützt Amazon Redshift SSL-Verbindungen zwischen Ihrer Client-Anwendung und Ihrem Redshift Data Warehouse-Cluster. Damit Ihre gespeicherten Daten sicher sind, verschlüsselt Amazon Redshift jeden Block mithilfe des hardwarebeschleunigten AES-256-Verfahrens, während diese auf den Datenträger geschrieben werden. Dieser Vorgang erfolgt auf einer unteren Ebene im E/A-Subsystem, wobei alle auf den Datenträger geschriebenen Daten verschlüsselt werden, so auch Zwischenergebnisse von Abfragen. Die Blöcke werden wie vorhanden gesichert, was bedeutet, dass Backups ebenfalls verschlüsselt sind. Amazon Redshift übernimmt standardmäßig die Schlüsselverwaltung, Sie können die Schlüssel wahlweise aber auch über den AWS Key Management Service verwalten. Alle Sicherheitsfunktionen von Amazon Redshift werden ohne Zusatzkosten angeboten. Redshift Spectrum unterstützt die serverseitige Verschlüsselung (Server Side Encryption, SSE) von Amazon S3 mithilfe des Standardschlüssels Ihres Kontos, der vom AWS Key Management Service (KMS) verwaltet wird.

F: Unterstützt Redshift präzise Zugriffskontrollen, zum Beispiel Sicherheit auf Spaltenebene?

Ja. Mit präzisen Sicherheitskontrollen auf Spaltenebene wird sichergestellt, dass Benutzern nur die Daten angezeigt werden, auf die sie Zugriff haben sollen. Amazon Redshift unterstützt die Zugriffskontrolle auf Spaltenebene für lokale Tabellen. So können Sie den Zugriff auf einzelne Spalten einer Tabelle oder Ansicht festlegen, indem Sie einem Benutzer oder einer Benutzergruppe Berechtigungen auf Spaltenebene gewähren oder entziehen. Redshift ist in AWS Lake Formation integriert. Dadurch wird sichergestellt, dass die Zugriffskontrollen auf Spaltenebene von Lake Formation auch für Redshift-Abfragen für die Daten im Data Lake angewendet werden.

F: Unterstützt Redshift Single Sign-On?

Ja. Kunden, die ihre Corporate-Identity-Anbieter wie Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate oder andere SAML-konforme Identitätsanbieter nutzen möchten, können Amazon Redshift so konfigurieren, dass Single Sign-On bereitgestellt wird.

F: Wie unterstützt Redshift Single Sign-On mit Microsoft Azure Active Directory?

Sie können sich mit Microsoft Azure AD-Identitäten (Active Directory) beim Amazon Redshift-Cluster anmelden. So können Sie sich bei Redshift anmelden, ohne die Azure Active Directory-Identitäten in Redshift zu duplizieren.

F: Unterstützt Amazon Redshift die Multi-Factor Authentication (MFA, Multifaktor-Authentifizierung)?

Ja. Mit MFA können Sie bei der Authentifizierung gegenüber dem Amazon Redshift-Cluster für zusätzliche Sicherheit sorgen.

F: Kann ich Amazon Redshift in Amazon Virtual Private Cloud (Amazon VPC) verwenden?

Ja, Amazon Redshift kann als Teil Ihrer VPC-Konfiguration verwendet werden. Mit Amazon VPC können Sie eine virtuelle Netzwerktopologie definieren, die weitgehend einem herkömmlichen Netzwerk entspricht, wie Sie es in Ihrem Rechenzentrum betreiben. Dadurch haben Sie die vollständige Kontrolle über den Zugriff auf Ihren Amazon Redshift-Data Warehouse-Cluster. Sie können Redshift Spectrum mit einem Amazon Redshift-Cluster verwenden, der Teil Ihrer VPC ist.

F: Kann ich auf meine Amazon Redshift-Datenverarbeitungsknoten direkt zugreifen?

Ihre Amazon Redshift-Rechenknoten befinden sich in einem privaten Netzwerkbereich, auf den nur über den Hauptknoten Ihres Data Warehouse-Clusters zugegriffen werden kann. Dies sorgt für eine zusätzliche Sicherheitsebene für Ihre Daten.

Verfügbarkeit und Beständigkeit

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein Laufwerk in einem meiner Knoten ausfällt?

Amazon Redshift erkennt automatisch, wenn ein Knoten in Ihrem Data Warehouse-Cluster ausfällt, und tauscht diesen aus. Der Data Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt den Ersatzknoten sofort zur Verfügung und lädt zunächst Ihre Daten aus S3, auf die am meisten zugegriffen wird, damit Sie schnellstmöglich das Abfragen Ihrer Daten fortsetzen können. Cluster mit nur einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein einzelner Knoten ausfällt?

Amazon Redshift erkennt automatisch, wenn ein Knoten in Ihrem Data Warehouse-Cluster ausfällt, und tauscht diesen aus. Der Data Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt den Ersatzknoten sofort zur Verfügung und lädt zunächst Ihre Daten aus S3, auf die am meisten zugegriffen wird, damit Sie schnellstmöglich das Abfragen Ihrer Daten fortsetzen können. Cluster mit nur einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn die Availability Zone (AZ) meines Data Warehouse-Clusters ausfällt?

Wenn die Availability Zone (AZ) Ihres Amazon Redshift Data Warehouse-Clusters ausfällt, können Sie den Cluster erst wieder nutzen, nachdem die Stromversorgung und der Netzwerkzugriff auf die AZ wiederhergestellt wurden. Die Daten in Ihrem Data Warehouse-Cluster bleiben erhalten, sodass Sie Ihr Amazon Redshift Data Warehouse nutzen können, sobald die AZ wieder verfügbar ist. Darüber hinaus können Sie auch vorhandene Snapshots in einer neuen AZ in derselben Region wiederherstellen. Amazon Redshift stellt zuerst die Daten her, auf die am meisten zugegriffen wird, damit Sie Abfragen schnellstmöglich fortsetzen können.

F: Unterstützt Amazon Redshift Multi-AZ-Bereitstellungen?

Derzeit unterstützt Amazon Redshift nur Single-AZ-Bereitstellungen. Sie können Data Warehouse-Cluster in mehreren AZs ausführen, indem Sie anhand derselben Menge von Amazon S3-Eingabedateien Daten in zwei Amazon Redshift Data Warehouse-Cluster in getrennten AZs laden. Mit Redshift Spectrum können Sie mehrere Cluster in verschiedenen AZs einrichten und auf Daten in Amazon S3 zugreifen, ohne sie in Ihren Cluster laden zu müssen. Darüber hinaus können Sie auch einen Data Warehouse-Cluster in einer anderen AZ aus den Snapshots Ihres Data Warehouse-Clusters wiederherstellen.

Sicherung und Wiederherstellung

F: Wie sichert Amazon Redshift meine Daten? Wie stelle ich meinen Cluster aus einem Backup wieder her?

Amazon Redshift repliziert alle Daten innerhalb Ihres Data Warehouse-Clusters, wenn diese geladen werden, und sichert sie außerdem fortlaufend in Amazon S3. Amazon Redshift versucht stets, mindestens drei Kopien Ihrer Daten beizubehalten (das Original und ein Replikat auf den Rechenknoten und ein Backup in Amazon S3). Redshift kann zum Zweck der Notfallwiederherstellung Ihre Snapshots auch asynchron in S3 in einer anderen Region replizieren.

Die automatische Sicherung Ihres Data Warehouse-Clusters ist in Amazon Redshift standardmäßig aktiviert. Es gilt ein Aufbewahrungszeitraum von einem Tag. Die maximale Aufbewahrungsdauer ist 35 Tage.

Der kostenlose Speicher für Sicherungen ist auf die Gesamtgröße des Speichers auf den Knoten im Data Warehouse-Cluster begrenzt und gilt nur für aktive Data Warehouse-Cluster. Wenn Sie beispielsweise über einen Data Warehouse-Speicher von insgesamt 8 TB verfügen, bieten wir Ihnen ohne Aufpreis maximal 8 TB Speicher für Sicherungen. Nach Wunsch können Sie den Aufbewahrungszeitraum für Backups mithilfe der AWS-Managementkonsole oder Amazon Redshift-APIs verlängern. Weitere Informationen zu automatischen Snapshots finden Sie im Amazon Redshift-Management-Guide. Amazon Redshift sichert nur Daten, die sich geändert haben, sodass die meisten Snapshots nur einen kleinen Bereich Ihres kostenlosen Backups-Speichers belegen.

Wenn Sie eine Sicherung wiederherstellen müssen, haben Sie Zugriff auf alle automatisierten Sicherungen innerhalb Ihres Aufbewahrungszeitraums für Sicherungen. Nachdem Sie eine wiederherzustellende Sicherung ausgewählt haben, stellen wir einen neuen Data Warehouse-Cluster bereit, in dem Ihre Daten wiederhergestellt werden.

F: Wie verwalte ich die Aufbewahrung meiner automatischen Sicherungen und Snapshots?

Mithilfe der AWS-Managementkonsole oder der ModifyCluster-API können Sie den Aufbewahrungszeitraum für automatische Sicherungen verwalten, indem Sie den „RetentionPeriod“-Parameter ändern. Wenn Sie automatische Sicherungen vollständig deaktivieren möchten (was nicht empfohlen wird), legen Sie den Aufbewahrungszeitraum auf 0 fest.

F: Was passiert mit meinen Sicherungen, wenn ich meinen Data Warehouse-Cluster lösche?

Beim Löschen eines Data Warehouse-Clusters können Sie angeben, ob ein letzter Snapshot erstellt werden soll. Dies ermöglicht eine Wiederherstellung des gelöschten Data Warehouse-Clusters zu einem späteren Zeitpunkt. Alle zuvor manuell erstellten Snapshots Ihres Data Warehouse-Clusters werden aufbewahrt und Ihnen zu den Amazon S3-Standardgebühren in Rechnung gestellt, es sei denn, Sie löschen sie.

Skalierbarkeit

F: Wie passe ich Größe und Leistung meines Amazon Redshift Data Warehouse-Clusters an?

Wenn Sie die Abfrageleistung steigern oder auf eine CPU-, Arbeitsspeicher- oder E/A-Überlastung reagieren möchten, können Sie über die AWS-Managementkonsole oder ModifyCluster-API die Anzahl der Knoten in Ihrem Data Warehouse-Cluster erhöhen. Alle gewünschten Änderungen am Data Warehouse-Cluster erfolgen unmittelbar. Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon Redshift Data Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon Cloudwatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen.

Mithilfe der Funktion zur Nebenläufigkeitsskalierung können Sie im Prinzip eine unbegrenzte Anzahl gleichzeitiger Benutzer und Abfragen mit gleichbleibend hoher Abfragegeschwindigkeit unterstützen. Wenn die Nebenläufigkeitsskalierung aktiviert ist, fügt Amazon Redshift automatisch zusätzliche Cluster-Kapazität hinzu, wenn diese zum Verarbeiten einer Zunahme an gleichzeitigen Leseabfragen erforderlich ist.

Mit Redshift Spectrum können Sie mehrere Amazon Redshift-Cluster ausführen, die auf die gleichen Daten in Amazon S3 zugreifen. Sie können unterschiedliche Cluster für unterschiedliche Anwendungsfälle verwenden. Sie können beispielsweise einen Cluster für die Standard-Berichterstellung und einen anderen für wissenschaftliche Datenabfragen verwenden. Ihr Marketingteam kann einen eigenen Cluster verwenden, der sich von dem Ihres Betriebsteams unterscheidet. Redshift Spectrum verteilt die Ausführung einer Abfrage automatisch an mehrere Redshift Spectrum-Arbeitsressourcen aus einem gemeinsam genutzten Ressourcenpool, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und sendet Ergebnisse zurück in den Amazon Redshift-Cluster, wo sie weiterverarbeitet werden.

F: Ist mein Data Warehouse-Cluster während der Skalierung weiterhin verfügbar?

Das hängt davon ab. Wenn Sie die Funktion zur Nebenläufigkeitsskalierung verwenden, steht der Cluster währenddessen vollständig für Lese- und Schreibvorgänge zur Verfügung. Bei der elastischen Größenänderung steht der Cluster während des Vorgangs vier bis acht Minuten lang nicht zur Verfügung. Bei der Redshift RA3-Speicherelastizität im verwalteten Speicher steht der Cluster vollständig zur Verfügung. Die Daten werden automatisch zwischen dem verwalteten Speicher und den Datenverarbeitungsknoten verschoben.

Nebenläufigkeit

F: Wie kann ich Ressourcen verwalten, um sicherzustellen, dass mein Redshift-Cluster in Zeiträumen mit gleichzeitigen Downloads dauerhaft hohe Leistung zur Nebenläufigkeitsverabeitung bietet?

Ein typisches Data Warehouse zeigt deutliche Abweichungen bei der Abfragenutzung im Verlauf eines Tages. Statt einer Bereitstellung von Ressourcen für Bedarfsspitzen ist es kosteneffizienter, Ressourcen nur für den jeweiligen Zeitraum hinzuzufügen, in dem sie gebraucht werden. Amazon Redshift wickelt das automatisch für Sie ab.

Nebenläufigkeitsskalierung ist eine Funktion in Amazon Redshift, die eine gleichbleibend hohe Abfrageleistung auch bei Tausenden von gleichzeitigen Abfragen bietet. Mit dieser Funktion bietet Amazon Redshift automatisch vorübergehende Kapazitäten, wenn diese benötigt werden, um hohe Anforderungen erfüllen zu können. Amazon Redshift leitet Ihre Abfragen automatisch an skalierte Cluster weiter, die in Sekunden bereitgestellt werden und unmittelbar mit der Verarbeitung von Abfragen beginnen.

Diese Funktion ist für einen Großteil der Kunden kostenlos. Jeder Amazon Redshift Cluster erhält pro Tag bis zu einer Stunde an kostenlosen Credits für die Nebenläufigkeitsskalierung. Dadurch sind die monatlichen Kosten für Sie vorhersehbar und das sogar in Zeiträumen mit schwankendem Analysebedarf.

F: Was ist die elastische Größenänderung und wie unterscheidet sie sich von der Nebenläufigkeitsskalierung?

Die elastische Größenänderung entfernt oder fügt zur Verwaltung des Abfragedurchsatzes in Minuten Knoten von einem einzelnen Redshift-Cluster hinzu. Beispielsweise sind eventuell für den rechtzeitigen Abschluss eines ETL-Verarbeitungslast für bestimmte Stunden in einem Tages- oder Monatsendbericht zusätzliche Redshift-Ressourcen erforderlich. Mit der Nebenläufigkeitsskalierung werden zusätzliche Cluster-Ressourcen hinzugefügt, um die gesamte Nebenläufigkeitsverarbeitung von Abfragen zu erhöhen.

F: Habe ich direkten Zugriff auf die Nebenläufigkeitsskalierungs-Cluster?

Nein, die Nebenläufigkeitsskalierung greift auf einen hochskalierbaren Pool aus Redshift-Ressourcen zurück, auf die Kunden keinen direkten Zugriff haben.

Abfragen und Analysen

F: Sind Amazon Redshift und Redshift Spectrum mit meinen bevorzugten Business Intelligence (BI)-Softwarepaketen und ETL-Tools (Extrahieren, Transformieren, Laden) kompatibel?

Amazon Redshift arbeitet mit branchenüblicher SQL und der Zugriff erfolgt über JDBC- und ODBC-Standardtreiber. Sie können auf der Registerkarte „Connect Client“ der Redshift-Konsole unsere benutzerdefinierten Amazon Redshift-JDBC- und -ODBC-Treibern herunterladen. Wir haben Integrationen bei einer Reihe beliebter Anbieter von BI- und ETL-Lösungen validiert, von denen wiederum einige kostenlose Testversionen anbieten, um Ihnen die ersten Schritte beim Laden und Analysieren von Daten zu erleichtern. Ferner haben Sie auch im AWS Marketplace die Möglichkeit zum Bereitstellen und Konfigurieren von Lösungen, die für die Zusammenarbeit mit Amazon Redshift innerhalb von Minuten ausgelegt sind.

Redshift Spectrum unterstützt alle Amazon Redshift-Clienttools. Die Clienttools können mithilfe von ODBC- oder JDBC-Verbindungen weiterhin eine Verbindung zum Amazon Redshift-Cluster-Endpunkt herstellen. Änderungen sind nicht erforderlich.

Sie verwenden genau dieselbe Abfragesyntax und dieselben Abfragefunktionen zum Zugreifen auf Tabellen in Redshift Spectrum wie für Tabellen im lokalen Speicher Ihres Redshift-Clusters. Externe Tabellen werden mithilfe des Schemanamens referenziert, der im CREATE EXTERNAL SCHEMA-Befehl definiert wird, wo die Tabellen registriert wurden.

F: Welche Daten- und Komprimierungsformate unterstützt Redshift Spectrum?

Redshift Spectrum unterstützt derzeit viele Open Source-Datenformate, darunter Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text und TSV.

Redshift Spectrum unterstützt derzeit Gzip- und Snappy-Komprimierung.

F: Was geschieht, wenn eine Tabelle in meinem lokalen Speicher den gleichen Namen wie eine externe Tabelle hat?

Wie bei den lokalen Tabellen können Sie den Schemanamen verwenden, um exakt auszuwählen, welche Tabelle Sie meinen. Dazu verwenden Sie in Ihrer Abfrage „schema_name.table_name“.

F: Ich verwende einen Hive-Metaspeicher zum Speichern von Metadaten über meinen S3-Data Lake. Kann ich Redshift Spectrum verwenden?

Ja. Der CREATE EXTERNAL SCHEMA-Befehl unterstützt Hive-Metaspeicher. Derzeit wird DDL nicht für Hive-Metaspeicher unterstützt.

F: Wie erhalte ich eine Liste mit allen externen Datenbanktabellen, die in meinem Cluster erstellt wurden?

Sie können Sie Systemtabelle SVV_EXTERNAL_TABLES abfragen, um diese Informationen zu erhalten.

Überwachung

F: Wie überwache ich die Leistung meines Amazon Redshift Data Warehouse-Clusters?

Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon Redshift-Data Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon CloudWatch-APIs kostenlos zur Verfügung. Übe die Amazon Cloudwatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen. Die AWS-Managementkonsole stellt ein Überwachungsdashboard bereit, das Sie beim Überwachen des Zustands und der Leistung all Ihrer Cluster unterstützt. Amazon Redshift bietet über die AWS-Managementkonsole außerdem Informationen zur Abfrage- und Cluster-Leistung. Anhand dieser Informationen können Sie erkennen, welche Benutzer und Abfragen die meisten Systemressourcen belegen. Durch Anzeigen von Abfrageplänen und Ausführungsstatistiken können Sie Leistungsprobleme untersuchen. Darüber hinaus können Sie die Ressourcenauslastung auf allen Datenverarbeitungsknoten erkennen, um sicherzustellen, dass Daten und Abfragen gleichmäßig auf alle Knoten verteilt sind.

Wartung

F: Was ist ein Wartungs- bzw. Aktualisierungsfenster? Steht meine Data Warehouse-Cluster während der Softwarewartung zur Verfügung?

Zur Installation von Programmkorrekturen, Verbesserungen und neuen Funktionen in Ihrem Cluster führt Amazon Redshift regelmäßig Wartungen aus. Das geplante Wartungsfenster für Ihr Cluster können Sie programmatisch oder über die Redshift-Konsole ändern. Während der Wartungsfenster steht Ihr Amazon Redshift-Cluster für den normalen Betrieb nicht zur Verfügung. Weitere Informationen zu Wartungsfenstern und -zeitplänen nach Region finden Sie unter dem Thema Maintenance Windows im Amazon Redshift-Verwaltungshandbuch.

Weitere Informationen zu den Preisen von Amazon Redshift

Zur Seite mit den Preisen
Bereit zum Entwickeln?
Erste Schritte mit Amazon Redshift
Haben Sie Fragen?
Kontakt