Probieren Sie Amazon Redshift kostenlos aus

Das kostenlose Testprogramm starten
Weitere Informationen

Sichern Sie sich kostenlos für zwei Monate pro Monat 750 Stunden DC2.Large. So starten Sie das Testprogramm:

1. Erstellen Sie ein AWS-Konto, und melden Sie sich bei der Amazon Redshift-Konsole an

2. Starten Sie ein Amazon Redshift-Cluster und wählen Sie als Knotentyp "DC2.Large" aus

Auf der Seite zu kostenlosen Tests unserer Partner erfahren Sie, wie Sie Daten einspielen und Berichte erstellen.


F: Was ist Amazon Redshift?

Amazon Redshift ist ein schnelles, vollständig verwaltetes Data Warehouse, mit dem Sie im Zusammenspiel mit Ihren vorhandenen Business Intelligence-Tools und mithilfe von Standard-SQL alle Ihre Daten einfach und kostengünstig analysieren können. Es ermöglicht Ihnen die Ausführung komplexer Analyseabfragen für mehrere Petabyte strukturierter Daten mithilfe einer durchdachten Abfrageoptimierung, Spaltenspeicherung auf lokalen Hochleistungsdatenträgern und einer umfangreichen parallelen Abfrageausführung. Sie erhalten innerhalb weniger Sekunden mehr Ergebnisse. Mit Redshift können Sie für nur 0,25 USD pro Stunde ohne Verpflichtungen klein beginnen und für 1 000 USD pro Terabyte und Jahr eine Skalierung bis in den Petabytebereich vornehmen – für weniger als ein Zehntel der Kosten herkömmlicher Lösungen. Amazon Redshift umfasst außerdem Amazon Redshift Spectrum, sodass Sie SQL-Abfragen direkt für mehrere Exabyte unstrukturierter Daten in Amazon S3 ausführen können. Es ist kein Laden und keine Umwandlung erforderlich, und Sie können offene Datenformate einschließlich Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile und TSV verwenden. Redshift Spectrum skaliert automatisch die Abfragerechenkapazität basierend auf den abgerufenen Daten, sodass Abfragen für Amazon S3 (unabhängig von der Größe des Datensatzes) schnell ausgeführt werden.

Herkömmliche Data Warehouses erfordern einen hohen Zeit- und Ressourcenaufwand für die Verwaltung, insbesondere bei großen Datenmengen. Darüber hinaus sind die Kosten für das Einrichten, Verwalten und Anpassen selbstverwalteter, lokaler Data Warehouses sehr hoch. Wenn Ihre Datenmenge wächst, müssen Sie ständig entscheiden, welche Daten in Ihr Data Warehouse geladen werden und welche im Speicher archiviert werden sollen, damit Sie die Kosten verwalten, die ETL-Komplexität möglichst niedrig halten und eine gute Leistung bereitstellen können. Amazon Redshift senkt nicht nur die Kosten und den Betriebsaufwand eines Data Warehouse deutlich, sondern vereinfacht mit Redshift Spectrum außerdem das Analysieren großer Datenmengen im nativen Format, ohne dass Sie die Daten laden müssen.

Amazon Redshift bietet schnelle Abfragefunktionen für strukturierte Daten mithilfe vertrauter auf SQL basierender Clients und Business Intelligence (BI)-Tools unter Verwendung von ODBC- und JDBC-Standardverbindungen. Abfragen werden auf mehrere physische Ressourcen verteilt und parallel ausgeführt. Sie können die Größe eines Amazon Redshift Data Warehouse über ein paar Mausklicks in der AWS Management Console oder einen einzelnen API-Aufruf anpassen. Amazon Redshift führt automatisch Patches der Data Warehouse-Software durch und erstellt Sicherungen, die für einen vom Benutzer definierten Zeitraum aufbewahrt werden. Amazon Redshift arbeitet mit Replikation und fortlaufenden, inkrementellen Datensicherungen, um die Verfügbarkeit und Datenbeständigkeit zu verbessern, und kann nach Komponenten- oder Knotenausfällen automatisch eine Wiederherstellung durchführen. Außerdem unterstützt Amazon Redshift die Amazon Virtual Private Cloud (Amazon VPC), SSL- und AES-256-Verschlüsselung sowie Hardware-Sicherheitsmodule (HSMs), um Ihre Daten während der Übertragung und am Speicherort zu schützen.

Wie bei allen Amazon Web Services fallen keine Vorabkosten an und Sie zahlen nur für die Ressourcen, die Sie tatsächlich nutzen. Amazon Redshift bietet ein nutzungsabhängiges Zahlungsmodell. Darüber hinaus können Sie Amazon Redshift kostenlos ausprobieren.

F: Was ist Amazon Redshift Spectrum?

Amazon Redshift Spectrum ist eine Funktion von Amazon Redshift, die es Ihnen ermöglicht, Abfragen für Exabyte an unstrukturierten Daten in Amazon S3 auszuführen, ohne dass Ladevorgänge oder ETL erforderlich sind. Wenn Sie eine Abfrage ausgeben, erreicht diese den Amazon Redshift-SQL-Endpunkt, der einen Abfrageplan generiert und optimiert. Amazon Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in Amazon S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon S3-Datenmenge, fordert Amazon Redshift Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten.

Redshift Spectrum kann bei Bedarf auf Tausende von Instances skaliert werden, damit Abfragen unabhängig von der Datengröße schnell ausgeführt werden. Außerdem können Sie exakt die gleiche SQL für Amazon S3-Daten wie für Ihre aktuellen Amazon Redshift-Abfragen verwenden und eine Verbindung zum gleichen Amazon Redshift-Endpunkt mithilfe der gleichen BI-Tools herstellen. Durch die Trennung von Speicher- und Rechenressourcen können Sie mit Redshift Spectrum beides unabhängig voneinander skalieren. Sie können so viele Amazon Redshift-Cluster wie nötig einrichten, um Ihren Amazon S3-Data Lake abzufragen, und so hohe Verfügbarkeit und unbegrenzte Gleichzeitigkeit bereitstellen. Mit Redshift Spectrum haben Sie die Möglichkeit, Ihre Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen.

F: Was verwaltet Amazon Redshift für mich?

Amazon Redshift verwaltet sämtliche Aufgaben, die zum Einrichten, Betreiben und Skalieren eines Data Warehouse erforderlich sind – von der Bereitstellung von Infrastrukturkapazität bis zu laufenden administrativen Aufgaben wie Sicherungen und Einspielung von Patches. Amazon Redshift überwacht Ihre Knoten automatisch und sorgt nach Ausfällen für eine Wiederherstellung. Amazon Redshift verwaltet für Redshift Spectrum die gesamte Datenverarbeitungsinfrastruktur, das Load Balancing, die Planung, Terminierung und Ausführung Ihrer Abfragen für in Amazon S3 gespeicherte Daten.

F: Wie unterscheidet sich die Leistung von Amazon Redshift von der herkömmlicher Datenbanken für Data Warehouses und Analysen?

Amazon Redshift nutzt verschiedene Innovationen zum Erreichen einer um das Zehnfache höheren Leistung als herkömmliche Datenbanken für Data Warehouses und Analysen:

  • Spaltenbasierte Datenspeicherung: Anstatt Daten als eine Folge von Zeilen zu speichern, organisiert Amazon Redshift die Daten spaltenweise. Im Gegensatz zu zeilenbasierten Systemen, die für die Transaktionsverarbeitung ideal sind, eignen sich spaltenbasierte Systeme besonders für Data Warehouses und Analysen, bei denen Abfragen häufig Aggregationen umfassen, die für große Datenmengen erfolgen. Da nur die an den Abfragen beteiligten Spalten verarbeitet werden und Spaltendaten sequenziell auf dem Speichermedium gespeichert werden, benötigen spaltenbasierte Systeme weitaus weniger E/A-Vorgänge, wodurch die Abfrageleistung stark verbessert wird.
  • Erweiterte Komprimierung: Spaltenbasierte Datenspeicher können wesentlich stärker als zeilenbasierte Datenspeicher komprimiert werden, da ähnliche Daten sequenziell auf dem Datenträger gespeichert werden. Amazon Redshift arbeitet mit mehreren Komprimierungstechniken und kann im Vergleich zu herkömmlichen Datenspeichern eine wesentlich stärkere Komprimierung erreichen. Außerdem erfordert Amazon Redshift keine Indizes oder materialisierten Sichten, weshalb weniger Speicherplatz als bei herkömmlichen relationalen Datenbanksystemen belegt wird. Wenn Daten in eine leere Tabelle geladen werden, untersucht Amazon Redshift Ihre Daten automatisch und wählt das geeignetste Komprimierungsschema.
  • Massenparallelrechner (MPR:) Amazon Redshift verteilt die Daten- und Abfragelast automatisch auf alle Knoten. Amazon Redshift erleichtert das Hinzufügen von Knoten zu Ihrem Data Warehouse und ermöglicht Ihnen, bei Anwachsen Ihres Data Warehouse eine schnelle Abfrageleistung beizubehalten.
  • Redshift Spectrum: Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zu Exabyte-Größe in Amazon S3 abzufragen. Wenn Sie eine Abfrage ausgeben, erreicht diese den Amazon Redshift-SQL-Endpunkt, der einen Abfrageplan generiert. Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in Amazon S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon S3-Datenmenge, fordert Amazon Redshift Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und leitet die Ergebnisse für alle restlichen Verarbeitungsschritte zurück in Ihren Amazon Redshift-Cluster.

F: Was sind die ersten Schritte mit Amazon Redshift?

Sie können sich über die Detailseite zu Amazon Redshift oder AWS Management Console registrieren und binnen Minuten die ersten Schritte unternehmen. Wenn Sie noch kein AWS-Konto haben, werden Sie zum Erstellen eines Kontos aufgefordert.

Zum Verwenden von Redshift Spectrum müssen Sie Ihre Daten zunächst in Amazon S3 speichern. Dann können Sie die Metadaten zu Ihren Daten in Ihrem Amazon Redshift-Cluster definieren oder die möglicherweise bereits vorhandenen Metadaten in Ihrem Hive-Metaspeicher bei Ihrem Cluster registrieren. Sie können einen CREATE EXTERNAL SCHEMA SQL-Befehl in Ihrem Amazon Redshift-Cluster ausführen, um eine Datenbank in Ihrem Katalog als externes Schema innerhalb von Amazon Redshift zu definieren oder zu registrieren. Danach können Sie Abfragen für Amazon S3 mit der gleichen SQL ausführen, die Sie auch für lokale Tabellen und BI-Tools verwenden, die heute schon Amazon Redshift unterstützen. Die von Ihnen mithilfe von Amazon Redshift-SQL erstellte externe Datenbankdefinition wird in dem Datenkatalog registriert, den auch Amazon Athena verwendet. Sie können die externe Datenbankdefinition optional auch aus dem Amazon Athena-Katalog heraus verwalten. 

Besuchen Sie unsere Seite Erste Schritte, um zu erfahren, wie Sie Amazon Redshift kostenlos ausprobieren können.

F: In welchen AWS-Regionen ist Amazon Redshift verfügbar?

Informationen zur regionalen Verfügbarkeit von Amazon Redshift finden Sie in der Regionstabelle auf der Seite zur globalen AWS-Infrastruktur.

F: In welchen AWS-Regionen ist Redshift Spectrum verfügbar?

Amazon Redshift Spectrum ist in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), EU (Frankfurt), EU (Irland), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney) und Asien-Pazifik (Tokio).

F: Wie erstelle ich einen Amazon Redshift Data Warehouse-Cluster?

Sie können einen Amazon Redshift Data Warehouse-Cluster über die AWS Management Console oder die Amazon Redshift-APIs erstellen. Sie können mit einem einzelnen 160 GB großen Data Warehouse und einem Knoten beginnen und über ein paar Mausklicks in der AWS-Konsole oder einen einzelnen API-Aufruf eine Skalierung auf bis zu einem Petabyte und mehr vornehmen.

Die Konfiguration mit einem Knoten ermöglicht Ihnen, rasch und kostengünstig den Betrieb mit Amazon Redshift aufzunehmen und bei wachsendem Bedarf auf eine Konfiguration mit mehreren Knoten zu skalieren. Die Konfiguration mit mehreren Knoten erfordert einen Hauptknoten, der die Client-Verbindungen verwaltet und Abfragen empfängt, sowie zwei Rechenknoten, auf denen Daten gespeichert werden und Abfragen und Berechnungen erfolgen. Der Hauptknoten wird automatisch für Sie eingerichtet, ohne dass Gebühren anfallen.

Sie müssen lediglich (optional) Ihre bevorzugte Availability Zone, die Anzahl und die Typen der Knoten, den Namen und das Kennwort für den Hauptknoten, Sicherheitsgruppen, Ihre Einstellungen für die Aufbewahrung von Sicherungen und andere Systemeinstellungen angeben. Nach Wahl der gewünschten Konfiguration stellt Amazon Redshift die benötigten Ressourcen bereit und richtet Ihren Data Warehouse-Cluster ein.

F: Wie funktioniert ein Hauptknoten? Wie funktioniert ein Rechenknoten?

Ein Hauptknoten empfängt Abfragen von Client-Anwendungen, analysiert diese und entwickelt Ausführungspläne, bei denen es sich um eine geordnete Reihe von Schritten zur Verarbeitung dieser Abfragen handelt. Der Hauptknoten koordiniert anschließend die parallele Ausführung dieser Pläne mit den Rechenknoten, aggregiert die Zwischenergebnisse dieser Knoten und gibt schließlich das Ergebnis an die Client-Anwendungen zurück.

Rechenknoten führen die in den Ausführungsplänen angegebenen Schritte aus und übertragen Daten untereinander, um diese Abfragen zu erfüllen. Die Zwischenergebnisse werden zur Aggregation an den Hauptknoten zurückgesendet, ehe sie an die Client-Anwendungen zurückgesendet werden.

F: Was ist die maximale Speicherkapazität pro Rechenknoten? Was ist die für optimale Leistung empfohlene Datenmenge pro Rechenknoten?

Sie können ein Cluster erstellen, indem Sie entweder Dense Storage (DS)-Knotentypen oder Dense Compute (DC)-Knotentypen verwenden. Dense Storage-Knotentypen ermöglichen die Einrichtung sehr großer Data Warehouses mithilfe von Festplattenlaufwerken zu einem sehr niedrigen Einstiegspreis. Dense Computer-Knotentypen ermöglichen das Einrichten sehr leistungsstarker Data Warehouses unter Verwendung von schnellen CPUs, großen Arbeitsspeichermengen und SSD-Festplatten (Solid-State Disks).

Dense Storage (DS)-Knotentypen werden in zwei Größen angeboten, Extra Large und Eight Extra Large. Extra Large (XL) hat 3 HDDs mit insgesamt 2 TB Magnetspeicher, während Eight Extra Large (8XL) 24 HDDs mit insgesamt 16 TB Magnetspeicher hat. DS2.8XLarge hat 36 Intel Xeon E5-2676 v3 (Haswell) virtuelle Kerne und 244 GiB RAM und DS2.XL hat 4 Intel Xeon E5-2676 v3 (Haswell) virtuelle Kerne und 31 GiB RAM. Auf unserer Seite mit den Preisen finden Sie weitere Details. Sie können mit einem einzelnen Data Warehouse mit Extra Large-Knoten mit 2 TB für 0,85 USD pro Stunde beginnen und eine Skalierung auf bis zu einem Petabyte und mehr vornehmen. Sie können sich für eine stundenweise Zahlung oder das Reserved Instance-Preismodell entscheiden, um Ihre Kosten auf unter 1000linear USD pro TB pro Jahr zu senken.

Dense Compute (DC)-Knotentypen werden ebenfalls in zwei Größen angeboten. "Large" bietet 160 GB SSD-Speicher, 2 virtuelle Prozessorkerne vom Typ Intel Xeon E5-2670v2 und 15 GB Arbeitsspeicher (RAM). "Eight Extra Large" bietet eine um das 16-fache höhere Kapazität mit 2,56 TB SSD-Speicher, 32 virtuellen Prozessorkernen vom Typ Intel Xeon E5-2670v2 und 244 GB Arbeitsspeicher (RAM). Sie können mit einem einzelnen DC2.Large-Knoten für 0,25 USD pro Stunde einsteigen und maximal eine Skalierung auf 128 8XL-Knoten mit 326 TB SSD-Speicher, 3 200 virtuellen Prozesskernen und 24 TB Arbeitsspeicher (RAM) vornehmen.

Die MPR-Architektur von Amazon Redshift ermöglicht, dass Sie die Leistung steigern können, indem Sie die Anzahl der Knoten im Data Warehouse-Cluster erhöhen. Die optimale Datenmenge pro Rechenknoten hängt von den Merkmalen Ihrer Anwendung und Anforderungen an die Abfrageleistung ab.

F: Wie viele Knoten kann ich pro Amazon Redshift Data Warehouse-Cluster angeben?

Je nach Knotentyp kann ein Amazon Redshift Data Warehouse-Cluster 1-128 Rechenknoten enthalten. Details finden Sie in unserer Dokumentation.

F: Wie kann ich auf einen ausgeführten Data Warehouse-Cluster zugreifen?

Sobald Ihr Data Warehouse-Cluster verfügbar ist, können Sie seinen Endpunkt und die JDBC- und ODBC-Verbindungszeichenfolge über die AWS Management Console oder Redshift-APIs abrufen. Sie können anschließend diese Verbindungszeichenfolge mit dem gewünschten Datenbank- oder Business Intelligence-Tool (BI) bzw. der gewünschten Programmiersprache verwenden. Sie müssen an Ihren ausgeführten Data Warehouse-Cluster gestellte Netzwerkanforderungen autorisieren. Eine detaillierte Erläuterung finden Sie in unserem Handbuch ''Erste Schritte''.

F: Wann sollte ich Amazon Redshift und wann Amazon RDS verwenden?

Sowohl Amazon Redshift als auch Amazon RDS ermöglichen Ihnen bei Auslagerungen der Datenbankverwaltung den Betrieb herkömmlicher relationaler Datenbanken in der Cloud. Kunden nutzen Amazon RDS-Datenbanken für OLTP (Online-Transaction Processing, Online-Transaktionsverarbeitung) sowie für Berichterstellungs- und Analysezwecke. Amazon Redshift nutzt die Leistungsfähigkeit und Ressourcen mehrerer Knoten und eine Vielzahl von Optimierungen. Diese ermöglichen im Vergleich zu herkömmlichen Datenbanken für Berichterstellung und Analyse bei sehr großen Datenmengen Verbesserungen in einer ganz neuen Größenordnung. Amazon Redshift bietet eine ausgezeichnete Option zur horizontalen Skalierung, sobald die Komplexität Ihrer Daten und Abfragen zunimmt oder Sie verhindern möchten, dass die Berichterstellungs- und Analyseverarbeitung die Leistung Ihrer OLTP-Verarbeitung stört.

F: Wann sollte ich Amazon Redshift und wann Amazon EMR verwenden?

Sie sollten Amazon EMR verwenden, wenn Sie benutzerdefinierten Code zum Verarbeiten und Analysieren extrem großer Datensätze mit den Frameworks für Big Data-Bearbeitungen wie beispielsweise Apache Spark, Hadoop, Presto oder HBase einsetzen. Mit Amazon EMR erhalten Sie die volle Kontrolle über die Konfiguration Ihrer Cluster und die darauf installierte Software.

Data Warehouses wie Amazon Redshift wurden für völlig andere Analysetypen entworfen. Data Warehouses sollen Daten aus vielen verschiedenen Quellen zusammenziehen, beispielsweise aus Inventar-, Finanz- und Einzelhandelssystemen. Um sicherzustellen, dass die Berichterstellung im gesamten Unternehmen konsistent erfolgt, speichern Data Warehouses Daten auf hochgradig strukturierte Weise. Diese Struktur erstellt Datenkonsistenzregeln direkt in den Tabellen der Datenbank.

Amazon Redshift ist der beste Service, wenn Sie komplexe Abfragen für riesige Sammlungen an strukturierten Daten mit äußerst hoher Geschwindigkeit ausführen müssen.

F: Kann Redshift Spectrum Amazon EMR ersetzen?

Nein. Während Redshift Spectrum hervorragend für das Ausführen von Abfragen für Daten in Amazon Redshift und S3 geeignet ist, passt es nicht für die Arten von Anwendungsfällen, die Unternehmen normalerweise von Verarbeitungsframeworks wie Amazon EMR benötigen.
Amazon EMR bietet viel mehr als nur SQL-Abfragen. Amazon EMR ist ein verwalteter Service, mit dem Sie äußerst große Datensätze mit den neuesten Versionen der beliebten Big Data-Verarbeitungsframeworks wie Spark, Hadoop und Presto auf vollständig anpassbaren Clustern verarbeiten und analysieren können. Mit Amazon EMR können Sie eine Vielzahl von Datenverarbeitungsaufgaben mit horizontaler Skalierung für Anwendungen ausführen wie beispielsweise maschinelles Lernen, Grafikanalysen, Datentransformationen, Daten-Streaming und praktisch alles, was sie codieren können. Sie können Redshift Spectrum auch zusammen mit EMR verwenden. Amazon Redshift Spectrum verwendet den gleichen Ansatz zum Speichern von Tabellendefinitionen wie Amazon EMR. Wenn Sie also Amazon EMR bereits zum Verarbeiten eines großen Datenspeichers verwenden, können Sie Redshift Spectrum zum Abfragen der Daten zum exakt gleichen Zeitpunkt verwenden, ohne dadurch die Amazon EMR-Aufträge zu beeinflussen.

Abfrage-Services, Data Warehouses und komplexe Datenverarbeitungsframeworks haben alle ihren Platz und werden für unterschiedliche Zwecke verwendet. Sie müssen lediglich das richtige Tool für den Job auswählen.

F: Wann sollte ich Amazon Athena und wann Redshift Spectrum verwenden?

Amazon Athena ist die einfachste Methode, um Mitarbeitern die Möglichkeit zu geben, Ad-hoc-Abfragen für Daten in Amazon S3 auszuführen. Athena ist serverlos, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss und Sie sofort mit dem Analysieren Ihrer Daten beginnen können.

Wenn Sie häufig auf Daten zugegriffen haben, die in einem konsistenten, hochgradig strukturierten Format gespeichert werden müssen, sollten Sie ein Data Warehouse wie Amazon Redshift verwenden. So erhalten Sie die Flexibilität, Ihre strukturierten, häufig benötigten Daten in Amazon Redshift zu speichern und Redshift Spectrum zu verwenden, um Ihre Amazon Redshift-Abfragen auf das gesamte Datenuniversum in Ihrem Amazon S3-Data Lake auszuweiten. Damit haben Sie die Möglichkeit, Ihre Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen.

F: Kann ich Redshift Spectrum zum Abfragen von Daten verwenden, die ich mit Amazon EMR verarbeitete?

Ja, Redshift Spectrum kann den gleichen Apache Hive-Metaspeicher unterstützen, der auch von Amazon EMR zum Suchen von Daten- und Tabellendefinitionen verwendet wird. Wenn Sie Amazon EMR verwenden und bereits ein Hive-Metaspeicher zur Verfügung steht, müssen Sie für die Verwendung dieses Speichers nur noch Ihren Amazon Redshift-Cluster konfigurieren. Dann können Sie sofort mit dem Abfragen dieser Daten und mit dem Ausführen Ihrer Amazon EMR-Aufträge beginnen.

F: Was spricht für Amazon Redshift und gegen die Ausführung eines eigenen MPR Data Warehouse-Clusters in Amazon EC2?

Amazon Redshift übernimmt automatisch viele der zeitaufwendigen Aufgaben bei der Verwaltung eines eigenen Data Warehouse, wie z. B.:

  • Einrichtung: Bei Amazon Redshift können Sie einfach einen Data Warehouse-Cluster erstellen, Ihr Schema definieren und mit dem Laden und Abfragen Ihrer Daten beginnen. Sie müssen sich nicht um die Bereitstellung, Konfiguration und Einspielung von Patches kümmern.
  • Datenbeständigkeit: Amazon Redshift repliziert Ihre Daten in Ihrem Data Warehouse-Cluster und sichert diese fortlaufend in Amazon S3, das auf eine Beständigkeit von 99,999999999 % ausgelegt ist. Amazon Redshift spiegelt die Daten jedes Laufwerks auf andere Knoten im Cluster. Bei Ausfall eines Laufwerks werden Ihre Abfragen mit einer kurzen Latenzerhöhung weiter verarbeitet, während Redshift Ihr Laufwerk anhand von Replikaten neu erstellt. Bei einem Ausfall von Knoten stellt Amazon Redshift automatisch neue Knoten bereit und beginnt mit der Wiederherstellung von Daten von anderen Laufwerken im Cluster oder aus Amazon S3. Priorität liegt auf der Wiederherstellung der am häufigsten abgefragten Daten, damit Ihre am meisten ausgeführten Abfragen schnell wieder zu nutzen sind.
  • Skalierung: Bei sich ändernden Kapazität- oder Leistungsanforderungen können Sie über einen einzelnen API-Aufruf und einige wenige Klicks in der AWS Management Console Ihrem Amazon Redshift Data Warehouse Knoten hinzufügen oder daraus entfernen.
  • Automatische Updates und Patches: Amazon Redshift spielt Updates und Patches automatisch in Ihr Data Warehouse ein, sodass Sie sich auf Ihre Anwendung und nicht auf deren Verwaltung konzentrieren können.
  • Abfragefunktion in Exabyte-Größe: Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zu Exabyte-Größe in Amazon S3 abzufragen.

Zurück zum Seitenanfang »

F: Wie wird mir die Nutzung von Amazon Redshift in Rechnung gestellt?

Sie zahlen nur für das, was Sie tatsächlich nutzen. Es gibt keine Mindest- oder Einrichtungsgebühren. Ihre Nutzung wird folgendermaßen abgerechnet:

  • Rechenknotenstunden – Die Gesamtanzahl von Stunden, die alle Ihre Rechenknoten im Abrechnungszeitraum ausgeführt werden. Die Fakturierung erfolgt für 1 Einheit pro Knoten pro Stunde. Wenn beispielsweise ein Data Warehouse-Cluster mit 3 Knoten einen ganzen Monat dauerhaft betrieben wird, fallen 2160 Instance-Stunden an. Für Hauptknotenstunden fallen im Gegensatz zu Rechenknoten keine Gebühren an.
  • Sicherungsspeicher – Sicherungsspeicher ist der Speicher für die automatischen und manuellen Snapshots Ihres Data Warehouse. Wenn Sie die Aufbewahrungszeit Ihrer Sicherungen erhöhen oder zusätzliche Snapshots erstellen, belegt Ihr Data Warehouse entsprechend mehr Sicherungsspeicher. Für Backup-Speicher bis zu 100 % des bereitgestellten Speichers für einen aktiven Data Warehouse-Cluster fallen keine zusätzlichen Gebühren an. Wenn Sie beispielsweise einen aktiven Data Warehouse-Cluster vom Typ "Single Node XL" mit 2 TB lokalem Instance-Speicher nutzen, stellen wir ohne Aufpreis bis zu 2 TB Sicherungsspeicher pro Monat bereit. Sicherungsspeicher über die bereitgestellte Speichergröße hinaus und Sicherungen, die nach der Kündigung des Clusters gespeichert werden, werden zu Amazon S3-Standardtarifen berechnet.
  • Datenübertragung – Es gibt keine Datenübertragungskosten für Daten, die zu oder von Amazon Redshift und Amazon S3 innerhalb der gleichen AWS-Region übertragen werden. Für alle anderen Datenübertragungen in und aus Amazon Redshift werden Ihnen die standardmäßigen AWS-Datenübertragungspreise in Rechnung gestellt.
  • Gescannte Daten – Mit Redshift Spectrum wird Ihnen die Menge an Amazon S3-Daten in Rechnung gestellt, die zum Ausführen Ihrer Abfrage gescannt werden. Wenn Sie keine Abfragen ausführen, fallen keine Kosten für Redshift Spectrum an. Wenn Sie Daten in einem Spaltenformat speichern, beispielsweise Parquet oder RC, werden die Kosten gesenkt, da Redshift Spectrum nur die für die Abfrage erforderlichen Spalten scannt, anstatt vollständige Zeilen zu verarbeiten. Wenn Sie darüber hinaus Ihre Daten mithilfe eines der von Redshift Spectrum unterstützten Formate komprimieren, sinken Ihre Kosten ebenfalls. Sie zahlen die Amazon S3-Standardpreise für Datenspeicherung und die Amazon Redshift-Instance-Preise für den verwendeten Cluster.

Preisinformationen zu Amazon Redshift finden Sie auf der Seite mit den Preisen von Amazon Redshift.

F: Wann beginnt und endet die Fakturierung meiner Amazon Redshift Data Warehouse-Cluster?

Die Fakturierung eines Data Warehouse-Clusters beginnt zu dem Zeitpunkt, ab dem der Data Warehouse-Cluster verfügbar ist. Die Fakturierung wird so lange fortgesetzt, bis der Data Warehouse-Cluster durch Löschen oder aufgrund eines Instance-Ausfalls beendet wird.

F: Wie werden abrechenbare Amazon Redshift-Instance-Stunden definiert?

Die Abrechnung erfolgt für jede Stunde, die der Data Warehouse-Cluster in einem verfügbaren Zustand ausgeführt wird. Wenn für Ihren Data Warehouse-Cluster keine weiteren Gebühren entstehen sollen, müssen Sie ihn beenden, damit keine weiteren Knotenstunden berechnet werden. Angefangene Knoten-Stunden werden als volle Stunden in Rechnung gestellt.

F: Sind Steuern bereits in den Preisen enthalten?

Falls nicht anders angegeben, gelten unsere Preise zuzüglich anfallender Steuern und Abgaben, u. a. MwSt. und Umsatzsteuer. Bei Kunden mit japanischer Rechnungsadresse unterliegt die Nutzung von AWS-Services der japanischen Verbrauchssteuer. Weitere Informationen.

Zurück zum Seitenanfang »


F: Wie werden Daten in mein Amazon Redshift Data Warehouse geladen?

Sie können Daten aus verschiedenen Datenquellen in Amazon Redshift laden, z. B. Amazon S3, Amazon DynamoDB, Amazon EMR, AWS Data Pipeline und von SSH-fähigen Hosts in Amazon EC2 oder in lokalen Bereitstellungen. Amazon Redshift versucht, die Daten parallel in die einzelnen Rechenknoten zu laden, um die Rate zu maximieren, mit der Daten in Ihrem Data Warehouse-Cluster aufgenommen werden können. Weitere Details zum Laden von Daten in Amazon Redshift finden Sie in unserem Handbuch "Erste Schritte".

F: Können Daten mit der SQL-Anweisung INSERT geladen werden?

Ja, Clients können sich über ODBC oder JDBC mit Amazon Redshift verbinden und den SQL-Befehl INSERT aufrufen, um die Daten einzufügen. Beachten Sie, dass dies langsamer als bei Verwenden von S3 oder DynamoDB erfolgt, da dabei Daten parallel auf alle Rechenknoten geladen werden, während bei der SQL-Anweisung INSERT Daten über die zentralen Hauptknoten geladen werden.

F: Wie lade ich Daten aus meinen vorhandenen Amazon RDS-, Amazon EMR-, Amazon DynamoDB- und Amazon EC2-Datenquellen in Amazon Redshift?

Sie können unseren COPY-Befehl verwenden, um Daten parallel aus Amazon EMR, Amazon DynamoDB oder jedem anderen SSH-fähigen Host direkt in Amazon Redshift zu laden. Redshift Spectrum ermöglicht Ihnen außerdem das Laden von Daten aus Amazon S3 in Ihren Cluster mit einem einfachen INSERT INTO-Befehl. Auf diese Weise können Sie u. U. Daten in verschiedenen Formaten wie Parquet und RC in Ihren Cluster laden. Beachten Sie, dass beim Verwenden dieses Ansatzes Redshift Spectrum-Gebühren für die aus Amazon S3 gescannten Daten anfallen.

Darüber hinaus haben viele Anbieter von ETL-Lösungen Amazon Redshift für die Nutzung mit ihren Tools zertifiziert, und eine Reihe von ihnen bietet kostenlose Testversionen an, um Ihnen die ersten Schritte beim Laden Ihrer Daten zu erleichtern. AWS Data Pipeline ist eine leistungsfähige, zuverlässige und fehlertolerante Lösung zum Laden von Daten aus einer Vielzahl von AWS-Datenquellen. Sie können mithilfe von AWS Data Pipeline die Datenquelle und gewünschten Datenumwandlungen angeben und anschließend über ein vorbereitetes Importskript Ihren Daten in Amazon Redshift importieren. Ebenso ist AWS Glue ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der das Vorbereiten und Laden von Daten zu Analysezwecken erleichtert. Sie können AWS Glue ETL-Aufträge mit wenigen Mausklicks in der AWS Managementkonsole erstellen und ausführen.

F: Die Datenmenge für meinen ersten Ladevorgang in Amazon Redshift ist sehr groß. Die Übertragung über das Internet würde sehr lange dauern. Wie lade ich diese Daten?

Sie können die Daten über AWS Import/Export und tragbare Speichergeräte in Amazon S3 übertragen. Darüber hinaus können Sie mithilfe von AWS Direct Connect eine private Netzwerkverbindung zwischen Ihrem Netzwerk bzw. Rechenzentrum und AWS einrichten. Zum Übertragen Ihrer Daten stehen Verbindungs-Ports mit 1 Gbit/s oder 10 Gbit/s zur Auswahl.

Zurück zum Seitenanfang »


F: Wie schützt Amazon Redshift meine Daten?

Amazon Redshift verschlüsselt Ihre Daten mithilfe Branchenstandards entsprechenden Verschlüsselungsmethoden, sodass diese während der Übertragung und am Speicherort sicher sind. Zum Schutz von Daten währen der Übertragung unterstützt Amazon Redshift SSL-Verbindungen zwischen Ihrer Client-Anwendung und Ihrem Redshift Data Warehouse-Cluster. Damit Ihre gespeicherten Daten sicher sind, verschlüsselt Amazon Redshift jeden Block mithilfe des hardwarebeschleunigten AES-256-Verfahrens, während diese auf den Datenträger geschrieben werden. Dieser Vorgang erfolgt auf einer unteren Ebene im E/A-Subsystem, wobei alle auf den Datenträger geschriebenen Daten verschlüsselt werden, so auch Zwischenergebnisse von Abfragen. Die Blöcke werden wie vorhanden gesichert, was bedeutet, dass Sicherungen auch verschlüsselt sind. Amazon Redshift übernimmt standardmäßig die Schlüsselverwaltung, aber Sie können Ihre Schlüssel auch mit Ihren eigenen Hardware Security Modules (HSMs) oder über AWS Key Management Service verwalten.

Redshift Spectrum unterstützt die serverseitige Verschlüsselung (Server Side Encryption, SSE) von Amazon S3 mithilfe des Standardschlüssels Ihres Kontos, der vom AWS Key Management Service (KMS) verwaltet wird.

F: Kann ich Amazon Redshift in Amazon Virtual Private Cloud (Amazon VPC) verwenden?

Ja, Amazon Redshift kann als Teil Ihrer VPC-Konfiguration verwendet werden. Mit Amazon VPC können Sie eine virtuelle Netzwerkarchitektur definieren, die weitgehend einem herkömmlichen Netzwerk entspricht, wie Sie es in Ihrem Rechenzentrum betreiben. Dadurch haben Sie die vollständige Kontrolle über den Zugriff auf Ihren Amazon Redshift Data Warehouse-Cluster.

Sie können Redshift Spectrum mit einem Amazon Redshift-Cluster verwenden, der Teil Ihrer VPC ist. Beachten Sie, dass Redshift Spectrum erweitertes VPC-Routing derzeit nicht unterstützt.

F: Kann ich auf meine Amazon Redshift-Rechenknoten direkt zugreifen?

Nein. Ihre Amazon Redshift-Rechenknoten befinden sich in einem privaten Netzwerkbereich, auf den nur über den Hauptknoten Ihres Data Warehouse-Clusters zugegriffen werden kann. Dies sorgt für eine zusätzliche Sicherheitsebene für Ihre Daten.

Zurück zum Seitenanfang »


F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein Laufwerk in einem meiner Knoten ausfällt?

Bei einem Laufwerkausfall bleibt Ihr Amazon Redshift Data Warehouse-Cluster verfügbar. Es kann jedoch bei bestimmten Abfragen zu geringfügigen Leistungseinbußen kommen. Wenn ein Laufwerk ausfällt, nutzt Amazon Redshift unbemerkt ein Replikat der Daten auf diesen Laufwerk, das auf anderen Laufwerken innerhalb dieses Knotens gespeichert ist. Darüber hinaus versucht Amazon Redshift, Ihre Daten auf ein funktionierendes Laufwerk zu verschieben oder Ihren Knoten auszutauschen, falls dies nicht möglich ist. Cluster mit einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein einzelner Knoten ausfällt?

Amazon Redshift erkennt automatisch, wenn ein Knoten in Ihrem Data Warehouse-Cluster ausfällt, und tauscht diesen aus. Der Data Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt den Ersatzknoten sofort zur Verfügung und lädt zunächst Ihre Daten aus S3, auf die am meisten zugegriffen wird, damit Sie schnellstmöglich das Abfragen Ihrer Daten fortsetzen können. Cluster mit einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn die Availability Zone (AZ) meines Data Warehouse-Clusters ausfällt?

Wenn die Availability Zone (AZ) Ihres Amazon Redshift Data Warehouse-Clusters ausfällt, können Sie den Cluster erst wieder nutzen, nachdem die Stromversorgung und der Netzwerkzugriff auf die AZ wiederhergestellt wurden. Die Daten in Ihrem Data Warehouse-Cluster bleiben erhalten, sodass Sie Ihr Amazon Redshift Data Warehouse nutzen können, sobald die AZ wieder verfügbar ist. Darüber hinaus können Sie auch vorhandene Snapshots in einer neuen AZ in derselben Region wiederherstellen. Amazon Redshift stellt zuerst die Daten her, auf die am meisten zugegriffen wird, damit Sie Abfragen schnellstmöglich fortsetzen können.

F: Unterstützt Amazon Redshift Multi-AZ-Bereitstellungen?

Derzeit unterstützt Amazon Redshift nur Single-AZ-Bereitstellungen. Sie können Data Warehouse-Cluster in mehreren AZs ausführen, indem Sie anhand derselben Menge von Amazon S3-Eingabedateien Daten in zwei Amazon Redshift Data Warehouse-Cluster in getrennten AZs laden. Mit Redshift Spectrum können Sie mehrere Cluster in verschiedenen AZs einrichten und auf Daten in Amazon S3 zugreifen, ohne sie in Ihren Cluster laden zu müssen. Darüber hinaus können Sie auch einen Data Warehouse-Cluster in einer anderen AZ aus den Snapshots Ihres Data Warehouse-Clusters wiederherstellen.

Zurück zum Seitenanfang »


F: Wie sichert Amazon Redshift meine Daten?

Amazon Redshift repliziert alle Ihre Daten innerhalb Ihres Data Warehouse-Clusters, wenn diese geladen werden, und sichert außerdem Ihre Daten fortlaufend in S3. Amazon Redshift versucht stets, mindestens drei Kopien Ihrer Daten beizubehalten (das Original und ein Replikat auf den Rechenknoten und eine Sicherung in Amazon S3). Redshift kann zum Zweck der Notfallwiederherstellung Ihre Snapshots auch asynchron in S3 in einer anderen Region replizieren.

F: Wie lange bewahrt Amazon Redshift Sicherungen auf? Ist dieser Zeitraum einstellbar?

Standardmäßig bewahrt Amazon Redshift Sicherungen 1 Tag auf. Die maximale Aufbewahrungsdauer ist 35 Tage.

F: Wie stelle ich meinen Amazon Redshift Data Warehouse-Cluster aus einer Sicherung wieder her?

Innerhalb Ihres Aufbewahrungszeitfensters für Sicherungen können Sie auf alle automatisch erfolgten Sicherungen zugreifen. Nachdem Sie eine wiederherzustellende Sicherung ausgewählt haben, stellen wir einen neuen Data Warehouse-Cluster bereit, in dem Ihre Daten wiederhergestellt werden.

F: Muss ich Sicherungen für meinen Data Warehouse-Cluster aktivieren oder geschieht dies automatisch?

Die automatische Sicherung Ihres Data Warehouse-Clusters ist in Amazon Redshift standardmäßig aktiviert. Es gilt ein Aufbewahrungszeitraum von einem Tag. Der kostenlose Speicher für Sicherungen ist auf die Gesamtgröße des Speichers auf den Knoten im Data Warehouse-Cluster begrenzt und gilt nur für aktive Data Warehouse-Cluster. Wenn Sie beispielsweise über einen Data Warehouse-Speicher von insgesamt 8 TB verfügen, bieten wir Ihnen ohne Aufpreis maximal 8 TB Speicher für Sicherungen. Nach Wunsch können Sie den Aufbewahrungszeitraum für Backups mithilfe der AWS Management Console oder  Amazon Redshift-APIs verlängern. Weitere Informationen zu automatischen Snapshots finden Sie im Amazon Redshift-Management-Guide. Amazon Redshift sichert nur Daten, die sich geändert haben, sodass die meisten Snapshots nur einen kleinen Bereich Ihres kostenlosen Speichers für Sicherungen belegen.

F: Wie verwalte ich die Aufbewahrung meiner automatischen Sicherungen und Snapshots?

Mithilfe der AWS Management Console oder der "ModifyCluster"-API können Sie den Aufbewahrungszeitraum für automatische Sicherungen verwalten, indem Sie den "RetentionPeriod"-Parameter ändern. Wenn Sie automatische Sicherungen vollständig deaktivieren möchten (was nicht empfohlen wird), setzen Sie den Aufbewahrungszeitraum auf 0.

F: Was passiert mit meinen Sicherungen, wenn ich meinen Data Warehouse-Cluster lösche?

Beim Löschen eines Data Warehouse-Clusters können Sie angeben, ob ein letzter Snapshot erstellt werden soll, mit dem der gelöschte Data Warehouse-Cluster zu einem späteren Zeitpunkt wiederhergestellt werden kann. Alle zuvor manuell erstellten Snapshots Ihres Data Warehouse-Clusters werden aufbewahrt und Ihnen zu den Amazon S3-Standardtarifen in Rechnung gestellt, es sei denn, Sie löschen sie.

Zurück zum Seitenanfang »


F: Wie passe ich Größe und Leistung meines Amazon Redshift Data Warehouse-Clusters an?

Wenn Sie die Abfrageleistung steigern oder auf eine CPU-, Arbeitsspeicher- oder E/A-Überlastung reagieren möchten, können Sie über die AWS Management Console oder "ModifyCluster"-API die Anzahl der Knoten in Ihrem Data Warehouse-Cluster erhöhen. Alle gewünschten Änderungen am Data Warehouse-Cluster erfolgen unmittelbar. Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon Redshift Data Warehouse-Clusters stehen über die AWS Management Console oder Amazon CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon CloudWatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen.

Mit Redshift Spectrum können Sie mehrere Amazon Redshift-Cluster ausführen, die auf die gleichen Daten in Amazon S3 zugreifen. Sie können unterschiedliche Cluster für unterschiedliche Anwendungsfälle verwenden. Sie können beispielsweise einen Cluster für die Standard-Berichterstellung und einen anderen für wissenschaftliche Datenabfragen verwenden. Ihr Marketingteam kann einen eigenen Cluster verwenden, der sich von dem Ihres Betriebsteams unterscheidet. Je nach Typ und Knotenanzahl in Ihrem lokalen Cluster und der Anzahl der Dateien, die zum Verarbeiten Ihrer Abfrage erforderlich ist, verteilt Redshift Spectrum die Ausführung der Abfrage automatisch an mehrere Redshift Spectrum-Workers in einem gemeinsam genutzten Ressourcenpool, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und sendet Ergebnisse zurück in den Amazon Redshift-Cluster, wo sie weiterverarbeitet werden.

F: Ist mein Data Warehouse-Cluster während der Skalierung weiterhin verfügbar?

Der bestehende Data Warehouse-Cluster bleibt für Lesevorgänge verfügbar, während ein neuer Data Warehouse-Cluster während der Skalierungsvorgänge erstellt wird. Sobald der neue Data Warehouse-Cluster bereit ist, steht der bestehende Data Warehouse-Cluster vorübergehend nicht zur Verfügung, während der CNAME-Eintrag (Canonical Name) des bestehenden Data Warehouse-Clusters auf den neuen Data Warehouse-Cluster umgeschaltet wird. Die Nichtverfügbarkeit währt in der Regel nur wenige Minuten und erfolgt innerhalb des Wartungsfensters für Ihren Data Warehouse-Cluster, es sei denn, Sie legen fest, dass die Änderung sofort durchgeführt werden soll. Amazon Redshift verschiebt Daten parallel von den Rechenknoten in Ihrem vorhandenen Data Warehouse-Cluster auf die Rechenknoten im neuen Cluster. Dadurch kann der Vorgang so schnell wie möglich abgeschlossen werden.

Zurück zum Seitenanfang »


F: Ist Amazon Redshift mit meinen bevorzugten Business Intelligence (BI)-Softwarepaketen und ETL-Tools (Extrahieren, Transformieren, Laden) kompatibel?

Amazon Redshift arbeitet mit branchenüblicher SQL und der Zugriff erfolgt über JDBC- und ODBC-Standardtreiber. Sie können von der Registerkarte "Connect Client" unserer Konsole unsere benutzerdefinierten Amazon Redshift JDBC- und ODBC-Treibern herunterladen. Wir haben Integrationen bei einer Reihe beliebter Anbieter von BI- und ETL-Lösungen validiert, von denen wiederum einige kostenlose Testversionen anbieten, um Ihnen die ersten Schritte beim Laden und Analysieren von Daten zu erleichtern. Ferner haben Sie auch im AWS Marketplace die Möglichkeit zum Bereitstellen und Konfigurieren von Lösungen, die für die Zusammenarbeit mit Amazon Redshift innerhalb von Minuten ausgelegt sind.

F: Welche Arten von Abfragen unterstützt Redshift Spectrum?

Sie verwenden genau dieselbe Abfragesyntax und dieselben Abfragefunktionen zum Zugreifen auf Tabellen in Redshift Spectrum wie für Tabellen im lokalen Speicher Ihres Clusters. Externe Tabellen werden mithilfe des Schemanamens referenziert, der im CREATE EXTERNAL SCHEMA-Befehl definiert wird, wo die Tabellen registriert wurden.

F: Was geschieht, wenn eine Tabelle in meinem lokalen Speicher den gleichen Namen wie eine externe Tabelle hat?

Wie bei den lokalen Tabellen können Sie den Schemanamen verwenden, um exakt auszuwählen, welche Tabelle Sie meinen. Dazu verwenden Sie in Ihrer Abfrage "schema_name.table_name".

F: Welche BI-Tools und SQL-Clients unterstützt Redshift Spectrum?

Redshift Spectrum unterstützt alle Amazon Redshift-Clienttools. Die Clienttools können mithilfe von ODBC- oder JDBC-Verbindungen weiterhin eine Verbindung zum Amazon Redshift-Cluster-Endpunkt herstellen. Änderungen sind nicht erforderlich.

F: Welche Datenformate unterstützt Redshift Spectrum?

Redshift Spectrum unterstützt derzeit verschiedene Open Source-Datenformate, einschließlich Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile und TSV.

F: Welche Komprimierungsformate unterstützt Redshift Spectrum?

Redshift Spectrum unterstützt derzeit Gzip- und Snappy-Komprimierung.

F: Ich verwende einen Hive-Metaspeicher zum Speichern von Metadaten über meinen S3-Data Lake. Kann ich Redshift Spectrum verwenden?

Ja. Der CREATE EXTERNAL SCHEMA-Befehl unterstützt Hive-Metaspeicher. Derzeit wird DDL nicht für Hive-Metaspeicher unterstützt.

F: Wie erhalte ich eine Liste mit allen externen Datenbanktabellen, die in meinem Cluster erstellt wurden?

Sie können Sie Systemtabelle SVV_EXTERNAL_TABLES abfragen, um diese Informationen zu erhalten.


F: Wie überwache ich die Leistung meines Amazon Redshift Data Warehouse-Clusters?

Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon Redshift Data Warehouse-Clusters stehen über die AWS Management Console oder Amazon CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon Cloudwatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen. Zusätzlich zu CloudWatch-Metriken bietet Amazon Redshift auch über die AWS Management Console Informationen zur Abfrage- und Cluster-Leistung. Anhand dieser Informationen können Sie erkennen, welche Benutzer und Abfragen die meisten Systemressourcen belegen und Leistungsprobleme untersuchen. Darüber hinaus können Sie die Ressourcenauslastung auf allen Rechenknoten erkennen, um sicherzustellen, dass Daten und Abfragen gleichmäßig auf alle Knoten verteilt sind.

F: Ich bemerke, dass einige Abfragen, die auf Daten in meinem Cluster zugreifen, langsamer als meine Redshift Spectrum-Abfragen ausgeführt werden. Warum ist das so?

Amazon Redshift-Abfragen werden auf Ihren Clusterressourcen auf dem lokalen Datenträger ausgeführt. Redshift Spectrum-Abfragen werden mithilfe von Ressourcen, die für jede Abfrage skaliert werden, für Daten in S3 ausgeführt. Bei den meisten Abfragen ist der lokale Datenträger schneller, aber bei Abfragen, die viele Daten scannen und nur eine minimale Datenverarbeitung erfordern, können viele Redshift Spectrum-Workers angewendet und die Abfragen schnell abgeschlossen werden.


F: Was ist ein Wartungs- bzw. Aktualisierungsfenster? Steht meine Data Warehouse-Cluster während der Softwarewartung zur Verfügung?

Zur Installation von Programmkorrekturen, Verbesserungen und neuen Funktionen in Ihrem Cluster führt Amazon Redshift regelmäßig Wartungen aus. Das geplante Wartungsfenster für Ihr Cluster können Sie programmatisch oder über die Amazon Redshift-Konsole ändern. Während der Wartungsfenster steht Ihr Amazon Redshift-Cluster für den normalen Betrieb nicht zur Verfügung. Weitere Informationen zu Wartungsfenstern und -zeitplänen nach Region finden Sie unter dem Thema Maintenance Windows im Handbuch Amazon Redshift Management.

Zurück zum Seitenanfang »