Allgemeines

Aktuelle Informationen zu Amazon Redshift finden Sie auf der Seite mit den Neuigkeiten.
Ausführlichere Informationen und Orientierungshilfe zur Nutzung finden Sie in der Dokumentation.

F: Was ist Amazon Redshift?

Amazon Redshift ist ein vollständig verwaltetes, skalierbares Cloud-Data-Warehouse, das Ihnen durch schnelle, einfache und sichere Analysen in großem Umfang schnellere Einblicke ermöglicht. Tausende von Kunden verlassen sich auf Amazon Redshift, um Daten von Terabytes bis Petabytes zu analysieren und komplexe analytische Abfragen durchzuführen. Sie erhalten Echtzeiteinblicke und prädiktive Analysen für alle Ihre Daten in Ihren operativen Datenbanken, Data Lake, Data Warehouse und Datensätzen von Drittanbietern. Amazon Redshift bietet all dies zu einem Preis, der bis zu dreimal besser ist als der anderer Cloud-Data-Warehouses, und hilft Ihnen, Ihre Kosten prädiktiv zu halten.

Amazon Redshift Serverless macht es Ihnen leicht, Analysen im Petabyte-Ebene in Sekundenschnelle auszuführen, um schnelle Einblicke zu erhalten, ohne dass Sie Ihre Data-Warehouse-Cluster konfigurieren und verwalten müssen. Amazon Redshift Serverless stellt die Data-Warehouse-Kapazität automatisch bereit und skaliert sie, um eine hohe Leistung für anspruchsvolle und unvorhersehbare Workloads zu liefern, und Sie zahlen nur für die genutzten Ressourcen.

F: Was sind die wichtigsten Gründe, warum Kunden Amazon Redshift auswählen?

Tausende von Kunden entscheiden sich für Amazon Redshift, um schneller zu Einblicke zu gelangen, weil es einfach zu bedienen ist, Leistung in jeder Größenordnung bietet und Ihnen die Möglichkeit gibt, alle Ihre Daten zu analysieren. Amazon Redshift ist ein vollständig verwalteter Service und bietet sowohl Bereitstellungs- als auch serverlose Optionen, die es Ihnen leicht machen, Analysen auszuführen und zu skalieren, ohne Ihr Data Warehouse verwalten zu müssen. Sie können die bereitgestellte Option für vorhersagbare Workloads wählen oder sich für die Amazon-Redshift-Serverless-Option entscheiden, um die Data-Warehouse-Kapazität automatisch bereitzustellen und zu skalieren und so eine hohe Leistung für anspruchsvolle und unvorhersagbare Workloads zu erzielen. Es bietet Leistung in jeder Größenordnung mit einer bis zu dreimal besseren Preisleistung als andere Cloud Data Warehouses und hilft Ihnen, Ihre Kosten prädiktiv zu halten. Mit Amazon Redshift erhalten Sie Einblicke, indem Sie Echtzeit- und Vorhersageanalysen für alle Ihrer Daten aus Ihren operativen Datenbanken, Data Lake, Data Warehouse und Tausenden von Datensätzen durch Drittanbieter durchführen. Amazon Redshift sorgt für die Sicherheit Ihrer Daten im Ruhezustand und bei der Übertragung und erfüllt interne und externe Compliance-Anforderungen. Es unterstützt branchenführende Sicherheit zum Schutz Ihrer Daten bei der Übertragung und im Ruhezustand und erfüllt die Anforderungen von SOC1, SOC2, SOC3 und PCI DSS Level 1. Alle Sicherheits- und Compliance-Funktionen von Redshift sind ohne Zusatzkosten enthalten.

F: Wie vereinfacht Amazon Redshift die Verwaltung von Data Warehouses?

Amazon Redshift wird vollständig von AWS verwaltet, so dass Sie sich nicht mehr um Verwaltungsaufgaben von Data Warehouse wie Hardware-Bereitstellung, Software-Patching, Einrichtung, Konfiguration, Überwachung von Knoten und Laufwerken zur Wiederherstellung bei Ausfällen oder Sicherungen kümmern müssen. AWS verwaltet die Arbeit, die für die Einrichtung, den Betrieb und die Skalierung eines Data Warehouse erforderlich ist, in Ihrem Namen, sodass Sie sich auf die Entwicklung Ihrer Anwendungen konzentrieren können. Amazon Redshift besitzt auch automatische Optimierungsfunktionen und gibt Empfehlungen für die Verwaltung Ihres Warehouses in Redshift Advisor aus. Amazon Redshift verwaltet für Redshift Spectrum die gesamte Datenverarbeitungsinfrastruktur, das Load Balancing, die Planung, Terminierung und Ausführung der Abfragen für Daten in Amazon S3. Die serverlose Option stellt die Data-Warehouse-Kapazität automatisch bereit und skaliert sie, um eine hohe Leistung für anspruchsvolle und unvorhersehbare Workloads zu liefern, und Sie zahlen nur für die genutzten Ressourcen.

F: Wie ist die Leistung von Amazon Redshift im Vergleich zu anderen Data Warehouses?

Die TPC-DS-Benchmark-Ergebnisse zeigen, dass Amazon Redshift selbst bei einem vergleichsweise kleinen 3-TB-Datensatz die beste Preisleistung bietet. Amazon Redshift bietet eine bis zu 3-fach bessere Preisleistung als andere Cloud Data Warehouses. Das bedeutet, dass Sie von Anfang an von der führenden Preisleistung von Amazon Redshift profitieren können, ohne manuelle Optimierung. Mit Amazon Redshift eine bis zu 3x bessere Preisleistung als andere Cloud Data Warehouses erzielen | AWS Big Data Blog.

Amazon Redshift nutzt eine Reihe von Innovationen, um eine bis zu 10-mal bessere Leistung als herkömmliche Datenbanken für Data-Warehousing- und Analyse-Workloads zu erzielen, einschließlich effizienter, leseoptimierter, spaltenkomprimierter Datenspeicherung mit massiv parallel verarbeitenden (MPP) Rechen-Clustern, die linear auf Hunderte von Knoten skalieren. Anstatt Daten als eine Folge von Zeilen zu speichern, organisiert Amazon Redshift die Daten spaltenweise. Wenn Daten in eine leere Tabelle geladen werden, untersucht Amazon Redshift Ihre Daten automatisch und wählt das geeignetste Komprimierungsschema aus.

Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Es ist kein Laden oder Extract, Transform, Load (ETL) erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zur Exabyte-Größe in Amazon S3 abzufragen. Materialisierte Ansichten bieten eine erheblich schnellere Abfrageleistung für wiederholte und vorhersagbare analytische Workloads wie Dashboards, Abfragen von Business Intelligence (BI)-Tools und ELT-Datenverarbeitung. Mithilfe von materialisierten Ansichten können Sie die vorberechneten Ergebnisse von Abfragen speichern und effizient verwalten, indem Sie die letzten Änderungen an den Quelltabellen schrittweise verarbeiten. Darauffolgende Abfragen, welche die materialisierten Ansichten als Referenz verwenden, nutzen im Voraus berechnete Ergebnisse und werden damit deutlich schneller ausgeführt. Funktionen zur automatischen Aktualisierung und zur Neuverfassung von Abfragen vereinfachen und automatisieren die Nutzung der materialisierten Ansichten. Amazon Redshift erstellt auch automatisch materialisierte Ansichten und bietet damit die gleichen Vorteile wie vom Benutzer erstellte materialisierte Ansichten.

Die Rechen- und Speicherkapazität lokaler Data Warehouses wird durch die lokale Hardware beschränkt. Mit Amazon Redshift können Sie die Rechen- und Speicherkapazität nach Bedarf entsprechend den sich ändernden Workloads unabhängig skalieren. Mit Redshift Managed Storage (RMS) haben Sie jetzt die Möglichkeit, Ihren Speicher auf Petabytes zu skalieren, indem Sie Amazon-S3-Speicher verwenden.

Automatische Tabellenoptimierung (ATO) ist eine selbstoptimierende Funktion, mit der Sie die Leistungsvorteile für den Aufbau von optimalen Sortier- und Verteilungsschlüsseln ohne manuellen Eingriff erreichen können. ATO beobachtet, wie Abfragen mit Tabellen interagieren, und verwendet Machine Learning (ML), um die besten Sortier- und Verteilungsschlüssel auszuwählen und die Leistung für die Workload des Clusters zu optimieren. Dank der Optimierungen von ATO konnte die Cluster-Leistung belegbar um 24 % bis 34 % gesteigert werden, im Vergleich zu einem Cluster ohne ATO. Als Benchmark wurde TPC-DS mit 3 TB und 30 TB verwendet. Weitere Funktionen wie zum Beispiel "Automatic Vacuum Delete", "Automatic Table Sort" und "Automatic Analyze" machen die manuelle Wartung und die Optimierung von Redshift-Clustern überflüssig. So erzielen Sie die beste Leistung für neue Cluster und Produktionsworkloads.

Mit dem Workload-Management können Sie Abfragen an eine Reihe von definierten Warteschlangen weiterleiten, um die Nebenläufigkeit und die Ressourcenauslastung des Clusters zu verwalten. Amazon Redshift bietet heute sowohl automatische als auch manuelle Konfigurationstypen. Bei manuellen WLM-Konfigurationen sind Sie dafür verantwortlich, die Menge an Speicher, die jeder Warteschlange zugewiesen wird, und die maximale Anzahl der Abfragen, die in jeder ihrer Warteschlangen ausgeführt werden können, festzulegen, wobei jede einen Bruchteil dieses Speichers erhält. Manuelle WLM-Konfigurationen passen sich nicht an Änderungen Ihrer Workload an und erfordern eine genaue Kenntnis der Ressourcennutzung Ihrer Abfragen, um richtig zu sein. Bei Amazon Redshift Auto WLM ist es nicht erforderlich, die Speichernutzung oder Nebenläufigkeit für Warteschlangen zu definieren. Stattdessen wird die Nebenläufigkeit dynamisch angepasst, um den Durchsatz zu optimieren. Optional können Sie Warteschlangenprioritäten definieren, um Abfragen eine bevorzugte Ressourcenzuweisung basierend auf Ihre Geschäftspriorität zu geben. Auto WLM bietet außerdem leistungsstarke Tools, mit denen Sie Ihr Workload verwalten können. Mit Abfrageprioritäten können Sie Prioritäten für Workloads definieren, so dass diese in Amazon Redshift bevorzugt behandelt werden, einschließlich mehr Ressourcen in Zeiten hoher Auslastung für eine gleichbleibende Abfrageleistung, und Abfrageüberwachungsregeln bieten Möglichkeiten zur Bewältigung unerwarteter Situationen, wie z. B. das Erkennen und Verhindern von Ausreißern oder teuren Abfragen, die Systemressourcen verbrauchen. Auto WLM mit adaptiver Nebenläufigkeit verbessert die Leistung vor allem in folgenden Bereichen: ordnungsgemäße Zuweisung von Speicher, Beseitigung der statischen Aufteilung des Speichers zwischen Warteschlangen und Verbesserung des Durchsatzes.

Amazon Redshift Advisor entwickelt individuelle Empfehlungen zur Leistungsverbesserung und Kostenoptimierung durch die Analyse Ihrer Workload- und Nutzungsmetriken für Ihren Cluster. Melden Sie sich bei der Amazon-Redshift-Konsole an, um Advisor-Empfehlungen aufzurufen. Weitere Informationen finden Sie unter Arbeiten mit Empfehlungen von Amazon Redshift Advisor.

F: Was sind die ersten Schritte mit Amazon Redshift?

Mit wenigen Mausklicks in der AWS-Managementkonsole können Sie mit der Datenabfrage beginnen. Sie können vorinstallierte Beispieldatensätze, einschließlich Benchmark-Datensätze TPC-H, TPC-DS und adere Beispielabfragen nutzen, um sofort mit der Analyse zu beginnen. Sie können Datenbanken, Schemas, Tabellen erstellen und Daten aus Amazon S3 laden, über Amazon-Redshift-Datenfreigaben oder einen vorhandenen von Amazon Redshift bereitgestellten Cluster-Snapshot wiederherstellen. Sie können auch Daten in offenen Formaten wie Parquet oder ORC, in Amazon-S3-Data-Lakes sowie Abfragedaten in Betriebsdatenbanken wie Amazon Aurora, Amazon RDS PostgreSQL und MySQL direkt abfragen.

Um mit Amazon Redshift Serverless zu beginnen, wählen Sie "Try Amazon Redshift Serverless" (Amazon Redshift Serverless versuchen) und beginnen Sie mit der Datenabfrage. Amazon Redshift Serverless lässt sich automatisch skalieren, um einen Anstieg der Workloads zu bewältigen.

F: Kann ich Hilfe erhalten, um zum Einstieg mehr über Amazon Redshift zu erfahren?

A: Ja, Amazon-Redshift-Spezialisten stehen für Fragen und Support zur Verfügung. Kontaktieren Sie uns und Sie werden innerhalb eines Werktages von uns hören, um zu besprechen, wie AWS Ihrem Unternehmen helfen kann.

F: Was ist verwalteter Amazon Redshift-Speicher?

Verwalteter Amazon-Redshift-Speicher ist bei serverloser RA3-Knotentypen verfügbar. Damit können Sie die Datenverarbeitung und den Speicher unabhängig voneinander skalieren und bezahlen, sodass Sie die Größe des Clusters ausschließlich basierend auf Ihre Rechenbedürfnisse in festlegen können. Es kommt automatisch hochleistungsfähiger SSD-basierter lokaler Speicher als Tier-1-Cache zum Einsatz. Außerdem wird mithilfe von Optimierungen für die Temperatur und das Alter von Datenblöcken sowie für Workload-Muster eine hohe Leistung bereitgestellt. Bei Bedarf wird der Speicher automatisch auf Amazon S3 skaliert, ohne dass ein Eingreifen erforderlich ist.

F: Wie nutze ich den verwalteten Speicher von Amazon Redshift?

Wenn Sie bereits Knoten von Amazon Redshift Dense Storage oder Dense Compute verwenden, können Sie zum Upgrade Ihrer vorhandenen Cluster auf die neue Datenverarbeitungs-Instance RA3, Elastic Resize benutzen. Amazon Redshift Serverless und Cluster, die die RA3-Instance verwenden, nutzen automatisch von Redshift verwalteten Speicher zum Speichern von Daten. Um diese Funktion zu nutzen, sind außer der Verwendung von Amazon-Redshift-Serverless- oder RA3-Instance keine weiteren Maßnahmen erforderlich.

F: Was ist Amazon Redshift Spectrum?

Amazon Redshift Spectrum ist eine Funktion von Amazon Redshift, die es Ihnen ermöglicht Abfragen gegen Ihren Data Lake in Amazon S3 auszuführen, ohne dass Ladevorgänge von Daten oder ETL erforderlich sind. Wenn Sie eine SQL-Abfrage ausgeben, erreicht diese den Amazon-Redshift-Endpunkt, der einen Abfrageplan generiert und optimiert. Amazon Redshift ermittelt, welche Daten lokal gespeichert sind und welche sich in S3 befinden, generiert einen Plan zum Minimieren der zu lesenden Amazon-S3-Datenmenge und fordert Amazon-Redshift-Spectrum-Arbeitsressourcen aus einem freigegebenen Ressourcenpool an, um Daten aus S3 zu lesen und zu verarbeiten.

F: In welchen Fällen empfiehlt sich die Verwendung von RA3-Instances?

In diesen Fällen sollten Sie sich für RA3-Knotentypen entscheiden:

  • Sie brauchen die Flexibilität, die Datenverarbeitung unabhängig vom Speicher zu skalieren und zu bezahlen.
  • Sie fragen einen Bruchteil Ihrer Gesamtdaten ab.
  • Ihr Datenvolumen wächst schnell oder wird voraussichtlich schnell wachsen.
  • Sie möchten die Flexibilität haben, die Größe des Clusters ausschließlich basierend auf Ihren Leistungsanforderungen auszurichten.

Da der Umfang der Daten immer größer wird und Petabytes erreicht, wächst auch die Menge der Daten, die Sie in Ihr Amazon Redshift Data Warehouse aufnehmen. Vielleicht suchen Sie nach Möglichkeiten, alle Ihre Daten kostengünstig zu analysieren.

Bei den neuen Amazon-Redshift-RA3-Instances mit verwaltetem Speicher können Sie die Anzahl der Knoten basierend auf Ihren Leistungsanforderungen wählen und zahlen nur für den verwalteten Speicher, den Sie nutzen. Dies gibt Ihnen die Flexibilität, die Größe Ihres RA3-Clusters basierend auf der täglich verarbeiteten Datenmenge zu bestimmen, ohne Ihre Speicherkosten zu erhöhen. RA3-Instances mit verwaltetem Speicher, die auf dem AWS-Nitro-System basieren, verwenden Hochleistungs-SSDs für Ihre heißen Daten und Amazon S3 für Ihre kalten Daten und bieten so Benutzerfreundlichkeit, kostengünstigen Speicher und schnelle Abfrageleistung.

F: Wann sollte ich Amazon Redshift und wann Amazon RDS?

Sowohl Amazon Redshift als auch Amazon Relational Database Service (RDS) ermöglichen Ihnen bei Auslagerung der Datenbankverwaltung den Betrieb herkömmlicher relationaler Datenbanken in der Cloud. Kunden verwenden Amazon-RDS-Datenbanken primär für Online Transaction Processing (OLTP)-Workloads, während Amazon Redshift hauptsächlich für Berichterstellung und Analyse genutzt wird. OLTP-Workloads erfordern ein schnelles Abfragen spezifischer Informationen und eine Unterstützung für Transaktionen wie das Einfügen, Aktualisieren und Löschen. Deshalb ist Amazon RDS am besten dafür geeignet. Amazon Redshift nutzt die Leistungsfähigkeit und Ressourcen mehrerer Knoten und eine Vielzahl von Optimierungen. Diese ermöglichen im Vergleich zu herkömmlichen Datenbanken für Berichterstellung und Analyse bei sehr großen Datenmengen Verbesserungen in einer ganz neuen Größenordnung. Amazon Redshift bietet eine ausgezeichnete Option zur horizontalen Skalierung bei zunehmender Komplexität der Daten und Abfragen, wenn Sie verhindern möchten, dass die Berichts- und Analyseverarbeitung die Leistung der OLTP-Workload stört. Mit der neuen Funktion für Verbundabfragen können Sie Daten in Ihren Amazon RDS- oder Aurora-Datenbankservices mit Amazon Redshift problemlos abfragen.

F: Wann sollte ich Amazon Redshift oder Redshift Spectrum und wann Amazon EMR verwenden?

Amazon EMR sollten Sie verwenden, wenn Sie benutzerdefinierten Code zum Verarbeiten und Analysieren extrem großer Datensätze mit den Frameworks für Big Data-Verarbeitungen wie beispielsweise Apache Spark, Hadoop, Presto oder Hbase einsetzen. Mit Amazon EMR erhalten Sie die volle Kontrolle über die Konfiguration Ihrer Cluster und die darin installierte Software.

Data Warehouses wie Amazon Redshift wurden für völlig andere Analysetypen entworfen. Data Warehouses sollen Daten aus vielen verschiedenen Quellen zusammenziehen, beispielsweise aus Inventar-, Finanz- und Einzelhandelssystemen. Um sicherzustellen, dass die Berichterstellung im gesamten Unternehmen konsistent erfolgt, speichern Data Warehouses Daten auf hochgradig strukturierte Weise. Diese Struktur erstellt Datenkonsistenzregeln direkt in den Tabellen der Datenbank. Amazon Redshift ist der beste Service, wenn Sie komplexe Abfragen für riesige Sammlungen an strukturierten und halbstrukturierten Daten mit hoher Geschwindigkeit ausführen müssen.

Während die Redshift Spectrum-Funktion hervorragend für das Ausführen von Abfragen für Daten in Amazon Redshift und S3 geeignet ist, ist sie für Anwendungsfälle, in denen Unternehmen normalerweise Verarbeitungsframeworks wie Amazon EMR einsetzen, eher ungeeignet. Amazon EMR bietet viel mehr als nur SQL-Abfragen. Amazon EMR ist ein verwalteter Service, mit dem Sie äußerst große Datensätze mit den neuesten Versionen der beliebten Big Data-Verarbeitungsframeworks wie Spark, Hadoop und Presto auf vollständig anpassbaren Clustern verarbeiten und analysieren können. Mit Amazon EMR können Sie eine Vielzahl von Datenverarbeitungsaufgaben mit horizontaler Skalierung für Anwendungen ausführen, zum Beispiel Machine Learning, Grafikanalysen, Datentransformationen, Daten-Streaming und praktisch alles, was sich codieren lässt.

Sie können Redshift Spectrum mit EMR verwenden. Redshift Spectrum verwendet den gleichen Ansatz zum Speichern von Tabellendefinitionen wie Amazon EMR. Redshift Spectrum kann den gleichen Apache Hive-Metaspeicher unterstützen, der auch von Amazon EMR zum Suchen von Daten- und Tabellendefinitionen verwendet wird. Wenn Sie Amazon EMR verwenden und bereits ein Hive-Metaspeicher zur Verfügung steht, müssen Sie für die Verwendung dieses Speichers nur noch Ihren Amazon Redshift-Cluster konfigurieren. Dann können Sie sofort mit dem Abfragen dieser Daten und mit dem Ausführen der Amazon EMR-Aufträge beginnen. Wenn Sie mit Amazon EMR bereits einen großen Datenspeicher verarbeiten, können Sie daher mit Redshift Spectrum die Daten zum gleichen Zeitpunkt abfragen, ohne dadurch die Amazon EMR-Aufträge zu beeinflussen.

Abfrage-Services, Data Warehouses und komplexe Datenverarbeitungsframeworks haben alle ihren Platz und werden für unterschiedliche Zwecke verwendet. Sie müssen lediglich das richtige Werkzeug für die Aufgabe auswählen.

F: Wann sollte ich Amazon Athena und wann Amazon Redshift Spectrum?

Amazon Athena ist ein interaktiver Abfrageservice, der die Analyse von Daten in Amazon S3 mit Standard-SQL erleichtert. Athena ist benutzerfreundlich. Verweisen Sie einfach auf Ihre Daten in S3, definieren Sie das Schema und starten Sie die Abfrage mit Standard-SQL.

Redshift Spectrum ist eine Funktion von Amazon Redshift. Wenn Sie Daten analysieren müssen, auf die häufig zugegriffen wird, und zwar mit höchster Leistung und strengem Service Level Agreement (SLA), sollten Sie Amazon Redshift verwenden. Sie können Redshift Spectrum verwenden, um Ihre Amazon-Redshift-Abfragen auf weniger häufig genutzte Daten in Ihrem Amazon S3 Data Lake zu erweitern. Damit haben Sie die Möglichkeit, die Daten am von Ihnen bevorzugten Ort und im bevorzugten Format zu speichern, sodass sie Ihnen bei Bedarf für die Verarbeitung zur Verfügung stehen.

F: Was spricht für Amazon Redshift und gegen die Ausführung eines eigenen MPP-Data Warehouse-Clusters in Amazon EC2?

Amazon Redshift übernimmt automatisch viele der zeitaufwendigen Aufgaben bei der Verwaltung eines eigenen Data Warehouse, wie z. B.:
  • Einrichtung: Bei Amazon Redshift können Sie einfach einen Data Warehouse-Cluster erstellen, Ihr Schema definieren und mit dem Laden und Abfragen der Daten beginnen. Um die Bereitstellung, die Konfiguration oder das Einspielen von Patches müssen Sie sich nicht kümmern.
  • Datenbeständigkeit: Amazon Redshift repliziert die Daten in Ihrem Data Warehouse-Cluster und sichert diese fortlaufend in Amazon S3, das auf eine Beständigkeit von 99,999999999 % ausgelegt ist. Amazon Redshift spiegelt die Daten jedes Laufwerks auf andere Knoten im Cluster. Bei Ausfall eines Laufwerks werden Ihre Abfragen mit einer kurzen Latenzerhöhung weiter verarbeitet, während Redshift Ihr Laufwerk anhand von Replikaten neu erstellt. Bei einem Ausfall von Knoten stellt Amazon Redshift automatisch neue Knoten bereit und beginnt mit der Wiederherstellung von Daten von anderen Laufwerken im Cluster oder aus Amazon S3. Priorität liegt auf der Wiederherstellung der am häufigsten abgefragten Daten, damit Ihre am meisten ausgeführten Abfragen schnell wieder zu nutzen sind.
  • Skalierung: Bei sich ändernden Kapazitäts- oder Leistungsanforderungen können Sie über einen einzelnen API-Aufruf und einige wenige Klicks in der AWS-Managementkonsole Ihrem Amazon Redshift Data Warehouse-Cluster Knoten hinzufügen oder daraus entfernen. Außerdem können Sie Ihre Skalierungs- und Größenänderungsvorgänge mithilfe der Scheduler-Funktion in Amazon Redshift koordinieren.
  • Automatische Updates und Patches: Amazon Redshift spielt Updates und Patches automatisch in Ihr Data Warehouse ein, sodass Sie sich auf Ihre Anwendung und nicht auf deren Verwaltung konzentrieren können.
  • Abfragefunktion in Exabyte-Größe: Amazon Redshift Spectrum ermöglicht Ihnen das Ausführen von Abfragen für Exabyte an Daten in Amazon S3. Ladevorgänge oder ETL sind nicht erforderlich. Auch wenn Sie keine Daten in Amazon Redshift speichern, können Sie Redshift Spectrum verwenden, um Datensätze bis zur Exabyte-Größe in Amazon S3 abzufragen.

F: Wie erstelle ich einen Amazon Redshift-Data Warehouse-Cluster und greife darauf zu?

Einen Amazon-Redshift-Data-Warehouse-Cluster können Sie mühelos über die AWS-Managementkonsole oder die Amazon-Redshift-APIs erstellen. Sie können mit einem einzelnen 160 GB großen Data Warehouse und einem Knoten beginnen und über ein paar Mausklicks in der AWS-Konsole oder einen einzigen API-Aufruf eine Skalierung auf bis zu Petabyte und mehr vornehmen.

Durch die Konfiguration mit einem Knoten, die für Beurteilungs- oder Entwicklungs-/Test-Workloads am besten geeignet ist, können Sie schnell und kostengünstig den Betrieb mit Amazon Redshift aufnehmen und bei wachsendem Bedarf auf eine Konfiguration mit mehreren Knoten skalieren. Je nach Knotentyp kann ein Redshift-Data Warehouse-Cluster 1 bis 128 Datenverarbeitungsknoten enthalten. Bei der neuesten Knotentyp-Generation, RA3, ist die Mindestknotenmenge zwei. Details finden Sie in der Dokumentation.

Die Konfiguration mit mehreren Knoten erfordert einen Hauptknoten, der die Client-Verbindungen verwaltet und Abfragen empfängt, sowie zwei Datenverarbeitungsknoten, auf denen Daten gespeichert werden und Abfragen sowie Berechnungen erfolgen. Der Hauptknoten, der genauso groß ist wie der Datenverarbeitungsknoten, wird automatisch für Sie eingerichtet, ohne dass Gebühren anfallen.

Sie müssen lediglich (optional) Ihre bevorzugte Availability Zone, die Anzahl und die Typen der Knoten, den Namen und das Kennwort für den primären Knoten, Sicherheitsgruppen, Ihre Einstellungen für die Aufbewahrung von Backups und andere Systemeinstellungen angeben. Nach Wahl der gewünschten Konfiguration stellt Amazon Redshift die benötigten Ressourcen bereit und richtet Ihren Data-Warehouse-Cluster ein.

Sobald Ihr Data Warehouse-Cluster verfügbar ist, können Sie seinen Endpunkt und die JDBC- und ODBC-Verbindungszeichenfolge über die AWS-Managementkonsole oder Redshift-APIs abrufen. Sie können anschließend diese Verbindungszeichenfolge mit dem gewünschten Datenbank- oder Business Intelligence-Tool (BI) bzw. der gewünschten Programmiersprache verwenden. Sie müssen an Ihren ausgeführten Data Warehouse-Cluster gestellte Netzwerkanforderungen autorisieren. Eine detaillierte Erläuterung finden Sie in unserem Handbuch ''Erste Schritte''.

F: Warum sollte ich Amazon Redshift Spatial verwenden?

Amazon Redshift Spatial bietet standortbasierte Analysen für umfassende Einblicke in Ihre Daten. Es integriert nahtlos räumliche und geschäftliche Daten, um Analysen für die Entscheidungsfindung bereitzustellen. Amazon Redshift hat im November 2019 die native Unterstützung für die Verarbeitung räumlicher Daten mit dem polymorphen Datentyp GEOMETRY und mehreren wichtigen räumlichen SQL-Funktionen eingeführt. Wir unterstützen jetzt den Datentyp GEOGRAPHY, und unsere Bibliothek mit räumlichen SQL-Funktionen ist auf 80 gewachsen. Wir unterstützen alle gängigen räumlichen Datentypen und Standards, einschließlich Shapefiles, GeoJSON, WKT, WKB, eWKT und eWKB. Weitere Informationen finden Sie auf der Seite Dokumentation oder auf der Seite Amazon Redshift Spatial Tutorial.

F: Was ist die Leistungsverbesserung von kalten Abfragen und was tut Amazon Redshift, um die Leistung von kalten Abfragen zu verbessern?

Amazon Redshift kann Abfragen bis zu zweimal schneller verarbeiten, wenn sie kompiliert werden müssen. Diese Verbesserung ermöglicht eine höhere Abfrageleistung beim Erstellen eines neuen Redshift-Clusters, beim Einbinden einer neuen Workload in einem vorhandenen Cluster oder nach einem Softwareupdate eines vorhandenen Clusters. Die Verbesserungen der Abfrageleistung stehen Ihnen ohne Mehrkosten zur Verfügung und Sie müssen nichts unternehmen, um sie in Ihren Clustern zu aktivieren.

Mit der Leistungsverbesserung für kalte Abfragen werden Abfragekompilierungen, die über die Datenverarbeitungsressourcen des Führungsknotens Ihres Clusters hinausgehen, zu einem Serverless-Kompilierungs-Service skaliert. Amazon Redshift unterstüzt einen unbegrenzten Cache zum Speichern kompilierter Objekte frei. Somit werden die Cache-Treffer von 99,60 % auf 99,95 % erhöht, wenn Ihre geschäftskritischen Abfragen an Amazon Redshift übermittelt werden.

Wenn Abfragen an Amazon Redshift gesendet werden, kompiliert die Abfrageausführungs-Engine die Abfragen in Maschinencode und verteilt sie an die Clusterknoten. Der kompilierte Code wird schneller ausgeführt, da er die Verwendung eines Interpreters eliminiert. Bei einem neuen Cluster ohne Code-Cache, oder nachdem ein vorhandener Cluster mit der neuesten Version aktualisiert wird, wird der Code-Cache geleert und Abfragen müssen einer Abfragekompilierung unterzogen werden. Daher variiert die Latenz der Abfrage, die möglicherweise nicht den Anforderungen einiger Workloads entspricht. Mit diesem Update minimiert unbegrenzter Cache den Bedarf, Code zu kompilieren. Wenn so eine Kompilierung erforderlich ist, kompiliert eine skalierbare Kompilierungsfarm ihn parallel, um Ihre Workloads zu beschleunigen. Der Umfang der Geschwindigkeitssteigerung hängt von der Komplexität der Workloads und der Nebenläufigkeit ab. Weitere Informationen zur Codekompilierung finden Sie im Abfrageverarbeitung im Handbuch für Datenbankentwickler.

Serverless

F: Was ist Amazon Redshift Serverless (vorschau)?

Amazon Redshift Serverless (Vorschau) ist eine serverlose Option von Amazon Redshift, mit der sich Analysen in wenigen Sekunden ausführen und skalieren lassen, ohne eine Data-Warehouse-Infrastruktur einrichten und verwalten zu müssen. Mit Redshift Serverless kann jeder Benutzer - einschließlich Datenanalysten, Entwickler, Geschäftsexperten und Datenwissenschaftler - durch einfaches Laden und Abfragen von Daten im Data Warehouse Einblicke in die Daten erhalten.

F: Was sind die ersten Schritte mit Amazon Redshift Serverless (Vorschau)?

Mit ganz wenigen Klicks in der AWS-Managementkonsole können Sie „Amazon Redshift Serverless konfigurieren“ wählen und mit der Abfrage von Daten beginnen. Sie können vorinstallierte Beispieldatensätze, wie Wetterdaten, Census Data und Benchmark-Datensätze zusammen mit Beispielabfragen nutzen, um sofort mit der Analyse zu beginnen. Sie können Datenbanken, Schemas, Tabellen erstellen und Ihre eigenen Daten aus Amazon S3 laden, über Amazon-Redshift-Datenfreigaben auf Daten zugreifen oder einen vorhandenen von Redshift bereitgestellten Cluster-Snapshot wiederherstellen. Sie können auch Daten in offenen Formaten wie Parquet oder ORC, in Amazon-S3-Data-Lakes sowie Abfragedaten in Betriebsdatenbanken wie Amazon Aurora und Amazon RDS PostgreSQL und MySQL direkt abfragen.

Q: Welche Möglichkeiten bietet Amazon Redshift Serverless ( Vorschau)?

Amazon Redshift Serverless bietet Ihnen zahlreiche Vorteile, einschließlich:

  • Die Möglichkeit, schnell Einblicke zu gewinnen, ohne Cluster bereitstellen und verwalten zu müssen.
  • Intelligente und automatische Skalierung basierend auf den Workload-Anforderungen, ohne dass Sie Ressourcen übermäßig bereitstellen müssen.
  • Kontinuierliche Serviceverfügbarkeit für Skalierung und Versionsaktualisierungen.
  • Schnelle, sofort einsatzbereite Abfrageleistung sowohl für im Data Warehouse geladene Daten, offene Formate im Amazon S3 Data Lake als auch für Daten in operativen Datenbanken, ohne dass eine Datenbankoptimierung erforderlich ist.
  • Umfangreiche SQL-Analysen, Haltbarkeit und Transaktionsgarantien von Amazon Redshift.
  • Kosteneffizienz, da nur für die genutzte Kapazität gezahlt wird und die Komplexität des Data Warehouse reduziert wird.

F: Was sind die Vorteile der Verwendung von Amazon Redshift Serverless (Vorschau)?

Wenn Sie keine Erfahrung mit der Verwaltung von Data Warehouses haben, müssen Sie sich nicht um das Einrichten, Konfigurieren, Verwalten von Clustern oder Abstimmen des Warehouses kümmern. Sie können sich darauf konzentrieren, aus Ihren Daten aussagekräftige Einblicke zu gewinnen oder mithilfe von Daten Ihre wichtigsten geschäftlichen Ergebnisse zu erzielen. Sie zahlen nur für das, was Sie nutzen, wodurch die Kosten überschaubar bleiben. Sie profitieren weiterhin von der erstklassigen Leistung von Amazon Redshift, den umfangreichen SQL-Funktionen, der nahtlosen Integration mit Data Lakes und operativen Data Warehouses sowie den integrierten Funktionen für prädiktive Analysen und Datenfreigabe. Wenn Sie eine differenzierte Kontrolle über Ihr Data Warehouse benötigen, können Sie Redshift-Cluster bereitstellen.

Q: Wie funktioniert Amazon Redshift Serverless (Vorschau) mit anderen AWS-Services?

Sie können weiterhin alle umfangreichen Analysefunktionen von Amazon Redshift nutzen, wie z. B. komplexe Verknüpfungen, direkte Abfragen von Daten im Amazon S3 Data Lake und in operativen Datenbanken, materialisierte Ansichten, gespeicherte Prozeduren, Unterstützung für halbstrukturierte Daten und ML sowie hohe Leistung im großen Maßstab. Alle zugehörigen Services, mit denen Amazon Redshift integriert ist (wie Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation und AWS Glue), funktionieren weiterhin mit Amazon Redshift Serverless.

Q: Welche Anwendungsfälle kann ich mit Amazon Redshift Serverless ( Vorschau) bearbeiten?

Sie können weiterhin alle analytischen Anwendungsfälle ausführen. Mit einem einfachen Workflow für die ersten Schritte, automatischer Skalierung und der Möglichkeit, für die Nutzung zu bezahlen, macht Amazon Redshift Serverless die Ausführung von Entwicklungs- und Testumgebungen, die schnell gestartet werden müssen, Ad-hoc-Geschäftsanalysen, Arbeitslasten mit variierenden und unvorhersehbaren Rechenanforderungen und intermittierenden oder sporadischen Arbeitslasten jetzt noch einfacher und kostengünstiger.

Q: Wie unterscheidet sich Amazon Athena von Amazon Redshift Serverless?

Amazon Athena und Amazon Redshift adressieren unterschiedliche Anforderungen und Anwendungsfälle, auch wenn beide Services serverlos sind. Ein Data Warehouse wie Amazon Redshift ist die beste Wahl, wenn Sie die beste Preisleistung für komplexe BI- und Analyse-Workloads benötigen, die eine hohe Leistung in jedem Maßstab erfordern. Amazon Redshift bietet auch die Möglichkeit, in Amazon S3 gespeicherte Daten abzufragen und mit im Data Warehouse gespeicherten Daten zu kombinieren. Im Vergleich dazu eignet sich Athena besser für die interaktive Analyse eines beliebigen Datenspeichers, ohne dass Sie sich um das Einlesen und Formatieren von Daten kümmern müssen. Die Athena-Analyse ist von der Speicherung entkoppelt, sodass Sie die Flexibilität haben, andere Tools und Services wie Spark, Flink und Kafka zu verwenden, um die Analyse und Datenverarbeitung derselben von Athena analysierten Daten weiter zu verbessern.

Data Sharing

F: Was ist die Amazon-Redshift-Datenfreigabe?

Amazon-Redshift-Datenfreigabe ermöglicht Ihnen die Freigabe von Live-Daten in Amazon Redshift, um Daten für Lesezwecke sicher und einfach mit anderen Redshift-Clustern innerhalb von AWS-Konten und über AWS-Konten hinweg sowie mit AWS-Analyseservices über den Data Lake zu teilen. Mit der Datenfreigabe können Sie sofort Live-Daten von einem beliebigen Redshift-Cluster abfragen, sofern dieser über Zugriffsberechtigungen verfügt, ohne die Komplexität und Verzögerungen, die mit Datenkopien und Datenbewegungen verbunden sind. Mit Amazon Redshift können Sie Live-Daten unternehmens-, konten- und sogar regionenübergreifend freigeben und abfragen.

F: Was sind die Anwendungsfälle für die gemeinsame Nutzung von Daten?

Zu den wichtigsten Anwendungsfällen gehören:

  • Ein zentraler ETL-Cluster, der Daten mit vielen BI/Analyse-Clustern gemeinsam nutzt, um eine Isolierung der Lese-Workload und optionale Abrechenbarkeit zu gewährleisten.
  • Ein Datenanbieter, der Daten für externe Verbraucher bereitstellt.
  • Gemeinsame Nutzung von Datensätzen wie Kunden und Produkten durch verschiedene Unternehmensgruppen und Zusammenarbeit für umfassende Analysen und Datenwissenschaft.
  • Dezentralisierung einer Data Warehouse zur Vereinfachung der Verwaltung.
  • Gemeinsame Nutzung von Daten zwischen Entwicklungs-, Test- und Produktionsumgebungen.
  • Zugriff auf Redshift-Daten von anderen AWS-Analyseservices aus.

F: Was sind Datenbank-übergreifende Abfragen in Amazon Redshift?

Mit datenbankübergreifenden Abfragen können Sie Daten aus einer beliebigen Redshift-Datenbank, auf die Sie Zugriff haben, nahtlos abfragen und zusammenführen, und zwar unabhängig davon, mit welcher Datenbank Sie verbunden sind. Dabei kann es sich um lokale Datenbanken auf dem Cluster und auch um freigegebene Datasets handeln, die über Remote-Cluster bereitgestellt werden. Datenbankübergreifende Abfragen ermöglichen Ihnen die Flexiblität, Daten als separate Datenbanken zu organisieren, um Konfigurationen mit mehreren Mandanten zu unterstützen.

F: Was ist AWS Data Exchange for Amazon Redshift?

AWS Data Exchange for Amazon Redshift ermöglicht es Ihnen, Daten von Drittanbietern in AWS Data Exchange zu finden und zu abonnieren, die Sie in einem Redshift Data Warehouse in wenigen Minuten abfragen können. Sie können Ihre Daten in Amazon Redshift auch einfach über AWS Data Exchange lizenzieren. Der Zugriff wird automatisch gewährt, wenn ein Kunde Ihre Daten abonniert, und automatisch widerrufen, wenn sein Abonnement endet. Rechnungen werden automatisch erstellt, und Zahlungen werden automatisch eingezogen und über AWS ausgezahlt. Diese Funktion ermöglicht es Ihnen, Daten von Drittanbietern schnell abzufragen, zu analysieren und Anwendungen darauf aufzubauen.

Q: Wer sind die Hauptnutzer von AWS Data Exchange?

AWS Data Exchange macht es AWS-Kunden leicht, Daten von Drittanbietern in AWS sicher auszutauschen und zu nutzen. Datenanalysten, Produktmanager, Portfoliomanager, Datenwissenschaftler, Quants, Techniker für klinische Studien und Entwickler in fast jeder Branche hätten gerne Zugriff auf mehr Daten, um Analysen voranzutreiben, ML-Modelle zu trainieren und datengesteuerte Entscheidungen zu treffen. Es gibt jedoch keinen zentralen Ort, an dem man Daten von mehreren Anbietern finden kann, und keine einheitliche Methode, wie Anbieter Daten bereitstellen, sodass sie mit einer Mischung aus versendeten physischen Medien, FTP-Anmeldeinformationen und maßgeschneiderten API-Aufrufen zurechtkommen müssen. Umgekehrt würden viele Organisationen ihre Daten gerne für Forschungs- oder kommerzielle Zwecke zur Verfügung stellen, aber es ist zu schwierig und teuer, Datenbereitstellungs-, Berechtigungs- und Abrechnungstechnologien zu entwickeln und zu pflegen, was das Angebot an wertvollen Daten weiter einschränkt.

F: In welchen AWS-Regionen ist AWS Data Exchange verfügbar?

AWS Data Exchange verfügt über einen einzigen, weltweit verfügbaren Produktkatalog, der nach Anbietern geordnet ist. Sie können denselben Katalog sehen, unabhängig davon, welche Region Sie verwenden. Die dem Produkt zugrunde liegenden Ressourcen (Datensätze, Revisionen und Komponente) sind regionale Ressourcen, die Sie programmatisch oder über die AWS-Data-Exchange-Konsole in bestimmten AWS-Regionen verwalten. Eine Liste der AWS-Regionen, in denen AWS Data Exchange zurzeit verfügbar ist, finden Sie in der Tabelle mit der regionalen AWS-Verfügbarkeit.

Q: Was ist der Unterschied zwischen AWS Data Exchange und der Registry of Open Data on AWS?

Es gibt fünf Hauptunterschiede zwischen AWS Data Exchange und der Registry of Open Data on AWS:

  • Erstens unterstützt AWS Data Exchange sowohl kostenlose als auch kommerzielle Datenprodukte, wobei alle anfallenden kommerziellen Gebühren auf Ihre AWS-Rechnung angewendet werden. Über die Registry of Open Data on AWS haben Sie Zugriff auf eine kuratierte Liste kostenloser und offener Datensätze. 
  • Zweitens müssen Sie bei AWS Data Exchange ausdrücklich dem Datenabonnement-Vertrag zustimmen, der die Bedingungen enthält, die der Datenanbieter bei der Veröffentlichung seines Produkts festgelegt hat. Für die Daten in der Registry of Open Data on AWS gibt es keine Nutzungsbestimmungen. 
  • Drittens müssen Sie die AWS-Data-Exchange-API verwenden, um Daten aus AWS Data Exchange an den gewünschten Amazon-S3-Speicherort zu kopieren. Der Zugriff auf die Datensätze der Registry of Open Data on AWS erfolgt über S3-APIs. 
  • Viertens bietet AWS Data Exchange Datenanbietern Zugang zu täglichen, wöchentlichen und monatlichen Berichten mit detaillierten Angaben zur Abonnementaktivität. Bei der Registry of Open Data on AWS müssen die Datenanbieter ihre eigenen Protokolle analysieren, um die Nutzung der Daten zu verfolgen. 
  • Um ein Datenanbieter auf AWS Data Exchange zu werden, müssen sich qualifizierte Kunden als Datenanbieter auf AWS Marketplace registrieren, um sowohl kostenlose als auch kommerzielle Produkte auflisten zu können. Jeder Kunde kann jedoch über GitHub kostenlose Daten zur Registry of Open Data on AWS hinzufügen und sich beim AWS Public Dataset Program bewerben, damit AWS die Kosten für Speicherung und Bandbreite für ausgewählte offene Datensätze sponsert.

Q: Was ist Amazon Redshift Query Editor V2?

Amazon Redshift Query Editor v2 ist eine webbasierte SQL-Client-Anwendung, mit der Sie Abfragen für Ihr Redshift Data Warehouse erstellen und ausführen können. Sie können Abfrageergebnisse mit Diagrammen visualisieren und mit Mitgliedern Ihres Teams zusammenarbeiten, indem Sie Abfragen teilen. Query Editor v2 bietet mehrere Funktionen, wie z. B. die Möglichkeit, mehrere Datenbanken, externe Tabellen, Ansichten, gespeicherte Verfahren und benutzerdefinierte Funktionen zu durchsuchen und zu untersuchen. Er bietet Assistenten zum Erstellen von Schemata, Tabellen und benutzerdefinierten Funktionen. Sie können auch Daten in Amazon Redshift von Amazon S3 mit einem visuellen Assistenten laden. Es vereinfacht die Verwaltung und Zusammenarbeit von gespeicherten Abfragen. Sie können auch schnellere Einblicke gewinnen, indem Sie die Ergebnisse mit einem einzigen Klick visualisieren. Mit der neuesten Vorschauversion können Datenanalysten ihre Abfragen gemeinsam nutzen und über eine gemeinsame Schnittstelle, das sogenannte Query Doc, zusammenarbeiten, in das sie Code/SQL-Abfragen, Anmerkungen, Ergebnisse und Visualisierungen einbetten können.

Q: Warum sollte ich Query Editor V2 verwenden?

Wenn Sie Datenanalyst, Datenwissenschaftler oder Dateningenieur sind, können Sie jetzt mit Query Editor V2 über eine webbasierte Schnittstelle Daten durchsuchen, Schemata und Tabellen erstellen, Daten laden und SQL-Abfragen, gespeicherte Verfahren und UDFs erstellen. Sie können auch eine visuelle Analyse der Daten vor Ort durchführen, ohne das Tool verlassen zu müssen. Sie können auch Ihre langfristige Abfragen oder Abfragen für einen einfachen Berichtszweck wie die tägliche Berichterstattung planen.

Q: Welche Funktionen bietet der Query Editor v2?

Query Editor v2 ermöglicht Ihnen folgendes:

  • Visuelles Erstellen von Schemata und Tabellen sowie das Laden von Daten aus Amazon S3.
  • Erstellen Sie Abfragen und gewinnen Sie mit einem intuitiven Editor für die Erstellung von SQL-Abfragen schnellere Einblicke.
  • Analysieren Sie die Ergebnisse und laden Sie die Ergebnisse im JSON/CSV-Format auf Ihren Desktop herunter.
  • Verwalten Sie automatisch verschiedene Versionen von Abfragen.
  • Arbeiten Sie mit anderen Benutzern zusammen, um Abfragen, Analysen und Ergebnisse gemeinsam zu nutzen.
  • Führen Sie Abfragen im Hintergrund aus, auch wenn der Browser geschlossen ist.

Skalierbarkeit und Nebenläufigkeit

F: Wie passe ich Größe und Leistung meines Amazon-Redshift-Data-Warehouse-Clusters an?

Wenn Sie die Abfrageleistung steigern oder auf eine CPU-, Arbeitsspeicher- oder I/O-Überlastung reagieren möchten, können Sie über die AWS-Managementkonsole oder ModifyCluster-API die Anzahl der Knoten in Ihrem Data Warehouse-Cluster erhöhen. Alle gewünschten Änderungen am Data-Warehouse-Cluster erfolgen unmittelbar. Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Redshift-Data-Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon-CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon-CloudWatch-Funktionalität für benutzerdefinierte Metriken können Sie auch eigene Metriken hinzufügen.

Mithilfe der Funktion zur Nebenläufigkeitsskalierung können Sie im Prinzip eine unbegrenzte Anzahl gleichzeitiger Benutzer und Abfragen mit gleichbleibend hoher Abfragegeschwindigkeit unterstützen. Wenn die Nebenläufigkeitssskalierung aktiviert ist, fügt Amazon Redshift automatisch Cluster-Kapazität hinzu, wenn Ihr Cluster einen Anstieg der Abfrage-Warteschlangen verzeichnet.

Mit Amazon Redshift Spectrum können Sie mehrere Redshift-Cluster ausführen, die auf die gleichen Daten in Amazon S3 zugreifen. Sie können unterschiedliche Cluster für unterschiedliche Anwendungsfälle verwenden. Sie können beispielsweise einen Cluster für die Standard-Berichterstellung und einen anderen für wissenschaftliche Datenabfragen verwenden. Ihr Marketingteam kann einen eigenen Cluster verwenden, der sich von dem Ihres Betriebsteams unterscheidet. Redshift Spectrum verteilt die Ausführung einer Abfrage automatisch an mehrere Redshift Spectrum-Arbeitsressourcen aus einem gemeinsam genutzten Ressourcenpool, um Daten aus Amazon S3 zu lesen und zu verarbeiten, und sendet Ergebnisse zurück in den Redshift-Cluster, wo sie weiterverarbeitet werden.

F: Ist mein Data-Warehouse-Cluster während der Skalierung weiterhin verfügbar?

Das hängt davon ab. Wenn Sie die Funktion zur Nebenläufigkeitsskalierung verwenden, steht der Cluster währenddessen vollständig für Lese- und Schreibvorgänge zur Verfügung. Bei der elastischen Größenänderung steht der Cluster während des Vorgangs vier bis acht Minuten lang nicht zur Verfügung. Bei der Redshift-RA3-Speicherelastizität im verwalteten Speicher steht der Cluster vollständig zur Verfügung. Die Daten werden automatisch zwischen dem verwalteten Speicher und den Datenverarbeitungsknoten verschoben.

F: Wann sollte ich die Nebenläufigkeitsskalierung und wann die Datenfreigabe verwenden?

Die Datenfreigabe und die Nebenläufigkeitsskalierung ergänzen sich. Dank der Nebenläufigkeitsskalierung können Sie mit Amazon Redshift eine oder mehrere Workloads in einem einzigen Cluster skalieren, um hohe Nebenläufigkeit und Abfragespitzen zu bewältigen. Amazon Redshift erhöht die Kapazität elastisch und automatisch in Sekunden, um Spitzenlasten der Benutzeraktivität zu bewältigen, und verringert sie wieder, wenn die Aktivität abgeklungen ist. Die Anwendungen interagieren weiterhin mit Amazon Redshift über einen einzigen Anwendungsendpunkt. Die Datenfreigabe ermöglicht die Skalierung auf unterschiedliche Workloads mit Implementierungen mit mehreren Clustern und Konten. Dadurch werden Workload-Isolierung und Rückbuchbarkeit, gruppenübergreifende Zusammenarbeit in dezentralen Umgebungen und die Möglichkeit bereitgestellt, internen und externen Beteiligten Data as a Service anzubieten. Sie können die Nebenläufigkeitsskalierung auf Produzenten- und Verbraucher-Clustern mit Datenfreigabe aktivieren.

F: Wie kann ich Ressourcen verwalten, um sicherzustellen, dass mein Amazon-Redshift-Cluster in Zeiträumen mit gleichzeitigen Downloads dauerhaft hohe Leistung zur Nebenläufigkeitsverabeitung bietet?

Ein typisches Data Warehouse zeigt deutliche Abweichungen bei der Abfragenutzung im Verlauf eines Tages. Statt einer Bereitstellung von Ressourcen für Bedarfsspitzen ist es kosteneffizienter, Ressourcen nur für den jeweiligen Zeitraum hinzuzufügen, in dem sie gebraucht werden. Amazon Redshift wickelt das automatisch für Sie ab.

Nebenläufigkeitsskalierung ist eine Funktion in Amazon Redshift, die eine gleichbleibend hohe Abfrageleistung auch bei Tausenden von gleichzeitigen Abfragen bietet. Mit dieser Funktion bietet Amazon Redshift automatisch vorübergehende Kapazitäten, wenn diese benötigt werden, um hohe Anforderungen erfüllen zu können. Amazon Redshift leitet Ihre Abfragen automatisch an skalierte Cluster weiter, die in Sekunden bereitgestellt werden und unmittelbar mit der Verarbeitung von Abfragen beginnen.

Diese Funktion ist für einen Großteil der Kunden kostenlos. Jeder Amazon Redshift Cluster erhält pro Tag bis zu einer Stunde an kostenlosen Credits für die Nebenläufigkeitsskalierung. Dadurch sind die monatlichen Kosten für Sie vorhersehbar und das sogar in Zeiträumen mit schwankendem Analysebedarf.

F: Was ist die elastische Größenänderung und wie unterscheidet sie sich von der Nebenläufigkeitsskalierung?

Die elastische Größenänderung entfernt oder fügt zur Verwaltung des Abfragedurchsatzes in Minuten Knoten von einem einzelnen Redshift-Cluster hinzu. Beispielsweise sind eventuell für den rechtzeitigen Abschluss einer ETL-Workload für bestimmte Stunden in einem Tages- oder Monatsendbericht zusätzliche Amazon-Redshift-Ressourcen erforderlich. Mit der Nebenläufigkeitsskalierung werden zusätzliche Cluster-Ressourcen hinzugefügt, um die gesamte Nebenläufigkeitsverarbeitung von Abfragen zu erhöhen.

F: Habe ich direkten Zugriff auf die Nebenläufigkeitsskalierungs-Cluster?

Nein, die Nebenläufigkeitsskalierung greift auf einen hochskalierbaren Pool aus Amazon-Redshift-Ressourcen zurück, auf die Kunden keinen direkten Zugriff haben.

Datenintegration und -ladevorgänge

F: Wie werden Daten in mein Amazon Redshift-Data Warehouse geladen?

Sie können Daten aus verschiedenen Datenquellen in Amazon Redshift laden, darunter aus Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline und aus SSH-fähigen Hosts in Amazon EC2 oder in lokalen Bereitstellungen. Amazon Redshift versucht, die Daten parallel in die einzelnen Datenverarbeitungsknoten zu laden, um die Rate zu maximieren, mit der Daten in Ihrem Data Warehouse-Cluster aufgenommen werden können. Clients können sich über ODBC oder JDBC mit Amazon Redshift verbinden und den SQL-Befehl "INSERT" aufrufen, um die Daten einzufügen. Beachten Sie, dass dies langsamer als beim Verwenden von S3 oder DynamoDB erfolgt, da dabei Daten parallel auf alle Datenverarbeitungsknoten geladen werden, während bei der SQL-Anweisung INSERT Daten über den zentralen Hauptknoten geladen werden. Weitere Details zum Laden von Daten in Amazon Redshift finden Sie in unserem Handbuch „Erste Schritte“.

F: Wie lade ich Daten aus meinen vorhandenen Amazon RDS-, Amazon EMR-, Amazon DynamoDB- und Amazon EC2-Datenquellen in Amazon Redshift?

Sie können unseren COPY-Befehl verwenden, um Daten parallel aus Amazon EMR, Amazon DynamoDB oder jedem anderen SSH-fähigen Host direkt in Amazon Redshift zu laden. Amazon Redshift Spectrum ermöglicht Ihnen außerdem das Laden von Daten aus Amazon S3 in Ihren Cluster mit einem einfachen INSERT-INTO-Befehl. Auf diese Weise können Sie u. U. Daten in verschiedenen Formaten wie Parquet und ORC in Ihren Cluster laden. Beachten Sie, dass beim Verwenden dieses Ansatzes Redshift Spectrum-Gebühren für die aus Amazon S3 gescannten Daten anfallen. 

AWS Data Pipeline stellt eine leistungsfähige, zuverlässige und fehlertolerante Lösung zum Laden von Daten aus einer Vielzahl von AWS-Datenquellen dar, von Amazon RDS bis Redshift. Sie können mithilfe von AWS Data Pipeline die Datenquelle und gewünschten Datenumwandlungen angeben und anschließend über ein vorbereitetes Importskript Ihre Daten in Amazon Redshift laden. Außerdem ist AWS Glue ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der das Vorbereiten und Laden von Daten zu Analysezwecken erleichtert. Sie können AWS Glue ETL-Aufträge mit wenigen Mausklicks in der AWS-Managementkonsole erstellen und ausführen. Darüber hinaus haben viele Anbieter von ETL-Lösungen Amazon Redshift für die Nutzung mit ihren Tools zertifiziert, und eine Reihe von ihnen bietet kostenlose Testversionen an, um Ihnen die ersten Schritte beim Laden Ihrer Daten zu erleichtern. Einige dieser Funktionen haben auch eine tiefere Integration mit der Redshift-Konsole implementiert, um die Erkennung und Überwachung von Data Pipelines in Amazon Redshift aus einer Vielzahl von Drittanbieterquellen zu erleichtern.

F: Die Datenmenge für meinen ersten Ladevorgang in Amazon Redshift ist sehr groß. Die Übertragung über das Internet würde sehr lange dauern. Wie lade ich diese Daten?

Sie können die Daten über AWS Snowball und tragbare Speichergeräte in Amazon S3 übertragen. Darüber hinaus können Sie mithilfe von AWS Direct Connect eine private Netzwerkverbindung zwischen Ihrem Netzwerk bzw. Rechenzentrum und AWS einrichten. Zum Übertragen der Daten stehen Verbindungs-Ports mit 1 Gbit/s oder 10 Gbit/s zur Auswahl.

Sicherheit

F: Wie schützt Amazon Redshift meine Daten?

Amazon Redshift gewährleistet branchenführende Sicherheit: Durch die eingebaute Integration in AWS IAM, den Identitätsverbund für Single Sign-On (SSO), die Multifaktor-Authentifizierung, die Zugriffskontrolle auf Spaltenebene, Sicherheit auf Zeilenebene, die Amazon Virtual Private Cloud (Amazon VPC) sowie die eingebaute AWS KMS-Integration werden die Daten während der Übertragung und am Speicherort geschützt. Amazon Redshift verschlüsselt Ihre Daten mithilfe Branchenstandards entsprechenden Verschlüsselungsmethoden, sodass diese während der Übertragung und am Speicherort sicher sind. Zum Schutz von Daten währen der Übertragung unterstützt Amazon Redshift SSL-Verbindungen zwischen Ihrer Client-Anwendung und Ihrem Redshift Data Warehouse-Cluster. Damit Ihre gespeicherten Daten sicher sind, verschlüsselt Amazon Redshift jeden Block mithilfe des hardwarebeschleunigten AES-256-Verfahrens, während diese auf den Datenträger geschrieben werden. Dieser Vorgang erfolgt auf einer unteren Ebene im I/O-Subsystem, wobei alle auf den Datenträger geschriebenen Daten verschlüsselt werden, so auch Zwischenergebnisse von Abfragen. Die Blöcke werden wie vorhanden gesichert, was bedeutet, dass Backups ebenfalls verschlüsselt sind. Amazon Redshift übernimmt standardmäßig die Schlüsselverwaltung, Sie können die Schlüssel wahlweise aber auch über den AWS Key Management Service verwalten. Alle Sicherheitsfunktionen von Amazon Redshift werden ohne Zusatzkosten angeboten. Redshift Spectrum unterstützt die serverseitige Verschlüsselung (Server Side Encryption, SSE) von Amazon S3 mithilfe des Standardschlüssels Ihres Kontos, der vom AWS Key Management Service (KMS) verwaltet wird.

F: Unterstützt Redshift präzise Zugriffskontrollen, zum Beispiel Sicherheit auf Spaltenebene?

Ja, Amazon Redshift bietet Unterstützung für rollenbasierte Zugriffskontrolle an. Die Zugriffskontrolle auf Zeilenebene ermöglicht es Ihnen, einem Benutzer eine oder mehrere Rollen zuzuweisen und System- und Objektberechtigungen nach Rollen zu vergeben. Sie können fertige Systemrollen verwenden – Root User, DBA, Operator und Security Admins – oder Ihre eigenen Rollen erstellen.

F: Unterstützt Amazon Redshift Data Masking oder Daten-Tokenisierung?

Mit den benutzerdefinierten Funktionen (UDFs) von AWS Lambda können Sie eine AWS-Lambda-Funktion als UDF in Amazon Redshift verwenden und sie aus Redshift SQL-Abfragen heraus abrufen. Diese Funktionalität ermöglicht es Ihnen, benutzerdefinierte Erweiterungen für Ihre SQL-Abfrage zu schreiben, um eine engere Integration in andere Services oder Produkte von Drittanbietern zu erreichen. Sie können Lambda-UDFs schreiben, um in Abfragezeit externe Tokenisierung, Data Masking und die Identifizierung oder Deidentifizierung von Daten zu ermöglichen, indem Sie Anbieter wie Protegrity integrieren, und den Schutz vertraulicher Daten je nach den Berechtigungen und Gruppen eines Nutzers einschalten oder aufheben.

F: Unterstützt Amazon Redshift Single Sign-On?

Ja. Kunden, die ihre Corporate-Identity-Anbieter wie Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate oder andere SAML-konforme Identitätsanbieter nutzen möchten, können Amazon Redshift so konfigurieren, dass Single Sign-On bereitgestellt wird.

F: Wie unterstützt Amazon Redshift Single Sign-On mit Microsoft Azure Active Directory?

Sie können sich mit Microsoft Azure AD-Identitäten (Active Directory) beim Amazon Redshift-Cluster anmelden. So können Sie sich bei Redshift anmelden, ohne die Azure Active Directory-Identitäten in Redshift zu duplizieren.

F: Unterstützt Amazon Redshift die Multi-Factor Authentication (MFA, Multifaktor-Authentifizierung)?

Ja. Mit MFA können Sie bei der Authentifizierung gegenüber dem Amazon Redshift-Cluster für zusätzliche Sicherheit sorgen.

F: Kann ich Amazon Redshift in Amazon Virtual Private Cloud (Amazon VPC) verwenden?

Ja. Amazon Redshift kann als Teil Ihrer VPC-Konfiguration verwendet werden. Mit Amazon VPC können Sie eine virtuelle Netzwerktopologie definieren, die weitgehend einem herkömmlichen Netzwerk entspricht, wie Sie es in Ihrem Rechenzentrum betreiben. Dadurch haben Sie die vollständige Kontrolle über den Zugriff auf Ihren Redshift-Data-Warehouse-Cluster. Sie können Redshift Spectrum mit einem Redshift-Cluster verwenden, der Teil Ihrer Amazon-VPC ist.

Amazon Redshift unterstützt verwaltete VPC-Endpunkte (Powered by AWS PrivateLink), um eine Verbindung zu Ihrem Redshift-Cluster in einer VPC herzustellen. Mit einem von Redshift verwalteten Endpunkt können Sie von Ihren Client-Anwendungen in einer anderen VPC innerhalb desselben oder eines anderen AWS-Kontos aus privat auf Ihr Amazon-Redshift-Data-Warehouse in Ihrer VPC zugreifen und lokal ausführen, ohne öffentliche IP-Adressen zu verwenden oder Datenverkehr zu benötigen, der das Internet durchquert.

F: Kann ich auf meine Amazon-Redshift-Datenverarbeitungsknoten direkt zugreifen?

Ihre Amazon Redshift-Rechenknoten befinden sich in einem privaten Netzwerkbereich, auf den nur über den Hauptknoten Ihres Data Warehouse-Clusters zugegriffen werden kann. Dies sorgt für eine zusätzliche Sicherheitsebene für Ihre Daten.

F: Unterstützt Redshift eine rollenbasierte Zugriffskontrolle in der Datenbank? (Vorankündigung)

Amazon Redshift wird bald Unterstützung für rollenbasierte Zugriffskontrolle bieten.

Verfügbarkeit und Beständigkeit

F: Wie steht es um die Verfügbarkeit meines Data-Warehouse-Clusters und die Datenbeständigkeit, wenn ein Laufwerk in einem meiner Knoten ausfällt?

Amazon Redshift erkennt in diesen Fällen einen Laufwerks- oder Knotenausfall und ersetzt den Cluster-Knoten automatisch. Bei Clustern von Dense Compute (DC) und Dense Storage (DS2) werden die Daten auf den Rechenknoten gespeichert, um eine hohe Datenbeständigkeit zu gewährleisten. Wenn ein Knoten ersetzt wird, werden die Daten von der Spiegelkopie auf dem anderen Knoten aktualisiert.

RA3-Cluster und Redshift Serverless sind nicht auf die gleiche Weise betroffen, da die Daten in Amazon S3 gespeichert werden und das lokale Laufwerk nur als Daten-Cache verwendet wird. Im Falle eines Knotenaustauschs werden die Daten von Amazon S3 abgerufen. Amazon S3 bietet eine 99,9999%ige Garantie für die Haltbarkeit der Daten. Im Falle eines Ausfalls mehrerer Knoten oder eines kompletten Clusters steht eine aktuelle Kopie der Daten in S3 zur Verfügung und der Cluster kann in derselben oder einer anderen AZ ohne Datenverlust wiederhergestellt werden.

Der Data Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt Ihren Ersatzknoten sofort zur Verfügung und lädt Ihre Daten, auf die am häufigsten zugegriffen wird, aus Amazon S3 auf RA3 und serverlos sowie aus dem Spiegel auf DS2 und Amazon Dense Compute (DC2). DC2 und DS2 Cluster mit nur einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. RA3.XLPLUS-Cluster mit einem einzelnen Knoten können mit Hilfe von AWS Support unter Verwendung der in S3 gespeicherten Daten ohne Datenverlust neu erstellt werden. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen,um die Verfügbarkeit zu maximieren.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn ein einzelner Knoten ausfällt?

Amazon Redshift erkennt automatisch, wenn ein Knoten in Ihrem Data Warehouse-Cluster ausfällt, und tauscht diesen aus. Der Data Warehouse-Cluster steht für Abfragen und Aktualisierungen erst wieder zur Verfügung, nachdem ein Ersatzknoten bereitgestellt und der Datenbank hinzugefügt wurde. Amazon Redshift stellt den Ersatzknoten sofort zur Verfügung und lädt zunächst Ihre Daten aus S3, auf die am meisten zugegriffen wird, damit Sie schnellstmöglich das Abfragen Ihrer Daten fortsetzen können. Cluster mit nur einem Knoten unterstützen keine Replikation von Daten. Bei einem Laufwerksausfall müssen Sie den Cluster aus einem Snapshot in S3 wiederherstellen. Wir empfehlen, für die Produktionsumgebung mindestens zwei Knoten einzusetzen.

F: Wie steht es um die Verfügbarkeit meines Data Warehouse-Clusters und die Datenbeständigkeit, wenn die Availability Zone (AZ) meines Data Warehouse-Clusters ausfällt?

Wenn die Availability Zone des Clusters Ihres Amazon Redshift Data Warehouses nicht verfügbar ist, verlagert Amazon Redshift Ihren Cluster automatisch in eine andere AWS Availability Zone (AZ), und zwar ohne Datenverlust und Änderungen an den Anwendungen. Zur Aktivierung müssen Sie die Funktion für die Verlagerung in den Einstellungen der Cluster-Konfiguration aktivieren.

F: Unterstützt Amazon Redshift Multi-AZ-Bereitstellungen?

Derzeit unterstützt Amazon Redshift nur Single-Region-Bereitstellungen. Um eine Notfallwiederherstellungs (DR)-Konfiguration einzurichten, können Sie die regionsübergreifende Kopie von Snapshots in Ihrem Cluster aktivieren. Dadurch werden alle Snapshots Ihres Clusters in einer anderen AWS-Region repliziert. Im Falle eines DR-Ereignisses können die Snapshots in der Replikationsregion wiederhergestellt werden, um einen neuen Cluster zu erstellen. Amazon Redshift unterstützt auch die regionenübergreifende Datenfreigabe, bei der ein Verbraucher-Cluster auf Live-Daten in einem Erzeuger-Cluster in einer anderen Region zugreifen kann. Dies wird nur mit Amazon Redshift Serverless und RA3 unterstützt.

Abfragen und Analysen

F: Sind Amazon Redshift und Redshift Spectrum mit meinen bevorzugten Business Intelligence (BI)-Softwarepaketen und ETL-Tools (Extrahieren, Transformieren, Laden) kompatibel?

Ja, Amazon Redshift arbeitet mit branchenüblicher SQL und der Zugriff erfolgt über JDBC- und ODBC-Standardtreiber. Sie können von der Registerkarte "Connect Client" der Redshift-Konsole unsere benutzerdefinierten Amazon Redshift JDBC- und ODBC-Treiber herunterladen. Wir haben Integrationen bei einer Reihe beliebter Anbieter von BI- und ETL-Lösungen validiert, von denen wiederum einige kostenlose Testversionen anbieten, um Ihnen die ersten Schritte beim Laden und Analysieren von Daten zu erleichtern. Ferner haben Sie auch im AWS Marketplace die Möglichkeit zum Bereitstellen und Konfigurieren von Lösungen, die für die Zusammenarbeit mit Amazon Redshift innerhalb von Minuten ausgelegt sind.

Amazon Redshift Spectrum unterstützt alle Amazon Redshift-Clienttools. Die Clienttools können mithilfe von ODBC- oder JDBC-Verbindungen weiterhin eine Verbindung zum Amazon Redshift-Cluster-Endpunkt herstellen. Änderungen sind nicht erforderlich.

Sie verwenden genau dieselbe Abfragesyntax und dieselben Abfragefunktionen zum Zugreifen auf Tabellen in Redshift Spectrum wie für Tabellen im lokalen Speicher Ihres Redshift-Clusters. Externe Tabellen werden mithilfe des Schemanamens referenziert, der im CREATE EXTERNAL SCHEMA-Befehl definiert wird, wo die Tabellen registriert wurden.

F: Welche Daten- und Komprimierungsformate unterstützt Amazon Redshift Spectrum?

Amazon Redshift Spectrum unterstützt derzeit viele Open Source-Datenformate, darunter Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text und TSV.

Amazon Redshift Spectrum unterstützt derzeit Gzip- und Snappy-Komprimierung.

F: Was geschieht, wenn eine Tabelle in meinem lokalen Speicher den gleichen Namen wie eine externe Tabelle hat?

Wie bei den lokalen Tabellen können Sie den Schemanamen verwenden, um exakt auszuwählen, welche Tabelle Sie meinen. Dazu verwenden Sie in Ihrer Abfrage „schema_name.table_name“.

F: Ich verwende einen Hive-Metaspeicher zum Speichern von Metadaten über meinen S3-Data Lake. Kann ich Redshift Spectrum verwenden?

Ja. Der CREATE EXTERNAL SCHEMA-Befehl unterstützt Hive-Metaspeicher. Derzeit wird DDL nicht für Hive-Metaspeicher unterstützt.

F: Wie erhalte ich eine Liste mit allen externen Datenbanktabellen, die in meinem Cluster erstellt wurden?

Sie können die Systemtabelle SVV_EXTERNAL_TABLES abfragen, um diese Informationen zu erhalten.

F: Unterstützt Redshift die Möglichkeit zur Verwendung von Machine Learning mit SQL?

Ja, die Funktion von Amazon Redshift ML vereinfacht SQL-Nutzern das Erstellen, Trainieren und Implementieren von Machine-Learning (ML)-Modellen mit bekannten SQL-Befehlen. Amazon Redshift ML ermöglicht Ihnen die Nutzung Ihrer Daten in Amazon Redshift mit Amazon SageMaker, einem vollständig verwalteten ML-Service. Amazon Redshift unterstützt sowohl Unsupervised Learning (K-Means) als auch Supervised Learning (Autopilot, XGBoost, MLP-Algorithmen). Sie können auch mithilfe von AWS Language AI Services Textfelder in SQL-Abfragen mit vorgefertigten Lambda-UDF-Funktionen übersetzen, redigieren und analysieren – siehe Blogbeitrag.

F: Bietet Amazon Redshift eine API zur Datenabfrage?

Amazon Redshift bietet eine Daten-API, die den problemlosen Zugriff auf Daten von Amazon Redshift mit allen Arten von herkömmlichen, Cloud-nativen und containerisierten, auf serverlosen Webservices basierten und ereignisgesteuerten Anwendungen ermöglicht. Die Daten-API vereinfacht den Zugriff auf Amazon Redshift, weil Sie keine Treiber konfigurieren und Datenbankverbindungen verwalten müssen. Stattdessen können Sie SQL-Befehle für einen Amazon Redshift-Cluster ausführen, indem Sie einfach einen gesicherten API-Endpunkt aufrufen, der von der Daten-API bereitgestellt wird. Die Daten-API kümmert sich um die Verwaltung von Datenbankverbindungen und das Puffern von Daten. Die Daten-API ist asynchron gestaltet, sodass Sie Ihre Ergebnisse später abrufen können. Die Abfrageergebnisse werden 24 Stunden lang aufbewahrt.

F: Welche Arten von Anmeldeinformationen kann ich in Verbindung mit der Daten-API von Amazon Redshift nutzen?

Die Daten-API unterstützt sowohl IAM-Anmeldeinformationen als auch die Verwendung eines geheimen Schlüssels von AWS Secrets Manager. Die Daten-API fasst AWS Identity and Access Management (IAM)-Anmeldeinformationen zusammen, sodass Sie Identitätsanbieter wie Okta oder Azure Active Directory oder Datenbank-Anmeldeinformationen verwenden können, die in Secrets Manager gespeichert sind, ohne dass Datenbank-Anmeldeinformationen in API-Aufrufen weitergegeben werden.

F: Kann ich Amazon Redshift Data API über AWS CLI verwenden?

Ja, Sie können die Data API über AWS CLI mit der Befehlszeilenoption "aws redshift-data" verwenden.

F: Ist die Daten-API von Redshift mit anderen AWS-Services integriert?

Sie können die Daten-API von anderen Services wie AWS Lambda, AWS Cloud9, AWS AppSync und Amazon EventBridge verwenden.

F: Muss ich für die Nutzung der Daten-API von Amazon Redshift separat bezahlen?

Nein, es fällt keine separate Gebühr für die Nutzung der Daten-API an.

Backup und Wiederherstellung

F: Wie sichert Amazon Redshift meine Daten? Wie stelle ich meinen Cluster aus einem Backup wieder her?

Amazon-Redshift-RA3-Cluster und Amazon Redshift Serverless verwenden Redshift Managed Storage, das immer die aktuellste Kopie der Daten bereithält. DS2- und DC2-Cluster spiegeln die Daten auf dem Cluster, um sicherzustellen, dass im Falle eines Ausfalls die aktuellste Kopie verfügbar ist. Sicherungen werden bei allen Redshift-Clustertypen automatisch erstellt und 24 Stunden lang aufbewahrt. Bei serverlosen Clustern werden für die letzten 24 Stunden Wiederherstellungspunkte bereitgestellt.

Sie können auch eigene Sicherungen erstellen, die auf unbestimmte Zeit aufbewahrt werden können. Diese Backups können jederzeit erstellt werden, und die automatisierten Backups von Amazon Redshift oder die Amazon-Redshift-Serverless-Wiederherstellungspunkte können für eine längere Aufbewahrung in ein Benutz-Backup umgewandelt werden.

Amazon Redshift kann Ihre Snapshots oder Wiederherstellungspunkte zur Notfallwiederherstellung auch asynchron in Amazon S3 in einer anderen Region replizieren.

Auf einem DS2- oder DC2-Cluster, der kostenlose Backup-Speicher ist auf die Gesamtgröße des Speichers auf den Knoten im Data Warehouse-Cluster begrenzt und gilt nur für aktive Data Warehouse-Cluster.

Wenn Sie beispielsweise über einen Data Warehouse-Speicher von insgesamt 8 TB verfügen, bieten wir Ihnen ohne Aufpreis maximal 8 TB Speicher für Backups Nach Wunsch können Sie den Aufbewahrungszeitraum für Backups mithilfe der AWS-Managementkonsole oder Amazon Redshift-APIs verlängern. Weitere Informationen zu automatischen Snapshots finden Sie im Amazon Redshift-Management-Guide.

Amazon Redshift sichert nur Daten, die sich geändert haben, sodass die meisten Snapshots nur einen kleinen Bereich Ihres kostenlosen Backups-Speichers belegen. Wenn Sie ein Backup wiederherstellen müssen, haben Sie Zugriff auf alle automatisierten Backups innerhalb Ihres Aufbewahrungszeitraums für Backups. Nachdem Sie ein wiederherzustellendes Backup ausgewählt haben, stellen wir einen neuen Data Warehouse-Cluster bereit, in dem Ihre Daten wiederhergestellt werden.

F: Wie verwalte ich die Aufbewahrung meiner automatischen Sicherungen und Snapshots?

Mithilfe der AWS-Managementkonsole oder der ModifyCluster-API können Sie den Aufbewahrungszeitraum für automatische Sicherungen verwalten, indem Sie den „RetentionPeriod“-Parameter ändern. Wenn Sie automatische Sicherungen vollständig deaktivieren möchten (was nicht empfohlen wird), legen Sie den Aufbewahrungszeitraum auf 0 fest.

F: Was passiert mit meinen Sicherungen, wenn ich meinen Data Warehouse-Cluster lösche?

Beim Löschen eines Data Warehouse-Clusters können Sie angeben, ob ein letzter Snapshot erstellt werden soll. Dies ermöglicht eine Wiederherstellung des gelöschten Data Warehouse-Clusters zu einem späteren Zeitpunkt. Alle zuvor manuell erstellten Snapshots Ihres Data Warehouse-Clusters werden aufbewahrt und Ihnen zu den Amazon-S3-Standardgebühren in Rechnung gestellt, es sei denn, Sie löschen sie.

Überwachung und Wartung

F: Wie überwache ich die Leistung meines Amazon Redshift Data Warehouse-Clusters?

Metriken für CPU- und Speicherauslastung sowie den Datenverkehr durch Lese-/Schreibvorgänge Ihres Amazon Redshift-Data-Warehouse-Clusters stehen über die AWS-Managementkonsole oder Amazon CloudWatch-APIs kostenlos zur Verfügung. Über die Amazon CloudWatch-Funktionalität für benutzerdefinierte Metriken können Sie auch weitere eigene Metriken hinzufügen. Die AWS-Managementkonsole stellt ein Überwachungsdashboard bereit, das Sie beim Überwachen des Zustands und der Leistung all Ihrer Cluster unterstützt. Amazon Redshift bietet über die AWS-Managementkonsole außerdem Informationen zur Abfrage- und Cluster-Leistung. Anhand dieser Informationen können Sie erkennen, welche Benutzer und Abfragen die meisten Systemressourcen belegen. Durch Anzeigen von Abfrageplänen und Ausführungsstatistiken können Sie Leistungsprobleme untersuchen. Darüber hinaus können Sie die Ressourcenauslastung auf allen Datenverarbeitungsknoten erkennen, um sicherzustellen, dass Daten und Abfragen gleichmäßig auf alle Knoten verteilt sind.

F: Was ist ein Wartungs- bzw. Aktualisierungsfenster? Steht meine Data Warehouse-Cluster während der Softwarewartung zur Verfügung?

Zur Installation von Programmkorrekturen, Verbesserungen und neuen Funktionen in Ihrem Cluster führt Amazon Redshift regelmäßig Wartungen aus. Das geplante Wartungsfenster für Ihr Cluster können Sie programmatisch oder über die Redshift-Konsole ändern. Während der Wartungsfenster steht Ihr Amazon Redshift-Cluster für den normalen Betrieb nicht zur Verfügung. Weitere Informationen zu Wartungsfenstern und -zeitplänen nach Region finden Sie unter dem Thema Maintenance Windows im Amazon Redshift-Verwaltungshandbuch.

Weitere Informationen zu den Preisen von Amazon Redshift

Zur Seite mit den Preisen
Bereit zum Entwickeln?
Erste Schritte mit Amazon Redshift
Haben Sie Fragen?
Kontaktieren Sie uns