Erste Schritte mit dem Projekt

7 Schritte  |  60 Minuten

F: Was ist Data Warehousing?

Analysen sind allgegenwärtig. Wir alle verwenden Berichte und Dashboards, um unsere Arbeit zu verwalten, unseren Fortschritt allen Interessensvertretern mitzuteilen und Ad-hoc-Analysen zur Entscheidungsunterstützung durchzuführen. Im Hintergrund werden diese Berichte, Dashboards und BI-Tools von Data Warehouses unterstützt, die Daten effizient speichern, um E/A-Vorgänge zu minimieren und Abfrageergebnisse gleichzeitig in kürzester Zeit Hunderten und Tausenden von Benutzern bereitzustellen. Im Gegensatz zu Transaktionsdatenbanken verwenden Data Warehouses spezielle Architekturen und Speicher für schnelle Abfrage- und Datenladeleistungen. Data Warehouses müssen zudem hochgradig skalierbar sein, damit Sie jederzeit weitere Datenquellen hinzufügen können, um die Analyse und die Erkenntnisse zu bereichern. Schließlich müssen sich Data Warehouses nahtlos in Business Intelligence-Tools von Drittanbietern und SQL-Clients integrieren lassen und Standard-SQL unterstützen, so dass Kunden bereits vorhandene Kenntnisse nutzen können.

F: Warum sollte ich Data Warehousing in AWS ausführen?

Amazon Redshift, unsere Data Warehousing-Lösung, ist schnell, benutzerfreundlich und vollständig verwaltet. Sie automatisiert die Bereitstellung der Infrastruktur sowie Verwaltungsaufgaben wie Backups, Replizierung und Patching. Sie lässt sich nahtlos in BI-Tools und ETL-Tools von Drittanbietern integrieren. So können Sie Ihren ersten Bericht in nur wenigen Minuten erhalten. Und bei der zu ladenden und analysierenden Datenmenge besteht keine Beschränkung. Bei zunehmender Datenmenge müssen Sie sich keine Sorgen um kostspielige Systemupgrades oder Leistungseinbußen machen. Amazon Redshift ist bei jeder Skalierung schnell, da es spaltenbasierte Speicher- und mehrere Optimierungstechnologien nutzt. Amazon Redshift ist zudem kosteneffizient und Sie zahlen nur für das, was Sie auch tatsächlich nutzen. Dies bedeutet, dass Sie einer unbegrenzten Anzahl von Benutzern uneingeschränkt die Analyse all Ihrer Daten ermöglichen können, und dies für nur 1 000 USD pro Terabyte pro Jahr. 

F: Was ist Amazon Redshift?

Amazon Redshift ist ein schnelles, vollständig verwaltetes Data Warehouse für Datenmengen im Petabyte-Bereich, mit der Sie im Zusammenspiel mit Ihren vorhandenen Business Intelligence-Tools alle Ihre Daten einfach und wirtschaftlich analysieren können. Sie können für 0,25 USD pro Stunde ohne Verpflichtungen klein beginnen und für 1 000 USD pro Terabyte und Jahr eine Skalierung bis in den Petabyte-Bereich vornehmen – für weniger als ein Zehntel der Kosten herkömmlicher Lösungen. Kunden stellen in der Regel eine Kompression auf ein Drittel fest und reduzieren damit ihre Kosten auf 333 USD pro unkomprimiertes Terabyte pro Jahr.

F: Wie unterscheidet sich die Leistung von Amazon Redshift von der herkömmlicher Datenbanken für Data Warehouses und Analysen?

Amazon Redshift nutzt verschiedene Innovationen zum Erreichen einer um das Zehnfache höheren Leistung als herkömmliche Datenbanken für Data Warehouses und Analysen:

  • Spaltenbasierte Datenspeicherung: Anstatt Daten als eine Folge von Zeilen zu speichern, organisiert Amazon Redshift die Daten spaltenweise. Im Gegensatz zu zeilenbasierten Systemen, die für die Transaktionsverarbeitung ideal sind, eignen sich spaltenbasierte Systeme besonders für Data Warehouses und Analysen, bei denen Abfragen häufig Aggregationen umfassen, die für große Datenmengen erfolgen. Da nur die an den Abfragen beteiligten Spalten verarbeitet werden und Spaltendaten sequenziell auf dem Speichermedium gespeichert werden, benötigen spaltenbasierte Systeme weitaus weniger E/A-Vorgänge, wodurch die Abfrageleistung stark verbessert wird.
  • Erweiterte Komprimierung: Spaltenbasierte Datenspeicher können wesentlich stärker als zeilenbasierte Datenspeicher komprimiert werden, da ähnliche Daten sequenziell auf dem Datenträger gespeichert werden. Amazon Redshift arbeitet mit mehreren Komprimierungstechniken und kann im Vergleich zu herkömmlichen Datenspeichern eine wesentlich stärkere Komprimierung erreichen. Außerdem erfordert Amazon Redshift keine Indizes oder materialisierten Sichten, weshalb weniger Speicherplatz als bei herkömmlichen relationalen Datenbanksystemen belegt wird. Wenn Daten in eine leere Tabelle geladen werden, untersucht Amazon Redshift Ihre Daten automatisch und wählt das geeignetste Komprimierungsschema.
  • Massive Parallelverarbeitung (MPP): Amazon Redshift verteilt die Daten- und Abfragelast automatisch auf alle Knoten. Amazon Redshift erleichtert das Hinzufügen von Knoten zu Ihrem Data Warehouse und ermöglicht Ihnen, bei Anwachsen Ihres Data Warehouse eine schnelle Abfrageleistung beizubehalten.

F: Wie kann ich auf einen ausgeführten Data Warehouse-Cluster zugreifen?

Sobald Ihr Data Warehouse-Cluster verfügbar ist, können Sie seinen Endpunkt und die JDBC- und ODBC-Verbindungszeichenfolge über die AWS Management Console oder Redshift-APIs abrufen. Sie können anschließend diese Verbindungszeichenfolge mit dem gewünschten Datenbank- oder Business Intelligence-Tool (BI) bzw. der gewünschten Programmiersprache verwenden. Sie müssen an Ihren ausgeführten Data Warehouse-Cluster gestellte Netzwerkanforderungen autorisieren. Eine detaillierte Erläuterung finden Sie in unserem Handbuch ''Erste Schritte''.

F: Ist Amazon Redshift mit meinen bevorzugten Business Intelligence (BI)-Softwarepaketen und ETL-Tools (Extrahieren, Transformieren, Laden) kompatibel?

Amazon Redshift arbeitet mit branchenüblicher SQL und der Zugriff erfolgt über JDBC- und ODBC-Standardtreiber. Sie können von der Registerkarte "Connect Client" unserer Konsole unsere benutzerdefinierten Amazon Redshift JDBC- und ODBC-Treibern herunterladen. Wir haben Integrationen bei einer Reihe beliebter Anbieter von BI- und ETL-Lösungen validiert, von denen wiederum einige kostenlose Testversionen anbieten, um Ihnen die ersten Schritte beim Laden und Analysieren von Daten zu erleichtern. Ferner haben Sie auch im AWS Marketplace die Möglichkeit zum Bereitstellen und Konfigurieren von Lösungen, die für die Zusammenarbeit mit Amazon Redshift innerhalb von Minuten ausgelegt sind.

F: Was sind die ersten Schritte mit Amazon Redshift?

Sie können Amazon Redshift kostenlos ausprobieren. Falls Sie noch keinen Amazon Redshift-Cluster erstellt haben, sind Sie für einen 2-monatigen kostenlosen Test unseres DC1.Large-Knotens berechtigt. Sie erhalten pro Monat 750 Stunden kostenlos, was ausreicht, um einen DC1.Large-Knoten mit 160 GB komprimiertem SSD-Speicher durchgängig zu betreiben. Sie können auch Cluster mit mehreren Knoten einrichten, um größere Datenmengen zu testen, wodurch allerdings die kostenlosen Stunden schneller aufgebraucht werden. Sobald der zweimonatige kostenlose Testzeitraum abläuft oder Ihre Nutzung 750 Stunden pro Monat überschreitet, können Sie Ihren Cluster zur Vermeidung von Gebühren herunterfahren oder ihn zu unseren standardmäßigen On-Demand-Gebühren weiter betreiben.

Erste Schritte mit dem Projekt