Erste Schritte mit dem Projekt

7 Schritte  |  60 Minuten

F: Was ist Data-Warehousing?

Analysen sind allgegenwärtig. Wir alle verwenden Berichte und Dashboards, um unsere Arbeit zu verwalten, unseren Fortschritt allen Interessensvertretern mitzuteilen und Ad-hoc-Analysen zur Entscheidungsunterstützung durchzuführen. Im Hintergrund werden diese Berichte, Dashboards und BI-Tools von Data-Warehouses unterstützt, die Daten effizient speichern, um E/A-Vorgänge zu minimieren und Abfrageergebnisse gleichzeitig in kürzester Zeit Hunderten und Tausenden von Benutzern bereitzustellen. Im Gegensatz zu Transaktionsdatenbanken verwenden Data-Warehouses spezielle Architekturen und Speicher für schnelle Abfrage- und Datenladeleistungen. Data-Warehouses müssen zudem hochgradig skalierbar sein, damit Sie jederzeit weitere Datenquellen hinzufügen können, um die Analyse und die Erkenntnisse zu bereichern. Schließlich müssen sich Data-Warehouses nahtlos in Business Intelligence-Tools von Drittanbietern und SQL-Clients integrieren lassen und Standard-SQL unterstützen, so dass Kunden bereits vorhandene Kenntnisse nutzen können.

F: Warum sollte ich Data-Warehousing in AWS ausführen?

Amazon Redshift, unsere Data-Warehousing-Lösung, ist schnell, benutzerfreundlich und vollständig verwaltet. Sie automatisiert die Bereitstellung der Infrastruktur sowie Verwaltungsaufgaben wie Backups, Replizierung und Patching. Sie lässt sich nahtlos in BI-Tools und ETL-Tools von Drittanbietern integrieren. So können Sie Ihren ersten Bericht in nur wenigen Minuten erhalten. Und bei der zu ladenden und analysierenden Datenmenge besteht keine Beschränkung. Bei zunehmender Datenmenge müssen Sie sich keine Sorgen um kostspielige Systemupgrades oder Leistungseinbußen machen. Amazon Redshift ist bei jeder Skalierung schnell, da es spaltenbasierte Speicher- und mehrere Optimierungstechnologien nutzt. Amazon Redshift ist zudem kosteneffizient und Sie zahlen nur für das, was Sie auch tatsächlich nutzen. Dies bedeutet, dass Sie einer unbegrenzten Anzahl von Benutzern uneingeschränkt die Analyse all Ihrer Daten ermöglichen können, und dies für nur 1 000 USD pro Terabyte pro Jahr. 

F: Was ist Amazon Redshift?

Amazon Redshift ist ein schnelles, vollständig verwaltetes Data-Warehouse für Datenmengen im Petabyte-Bereich, mit der Sie im Zusammenspiel mit Ihren vorhandenen Business Intelligence-Tools alle Ihre Daten einfach und wirtschaftlich analysieren können. Sie können für 0,25 USD pro Stunde ohne Verpflichtungen klein beginnen und für 1 000 USD pro Terabyte und Jahr eine Skalierung bis in den Petabyte-Bereich vornehmen – für weniger als ein Zehntel der Kosten herkömmlicher Lösungen. Kunden stellen in der Regel eine Kompression auf ein Drittel fest und reduzieren damit ihre Kosten auf 333 USD pro unkomprimiertes Terabyte pro Jahr.

F: Wie unterscheidet sich die Leistung von Amazon Redshift von der herkömmlicher Datenbanken für Data-Warehousing und Analysen?

Amazon Redshift nutzt verschiedene Innovationen zum Erreichen einer um das Zehnfache höheren Leistung als herkömmliche Datenbanken für Data-Warehousing und Analysen:

  • Massiv parallel: Amazon Redshift liefert eine schnelle Abfrage-Performance an Datensets von Gigabyte- bis Exabyte-Volumen. Redshift verwendet eine spaltenbasierte Speicherung, Datenkomprimierung und Zonenzuordnungen, um den E/A-Aufwand bei der Ausführung von Abfragen zu verringern. Es nutzt eine Data Warehouse-Architektur mit massiv paralleler Verarbeitung (MPP; Massively Parallel Processing) zur Parallelisierung und Verteilung der SQL-Operationen auf alle verfügbaren Ressourcen. Die zugrunde liegende Hardware ist auf Hochleistungsdatenverarbeitung ausgerichtet, wobei lokal angeschlossene Speicher zur Maximierung des Durchsatzes zwischen den CPUs und den Laufwerken sowie ein Mesh-Netzwerk mit hoher Bandbreite zur Maximierung des Durchsatzes zwischen Knoten eingesetzt werden.
  • Machine Learning: Amazon Redshift nutzt maschinelles Lernen zur Bereitstellung eines hohen Durchsatzes, und zwar unabhängig von Ihren Workloads oder den gleichzeitigen Benutzern. Redshift verwendet hochentwickelte Algorithmen zur Prognose der Ausführungszeiten eingehender Abfragen und weist die Abfragen dann der Warteschlange zu, in der sie am schnellsten verarbeitet werden können. Beispielsweise werden Abfragen wie Dashboards und Berichte, die hohe Anforderungen an die Parallelverarbeitung stellen, zur sofortigen Verarbeitung an eine Express-Warteschlange weitergeleitet. Wenn die Nebenläufigkeit zunimmt, erstellt Amazon Redshift eine Prognose für den Beginn der Warteschlange. Transiente Ressourcen werden über die Nebenläufigkeitsskalierungsfunktion automatisch bereitgestellt, damit eine dauerhaft schnelle Leistung sichergestellt werden kann, und zwar unabhängig von der für den Cluster benötigten Variabilität.
  • Ergebnis-Caching: Amazon Redshift legt Ergebnisse in einem Cache ab, um bei wiederholten Abfragen Reaktionszeiten von unter einer Sekunde zu erreichen. Dashboard-, Visualisierungs- und BI-Tools, bei denen die Wiederholung gleicher Abfragen gang und gäbe ist, erzielen so bedeutende Leistungssteigerungen. Bei jeder Abfrage durchsucht Redshift zunächst den Cache nach zwischengespeicherten Ergebnissen einer früheren Ausführung. Wenn ein zwischengespeichertes Ergebnis gefunden wird und sich die Daten nicht geändert haben, wird das zwischengespeicherte Ergebnis sofort zurückgegeben, ohne die Abfrage erneut auszuführen. 

F: Wie kann ich auf einen ausgeführten Data-Warehouse-Cluster zugreifen?

Sobald Ihr Data-Warehouse-Cluster verfügbar ist, können Sie seinen Endpunkt und die JDBC- und ODBC-Verbindungszeichenfolge über die AWS-Managementkonsole oder Redshift-APIs abrufen. Sie können anschließend diese Verbindungszeichenfolge mit dem gewünschten Datenbank- oder Business Intelligence-Tool (BI) bzw. der gewünschten Programmiersprache verwenden. Sie müssen an Ihren ausgeführten Data-Warehouse-Cluster gestellte Netzwerkanforderungen autorisieren. Eine detaillierte Erläuterung finden Sie in unserem Handbuch ''Erste Schritte''.

F: Ist Amazon Redshift mit meinen bevorzugten Business Intelligence (BI)-Softwarepaketen und ETL-Tools (Extrahieren, Transformieren, Laden) kompatibel?

Amazon Redshift arbeitet mit branchenüblicher SQL und der Zugriff erfolgt über JDBC- und ODBC-Standardtreiber. Sie können von der Registerkarte "Connect Client" unserer Konsole unsere benutzerdefinierten Amazon Redshift JDBC- und ODBC-Treibern herunterladen. Wir haben Integrationen bei einer Reihe beliebter Anbieter von BI- und ETL-Lösungen validiert, von denen wiederum einige kostenlose Testversionen anbieten, um Ihnen die ersten Schritte beim Laden und Analysieren von Daten zu erleichtern. Ferner haben Sie auch im AWS Marketplace die Möglichkeit zum Bereitstellen und Konfigurieren von Lösungen, die für die Zusammenarbeit mit Amazon Redshift innerhalb von Minuten ausgelegt sind.

F: Was sind die ersten Schritte mit Amazon Redshift?

Sie können Amazon Redshift kostenlos ausprobieren. Falls Sie noch keinen Amazon Redshift-Cluster erstellt haben, sind Sie für einen 2-monatigen kostenlosen Test unseres DC1.Large-Knotens berechtigt. Sie erhalten pro Monat 750 Stunden kostenlos, was ausreicht, um einen DC1.Large-Knoten mit 160 GB komprimiertem SSD-Speicher durchgängig zu betreiben. Sie können auch Cluster mit mehreren Knoten einrichten, um größere Datenmengen zu testen, wodurch allerdings die kostenlosen Stunden schneller aufgebraucht werden. Sobald der zweimonatige kostenlose Testzeitraum abläuft oder Ihre Nutzung 750 Stunden pro Monat überschreitet, können Sie Ihren Cluster zur Vermeidung von Gebühren herunterfahren oder ihn zu unseren standardmäßigen On-Demand-Gebühren weiter betreiben.

Erste Schritte mit dem Projekt