Data-Lake-Speicher auf AWS

Der sicherste, langlebigste und skalierbarste Speicher zum Aufbau Ihres Data Lakes

Der Amazon Simple Storage Service S3 ist der größte und leistungsstärkste Objektspeicher-Service für strukturierte und unstrukturierte Daten und der bevorzugte Speicher-Service für die Erstellung eines Data Lakes. Mit Amazon S3 können Sie kostengünstig einen Data Lake beliebiger Größe in einer sicheren Umgebung aufbauen und skalieren, in der die Daten mit einer Haltbarkeit von 99,999999999 % (11 9en) geschützt sind.

Mit einem auf Amazon S3 aufgebauten Data Lake können Sie native AWS-Services einsetzen, um Big-Data-Analysen, künstliche Intelligenz (KI), Machine Learning (ML), High Performance Computing (HPC) und Mediendatenverarbeitungsanwendungen auszuführen und damit Erkenntnisse aus Ihren unstrukturierten Datensätzen zu gewinnen. Mit Amazon FSx for Lustre können Sie Dateisysteme für HPC- und ML-Anwendungen starten und große Medien-Workloads direkt aus Ihrem Data Lake verarbeiten. Sie verfügen auch über die Flexibilität, Ihre bevorzugten Analyse-, KI-, ML- und HPC-Anwendungen aus dem Amazon Partner Network (APN) zu nutzen. Da Amazon S3 eine breite Palette von Funktionen unterstützt, sind IT-Manager, Speicheradministratoren und Datenwissenschaftler in der Lage, Zugriffsrichtlinien durchzusetzen, Objekte in großem Umfang zu verwalten und Aktivitäten in ihren S3 Data Lakes zu überprüfen.

Amazon S3 hostet Zehntausende von Data Lakes für bekannte Marken wie Netflix, Airbnb, Sysco, Expedia, GE und FINRA, die diese nutzen, um auf Basis ihrer Anforderungen sicher zu skalieren und jede Minute neue geschäftliche Erkenntnisse zu gewinnen.

Speichern und Analysieren unstrukturierter Daten mit einem S3 Data Lake (1:43)

Warum einen Data Lake auf Amazon S3 erstellen?

Amazon S3 ist auf eine Haltbarkeit der Daten von 99,999999999 % (11 9en) ausgelegt. Bei dieser Haltbarkeit können Sie davon ausgehen, dass bei der Speicherung von 10.000.000 Objekten in Amazon S3 nur alle 10.000 Jahre ein einziges Objekt verlorengehen wird! Der Dienst erstellt und speichert automatisch Kopien aller hochgeladenen S3-Objekte über mehrere Systeme hinweg. Ihre Daten sind also immer verfügbar, wenn Sie sie benötigen, und sind vor Ausfällen, Fehlern und Bedrohungen geschützt.

Data-Lake-Speicherinfrastruktur
Security by Design
Schützen Sie Ihre Daten mit einer Infrastruktur, die für die datenabhängigsten Unternehmen entwickelt wurde.

Skalierbarkeit nach Bedarf
Sofortige Erweiterung der Speicherkapazität ohne langwierige Ressourcenbeschaffungszyklen

Beständig gegen den Ausfall einer gesamten AWS Availability Zone
Automatisches Speichern von Kopien von Daten in mindestens drei Availability Zones (AZs). Um Fehlertoleranz zu gewährleisten, sind die Availability Zones mehrere Kilometer voneinander entfernt, jedoch nicht mehr als hundert, um geringe Latenzen zu gewährleisten.

AWS-Services für Analytik, HPC, KI, ML und Mediendatenverarbeitung
Verwenden Sie native AWS-Services zum Ausführen von Anwendungen in Ihrem Data Lake

Integration mit Service-Drittanbietern
Bringen Sie bevorzugte Analyseplattformen aus dem APN in Ihren S3 Data Lake ein.

Breite Palette von Datenverwaltungsfunktionen
Umfassende Flexibilität für den Betrieb auf Objektebene mit Verwaltung nach Maß, Konfiguration des Zugriffs, Ermöglichung von Kosteneffizienz und Prüfung von Daten in einem S3 Data Lake.

Bewältigung von Big-Data-Herausforderungen mit Data Lakes

Unternehmen aller Größen und Branchen nutzen Data Lakes, um Daten von einem Kostenfaktor, der verwaltet werden muss, zu einem wertvollen Unternehmenswert zu machen. Data Lakes sind die Grundlage für eine sinnvolle Nutzung von Daten auf Unternehmensebene. Data Lakes beseitigen Datensilos und erleichtern die Analyse verschiedener Datensätze, während sie gleichzeitig die Sicherheit der Daten gewährleisten und Machine Learning einbeziehen.

In dem Artikel „Wie bewältigt Amazon Big-Data-Herausforderungen mit Data Lakes“ erläutert Dr. Werner Vogels, CTO von AWS: „Ein wichtiger Grund, warum Unternehmen Data Lakes erstellen, ist das Aufbrechen von Datensilos. Wenn sich die Daten an verschiedenen Orten befinden und von verschiedenen Gruppen kontrolliert werden, sind die Daten naturgemäß unübersichtlich.“

Mit Amazon S3 können Sie alle strukturierten und unstrukturierten Daten in unbegrenztem Umfang migrieren, speichern, verwalten und sichern und so Datensilos aufbrechen.

Vollständigen Artikel lesen »

Schlüsselkomponenten eines Data Lakes

Migration von Daten in die Cloud

AWS stellt ein Portfolio mit Datenübertragungsservices bereit, um für jedes Datenmigrationsprojekt die richtige Lösung anbieten zu können. Der Grad der Konnektivität ist ein wichtiger Faktor bei der Datenmigration, und AWS hat Angebote, die Ihren Anforderungen an hybriden Cloud-Speicher, Online-Datentransfer und Offline-Datentransfer gerecht werden können.

Hybrid-Cloud-Speicher

AWS Storage Gateway ist ein hybrider Cloud-Speicherdienst, mit dem Sie Ihre On-Premise-Anwendungen nahtlos mit AWS Storage verbinden und erweitern können. Kunden verwenden Storage Gateway, um Bandbibliotheken nahtlos durch Cloud Storage zu ersetzen, Cloud Storage-unterstützte Dateifreigaben bereitzustellen oder einen Cache mit geringer Latenz für den Zugriff auf Daten in AWS für On-Premise-Anwendungen zu erstellen. Mit AWS Direct Connect können Sie eine private Konnektivität zwischen AWS und Ihrem Rechenzentrum, Ihrem Büro oder Ihrer Colocation-Umgebung herstellen. Dadurch können Sie Ihre Netzwerkkosten senken, den Durchsatz erhöhen und ein einheitlicheres Netzwerkerlebnis bieten als öffentliche Internetverbindungen.

Online-Datenübertragung

Mit AWS DataSync können Hunderte von Terabyte und Millionen von Dateien auf Amazon S3, Amazon EFS oder Amazon FSx for Windows File Server einfach und effizient übertragen werden, und zwar bis zu 10 Mal schneller als mit Open-Source-Tools. DataSync wickelt viele manuelle Aufgaben automatisch ab oder eliminiert sie, einschließlich der Erstellung von Skript-Kopieraufträgen, der Planung und Überwachung von Übertragungen, der Validierung von Daten und der Optimierung der Netzwerkauslastung. Amazon S3 Transfer Acceleration ermöglicht die schnelle Übertragung von Dateien über große Entfernungen zwischen Ihrem Client und Ihrem Amazon-S3-Bucket. Amazon Kinesis und AWS IoT Core machen das Erfassen und Laden von Streaming-Daten von IoT-Geräten auf Amazon S3 einfach und sicher.

Offline-Datenübertragung

Die AWS Snow Family ist speziell für den Einsatz an Edge-Standorten mit begrenzter oder nicht vorhandener Netzwerkkapazität konzipiert und bietet Speicher- und Rechenkapazität in rauen Umgebungen. Der AWS Snowball-Service verwendet robuste, tragbare Speicher- und Edge-Computing-Geräte für die Datenerfassung, -verarbeitung und -migration. Kunden können das physische Snowball-Gerät für die Offline-Datenmigration zu AWS liefern. AWS Snowmobile ist ein Datenübertragungsdienst im Exabyte-Bereich, der dazu dient, riesige Datenmengen in die Cloud zu verlagern, einschließlich Videobibliotheken, Bildrepositorys oder sogar eine komplette Rechenzentrumsmigration.

Weitere Informationen zu AWS-Cloud-Datenmigrationsservices »

Verwenden Sie AWS-Services für Ihren Data Lake

S3-Data-Lake-Kunden haben Zugriff auf zahlreiche AWS-Analyseanwendungen, KI/ML-Services und Hochleistungsdateisysteme. Das bedeutet, dass Sie ohne zusätzliche Datenverarbeitung oder Übertragungen an andere Speicher zahlreiche Workloads über Ihren Data Lake ausführen können. Sie können auch Ihre bevorzugten Analyse- und Machine-Learning-Tools von Drittanbietern in Ihren S3 Data Lake einbringen. 

Erstellen Sie mit AWS Lake Formation einen Data Lake in Tagen statt in Monaten

Mit AWS Lake Formation können Sie einen sicheren Data Lake innerhalb von Tagen statt Monaten erstellen. Sie müssen lediglich festlegen, wo sich die Daten befinden und welche Datenzugriffs- und Sicherheitsrichtlinien angewendet werden sollen. Lake Formation sammelt dann Daten aus verschiedenen Quellen und verschiebt sie in einen neuen Data Lake in Amazon S3. Der Dienst bereinigt, katalogisiert und klassifiziert Daten mithilfe von Machine-Learning-Algorithmen und ermöglicht Ihnen das Definieren von Richtlinien für die Zugriffskontrolle. Ihre Benutzer können dann auf einen zentralen Datenkatalog zugreifen, der die verfügbaren Datensätze und deren Verwendung aufführt.

Erfahren Sie mehr über AWS Lake Formation und melden Sie sich an »

Ankündigung von AWS Lake Formation (2:44)

Ausführen von AWS-Analyseanwendungen ohne Datenbewegung

Sobald sich die Daten in einem S3 Data Lake befinden, können Sie einen der folgenden speziell entwickelten Analyseservices für eine Reihe von Anwendungsfällen verwenden, von der Analyse von Datensätzen im Petabyte-Bereich bis hin zur Abfrage der Metadaten eines einzelnen Objekts. Mit einem S3 Data Lake können diese Aufgaben ohne ressourcen- und zeitintensive ETL-Aufträge (Extrahieren, Transformieren und Laden) erledigt werden. Sie können auch Ihre bevorzugten Analyseplattformen in Ihren S3 Data Lake einbringen.

Techniktrends: Data Lakes und Analytik (9:00)
product-icon_Amazon_Athena_icon_squid_ink
Amazon Athena

Sie können Datensätze in Ihrem S3 Data Lake mit einfachen SQL-Ausdrücken schnell abfragen und erhalten die Ergebnisse in Sekundenschnelle. Athena eignet sich ideal für Ad-hoc-Abfragen und erfordert keine Cluster-Verwaltung, kann aber auch komplexe Analysen einschließlich großer Verknüpfungen, Windows-Funktionen und Arrays verarbeiten.

product-icon_Amazon_EMR_icon_squid_ink
Amazon EMR

Analysieren Sie S3-Daten mit verteilten Open-Source-Frameworks Ihrer Wahl, wie Spark und Hadoop. Sie können einen EMR-Cluster in wenigen Minuten einrichten und skalieren – ohne Knotenbereitstellung, Clustereinrichtung und -abstimmung sowie Hadoop-Einrichtung – und mehrere Cluster parallel mit demselben Datensatz betreiben.

product-icon_AWS_Glue_icon_squid_ink
AWS Glue

Vereinfachen Sie ETL-Aufträge in Ihrem S3 Data Lake, um Ihre Daten durchsuchbar und abfragbar zu machen. Mit ein paar Klicks in der AWS-Konsole registrieren Sie Ihre Datenquellen. AWS Glue durchsucht sie dann, um einen Datenkatalog mit Metadaten (für Tabellendefinitionen und Schemata) zu erstellen.

REDSHIFT SPECTRUM
Amazon Redshift Spectrum

Führen Sie schnelle, komplexe Abfragen mit SQL-Ausdrücken über Exabytes von S3-Daten aus, ohne zu Redshift zu wechseln. Sie können mehrere Cluster parallel mit denselben Datensätzen betreiben. Bestehende Redshift-Kunden können diese Funktion nutzen, um die Analyse auf ihre unstrukturierten Daten in Amazon S3 auszuweiten.

Erfahren Sie mehr über die oben genannten AWS-Analyseservices für Data Lakes »


Starten Sie KI- und Machine-Learning-Aufgaben mit Ihren in S3 gespeicherten Daten

Sie können AWS-KI-Services wie Amazon Comprehend, Amazon Forecast, Amazon Personalize und Amazon Rekognition schnell starten, um Erkenntnisse aus Ihren unstrukturierten Datensätzen zu gewinnen, genaue Prognosen zu erhalten, Empfehlungsmaschinen zu erstellen und in S3 gespeicherte Bilder und Videos zu analysieren. Sie können auch Amazon Sagemaker einsetzen, um ML-Modelle schnell mit Ihren in S3 gespeicherten Datensätzen zu erstellen, zu trainieren und bereitzustellen.


Schnelle Abfrage von Daten vor Ort mit S3 Select

Mit S3 Select können Anwendungen die schwere Arbeit des Filterns und des Zugriffs auf Daten in Objekten auf S3 verlagern. Mit S3 Select können Sie Objekt-Metadaten abfragen, ohne das Objekt in einen anderen Datenspeicher zu verschieben. Durch die Reduzierung des Datenvolumens, das von Ihren Anwendungen geladen und verarbeitet werden muss, kann S3 Select die Leistung der meisten Anwendungen, die häufig auf Daten aus S3 zugreifen, um bis zu 400 % verbessern und die Abfragekosten um bis zu 80 % senken.

Sie können S3 Select mit Spark, Hive und Presto in Amazon EMR, Amazon Athena, Amazon Redshift sowie bei APN-Partnern verwenden.

Weitere Informationen zu S3 Select »

Abfrage von Daten vor Ort mit S3 Select (3:51)

Verbinden von Daten mit Dateisystemen für Hochleistungs-Workloads

Amazon FSx for Lustre bietet ein Hochleistungsdateisystem, das nativ mit Ihrem S3 Data Lake zusammenarbeitet und für die schnelle Verarbeitung von Workloads wie Machine Learning, High Performance Computing (HPC), Videoverarbeitung, Finanzmodellierung und Electronic Design Automation (EDA) optimiert ist. In wenigen Minuten können Sie ein Dateisystem einrichten, das eine Zugriffslatenz von weniger als einer Millisekunde auf Ihre S3-Daten bietet und Ihnen das Lesen und Schreiben von Daten mit einem Durchsatz von bis zu Hunderten von Gigabyte pro Sekunde (GBps) und Millionen von IO pro Sekunde (IOPS) ermöglicht. Wenn ein FSx-for-Lustre-Dateisystem mit einem S3-Bucket verknüpft ist, stellt es S3-Objekte transparent als Dateien dar und ermöglicht es Ihnen, Ergebnisse in S3 zurückzuschreiben.

Weitere Informationen zu Amazon FSx for Lustre »

Einführung in Amazon FSx for Lustre (45:48)

Kostengünstige Verwaltung Ihres Data Lake mit S3-Funktionen

Mit einer breiten Palette von Funktionen ist Amazon S3 der ideale Service für den Aufbau (oder Plattformwechsel) und die Verwaltung eines Data Lake jeder Größe und jedes Zwecks. Es ist der einzige Cloud-Speicherdienst, mit dem Sie: Daten auf Objekt-, Bucket- und Kontoebene verwalten können; Änderungen an Dutzenden bis Milliarden von Objekten mit wenigen Klicks vornehmen können; granulare Datenzugriffsrichtlinien konfigurieren können; Kosten durch die Speicherung von Objekten über zahlreiche Speicherklassen hinweg sparen können; und alle Aktivitäten über Ihre S3-Ressourcen hinweg überprüfen können.

Verwalten Sie Daten auf jeder Ebene in Ihrem Data Lake

Mit Amazon S3 können Sie Daten auf Objektebene sowie auf Konto- und Bucket-Ebene verwalten. Sie können Metadaten-Tags an ein Objekt anhängen und diese verwenden, um Daten so zu organisieren, wie es für Ihr Unternehmen sinnvoll ist. Sie können Objekte auch nach Präfixen und Buckets organisieren. Mit diesen Funktionen können Sie schnell auf ein Objekt oder eine Gruppe von Objekten verweisen, um sie über Regionen hinweg zu replizieren, den Zugriff einzuschränken, auf günstigere Speicherklassen zu übertragen und vieles mehr.

Mit wenigen Klicks Maßnahmen für Milliarden von Objekten ergreifen

Mit S3 Batch Operations können Sie mit einer einzigen API-Anfrage oder ein paar Klicks in der S3-Managementkonsole Maßnahmen für Milliarden von Objekten ergreifen und den Fortschritt Ihrer Anfragen überprüfen. Sie können Objekteigenschaften und Metadaten ändern, Objekte zwischen Buckets kopieren, Tag-Sets ersetzen, Zugriffskontrollen konfigurieren, Archive aus S3 Glacier wiederherstellen und AWS-Lambda-Funktionen aufrufen – in Minuten statt Monaten.

Konfigurieren Sie fein abgestimmte Zugriffsrichtlinien für sensible Daten

Verwenden Sie Bereichsrichtlinien, Objekt-Tags und Zugriffskontrolllisten (ACLs), um den Zugriff auf bestimmte Bereiche und Objekte zu beschränken. Sie können auch das AWS Identity and Access Management verwenden, um den Benutzerzugriff innerhalb eines AWS-Kontos zu definieren. Unternehmen, die alle Zugriffsanfragen auf ihre Daten blockieren müssen, können S3 Block Public Access so konfigurieren, dass für einen bestimmten Bucket von Objekten oder ein ganzes AWS-Konto eine Richtlinie „kein öffentlicher Zugriff“ durchgesetzt wird.

Kosteneffiziente Speicherung von Objekten in den S3-Speicherklassen

Alle S3-Nutzer können Daten in 6 verschiedenen Speicherklassen speichern, die so konzipiert sind, dass sie unterschiedlichen Zugriffsanforderungen zu entsprechenden Kosten gerecht werden. Verwenden Sie die S3-Speicherklassenanalyse, um die Zugriffsmuster auf Ihre Daten zu ermitteln. Konfigurieren Sie dann Lebenszyklusrichtlinien, um weniger häufig genutzte Objekte in kostengünstigere Klassen zu übertragen oder sie in S3 Glacier oder S3 Glacier Deep Archive zu archivieren, um maximale Einsparungen zu erzielen.

Prüfung aller Zugriffsanfragen auf S3-Ressourcen und anderer Aktivitäten

Mit den S3-Berichtstools können Sie schnell herausfinden, wer von wo aus Zugriff auf welche Daten anfordert, Objekt-Metadaten prüfen (z. B. Speicherklasse, Aufbewahrungsdatum, Geschäftseinheit und Verschlüsselungsstatus), Nutzung und Kosten überwachen, Zugriffsmuster erkennen und andere Aktivitäten im Zusammenhang mit Ihren S3-Ressourcen durchführen. Anhand dieser Erkenntnisse können Sie Änderungen vornehmen, um Ihren Data Lake und die darauf basierenden Anwendungen zu optimieren und die Kosten zu senken.

Mehr Data Lakes in AWS als irgendwo sonst

Sind Sie startbereit?

Weitere Informationen zu Amazon S3
Erste Schritte mit Amazon S3

Weitere Informationen zu Amazon S3 »

Registrieren Sie sich für ein AWS-Konto
Registrieren Sie sich für ein AWS-Konto
Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent »
Leitfaden zur Bereitstellung von Data Lakes lesen
Bereitstellen eines Data Lake in AWS

Beginnen Sie mit dem Aufbau Ihres Data Lake auf Amazon S3

Aufbau eines Data Lakes
Haben Sie noch Fragen?
Kontakt