Data Lakes und Analysen auf AWS

Das umfassendste, sicherste und kostengünstigste Servicepaket für den Aufbau Ihrer Data Lake- und Analyselösungen

AWS bietet ein integriertes Servicepaket, das alles enthält, was Sie für die schnelle und einfache Entwicklung und Verwaltung eines Data Lake für Analysezwecke benötigen. AWS-basierte Data Lakes können die Skalierbarkeit, Agilität und Flexibilität verarbeiten, die erforderlich sind, um verschiedene Arten von Daten und Analyseverfahren zu kombinieren und tiefere Einblicke zu gewinnen. Herkömmliche Datensilos und Data Warehouses bieten diese Eigenschaften nicht. AWS bietet Kunden das größte Angebot an Analyse- und Machine Learning-Services und ermöglicht einen einfachen Zugriff auf alle relevanten Daten, ohne dass die Kunden Abstriche bei Sicherheit oder Governance in Kauf nehmen müssen.

Auf AWS sind mehr Organisationen mit Data Lakes vertreten als in anderen Cloud-Lösungen. Kunden wie NASDAQ, Zillow, Yelp, iRobot und FINRA vertrauen bei der Verarbeitung geschäftskritischer Analyse-Arbeitslasten auf AWS.

Data Lakes und Analysen auf AWS

Data Lakes und Analysen auf AWS

Um Ihre Data Lake- und Analyselösung zu entwickeln, gibt AWS Ihnen das umfangreichste Servicepaket an die Hand, damit Sie Ihre Daten verlagern, speichern und analysieren können.

aws-datalake-diagram-simplified

Datenverlagerung

Importieren Sie Ihre Daten in Echtzeit von standortbasierten Speicherorten.

Data Lake

Speichern Sie beliebige Datentypen im Giga- bis zum Exabyte-Bereich sicher.

Analysen

Analysieren Sie Ihre Daten mit dem umfangreichsten Paket an Analyseservices.

Machine Learning

Prognostizieren Sie künftige Ergebnisse, und definieren Sie Maßnahmen für schnelle Reaktionen.

Datenverlagerung

Der erste Schritt bei der Entwicklung von Data Lakes auf AWS besteht in der Verlagerung Ihrer Daten in die Cloud. Die physischen Beschränkungen bei Bandbreite und Übertragungsgeschwindigkeiten beschränken die Möglichkeiten, Daten ohne starke Verzögerungen, hohe Kosten und einen hohen Zeitaufwand umzulagern. Für eine einfache und flexible Datenübertragung stellt AWS das umfangreichste Optionspaket für die Übertragung von Daten in die Cloud zur Verfügung.

Wenn Sie ETL-Aufgaben und ML Transforms für Ihren Data Lake entwickeln möchten, finden Sie weitere Informationen unter AWS Lake Formation.

Standortbasierte Datenverlagerung

AWS bietet zahlreiche Möglichkeiten, Daten von Ihrem Rechenzentrum nach AWS zu verlagern. Für den Aufbau einer dedizierten Netzwerkverbindung zwischen Ihrem Netzwerk und AWS können Sie AWS Direct Connect verwenden. Um mithilfe physischer Appliances Petabytes bin hin zu Exabytes an Daten nach AWS zu verlagern, können Sie AWS Snowball und AWS Snowmobile verwenden. Wenn Ihre standortbasierten Anwendungen Daten direkt nach AWS speichern sollen, verwenden Sie AWS Storage Gateway.  

Datenverlagerung in Echtzeit

AWS bietet mehrere Optionen, um Echtzeitdaten aufzunehmen, die aus neuen Quellen wie Websites, mobilen Apps und mit dem Internet verbundenen Geräten generiert wurden. Um das Erfassen und Laden von Streaming-Daten oder IoT-Gerätedaten zu vereinfachen, können Sie Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams und AWS IoT Core verwenden.  

Data Lake

Sobald die Daten für die Cloud geeignet sind, erleichtert AWS Ihnen die sichere Speicherung sowie die Speicherung in großem Umfang von Daten mit Amazon S3 and Amazon Glacier in beliebigen Formaten. Um es Endbenutzern zu vereinfachen, die für ihre Analysen relevanten Daten zu ermitteln, erstellt AWS Glue automatisch einen Katalog, den Benutzer durchsuchen und abfragen können.

Weitere Informationen zur zügigen Erstellung eines sicheren Data Lakes finden Sie, wenn Sie sich mit AWS Lake Formation beschäftigen.

Objektspeicher

Amazon S3

Amazon S3 ist ein sicherer, hochgradig skalierbarer, dauerhafter Objektspeicher, der einen Datenzugriff mit einer Latenz im Millisekundenbereich bietet. S3 wurde zum Speichern beliebiger Datentypen aus allen Speicherorten – Websites und mobilen Apps, Unternehmensanwendungen sowie Daten von IoT-Sensoren oder -Geräten – entwickelt. Mit dieser Lösung können Sie beliebige Datenmengen mit unvergleichbarer Verfügbarkeit speichern und abrufen. Sie wurde von Grund auf neu entwickelt und bietet eine Beständigkeit von 99,999999999 %. S3 Select setzt den Fokus auf das Lesen und Abrufen von Daten und reduziert die Reaktionszeiten um bis zu 400 %. S3 bietet umfassende Sicherheits- und Compliance-Funktionen, die selbst die strengsten rechtlichen Anforderungen erfüllen.  

Backup und Archivierung

Amazon Glacier

Amazon Glacier ist ein sicherer, beständiger und äußerst kostengünstiger Speicher für Langzeit-Backups und -Archivierung, der innerhalb von Minuten auf Daten zugreifen kann, während Glacier Select nur die benötigten Daten liest und abruft. Diese Lösung bietet eine Beständigkeit von 99,999999999 % und umfassende Sicherheits- und Compliance-Funktionen, die selbst die strengsten gesetzlichen Anforderungen erfüllen können. Kunden können Datenmengen zuverlässig für nur 0,004 USD pro GB und Monat speichern. Dies bedeutet eine im Vergleich zu lokalen Lösungen erhebliche Kostenersparnis.

Datenkatalog

AWS Glue

AWS Glue ist ein vollständig verwalteter Service, der einen Datenkatalog bereitstellt, damit Daten in einem Data Lake ermittelt werden können. Außerdem bietet er die Möglichkeit, Daten für Analysezwecke zu extrahieren, zu transformieren und zu laden. Der Datenkatalog wird automatisch als dauerhafter Metadatenspeicher für alle Datenressourcen erstellt. Damit können die Daten in einer einzigen Ansicht durchsucht und abgefragt werden.

Analysen

AWS bietet das umfassendste und kostengünstigste Paket mit Analyseservices, die in einem Data Lake ausgeführt werden können. Jeder Analyseservice wurde für einen großen Bereich von Analyseanwendungsfällen entwickelt, darunter interaktive Analysen, Big Data-Verarbeitung mit Apache Spark und Hadoop, Data Warehousing, Echtzeit-Analysen, Betriebsanalysen, Dashboards und Visualisierungen.

Machen Sie sich mit AWS Lake Formation vertraut, damit ein sicherer Self-Service-Zugang zu Daten in einem Data Lake für Analyseservices sichergestellt ist.

Interaktive Analysen

Amazon Athena

Bei interaktiven Analysen können Sie Daten mit Amazon Athena mithilfe von Standard-SQL-Abfragen auf einfache Weise direkt in S3 und Glacier analysieren. Athena ist serverlos, es gibt also keine Infrastruktur, Einrichtung oder Verwaltung. Sie können Daten sofort abfragen, erhalten Ergebnisse innerhalb von Sekunden und zahlen nur für die ausgeführten Abfragen. Verweisen Sie einfach auf Ihre Daten in Amazon S3, definieren Sie das Schema, und starten Sie die Abfrage mit Standard-SQL. Die meisten Ergebnisse erhalten Sie in Sekundenschnelle.  

Verarbeitung von Big Data

Amazon EMR

Bei der Verarbeitung von Big Data mit Spark- und Hadoop-Frameworks bietet Amazon EMR einen verwalteten Service, mit dem Sie große Datenmengen einfach, schnell und kostengünstig verarbeiten können. Amazon EMR unterstützt 19 verschiedene Open Source-Projekte, darunter Hadoop, Spark, HBase und Presto, mit verwalteten EMR-Notebooks für Data-Engineering, Datenwissenschaftsentwicklung und Zusammenarbeit. Jede Projekt wird innerhalb von 30 Tagen nach einer Versionsveröffentlichung in EMR aktualisiert. Damit wird sichergestellt, dass Sie ohne Aufwand stets auf die neuesten und großartigsten Beiträge der Community zugreifen können.

Data Warehousing

Amazon Redshift

Im Kontext von Data Warehousing bietet Amazon Redshift die Möglichkeit, komplexe Analyseabfragen für strukturierte Daten im Petabyte-Bereich durchzuführen. Es enthält außerdem Redshift Spectrum, das SQL-Abfragen direkt für strukturierte oder unstrukturierte Daten in S3 im Exabyte-Bereich ausführt, ohne Daten unnötigerweise zu verschieben. Amazon Redshift kostet weniger als ein Zehntel der Kosten für herkömmliche Lösungen. Wenn Sie sich zunächst für einen kleinen Einstieg entscheiden, zahlen Sie 0,25 USD pro Stunde, Sie können das Angebot jedoch auf Daten im Petabyte-Bereich skalieren. In diesem Fall entstehen Kosten von 1 000 USD pro Terabyte pro Jahr.

Echtzeitanalysen

Amazon Kinesis

Wenn Sie Echtzeit-Analysen durchführen möchten, können Sie mit Amazon Kinesis Streaming-Daten auf einfache Weise erfassen, verarbeiten und analysieren, darunter IoT-Telemetriedaten, Anwendungsprotokolle und Website-Clickstreams. Mit dieser Lösung können Sie Daten beim Eintreffen in Ihrem Data Lake verarbeiten und analysieren und in Echtzeit reagieren, anstatt warten zu müssen, bis alle Daten erfasst wurden, bevor die Verarbeitung beginnen kann.

Betriebsanalysen

Amazon Elasticsearch Service

Wenn Sie Betriebsanalysen durchführen möchten, z. B. Anwendungsüberwachungen, Protokollanalysen und Clickstream-Analysen, können Sie Ihre Daten mit Amazon Elasticsearch Service nahezu in Echtzeit durchsuchen, untersuchen, filtern, zusammenfassen und visualisieren. Amazon Elasticsearch Service bietet einfach zu verwendende APIs und Echtzeitanalysefähigkeiten von Elasticsearch sowie die Verfügbarkeit, Skalierbarkeit und Sicherheit, die für Produktionsarbeitslasten erforderlich sind.

 

Dashboards und Visualisierungen

Amazon QuickSight

Im Kontext von Dashboards und Visualisierungen bietet Amazon QuickSight einen schnellen, Cloud-basierten Geschäftsanalyseservice, der die Entwicklung beeindruckender Visualisierungen und umfangreicher Dashboards vereinfacht, auf die von jedem beliebigen Browser oder mobilen Gerät aus zugegriffen werden kann.

 

Machine Learning

Für Anwendungsfälle im Rahmen von vorausschauenden Analysen bietet AWS ein großes Angebot an Machine Learning-Services und Tools, die auf Ihrem Data Lake auf AWS ausgeführt werden können. Unsere Services basieren auf dem Wissen und der Kompetenz, die wir bei Amazon aufgebaut haben. So unterstützt ML beispielsweise die Empfehlungsalgorithmen, die Lieferkette, das Forecasting, das Fulfillment-Center sowie die Kapazitätsplanung auf Amazon.com.  

Frameworks und Schnittstellen

Für Expertenanwender im Bereich Machine Learning sowie Datenwissenschaftler bietet AWS mit AWS Deep Learning-AMIs einfache Lösungen für die Entwicklung von Deep Learning-Modellen und Clustern mit ML- und DL-optimierten GPU-Instances. AWS unterstützt alle großen ML-Frameworks, darunter Apache MXNET, TensorFlow und Caffe2, damit Sie jedes gewünschte Modell verwenden oder entwickeln können. Diese Funktionen bieten eine unvergleichbare Leistung, Geschwindigkeit und Effizienz, die für Deep Learning- und Machine Learning-Arbeitslasten benötigt werden.

Plattform-Services

Entwicklern, die tief in ML einsteigen möchten, bietet Amazon SageMaker einen Plattform-Service, der den gesamten Prozess der Entwicklung, des Trainings und der Bereitstellung von ML-Modellen vereinfacht. Dies gelingt, indem SageMaker das bereitstellt, was Sie benötigen, um eine Verbindung zu Ihren Trainingsdaten herzustellen, den besten Algorithmus und das beste Framework auszuwählen und zu optimieren und Ihr Modell auf Auto-Scaling-Clustern auf Amazon EC2 bereitzustellen. SageMaker umfasst außerdem gehostete Jupyter-Notebooks, mit denen Sie Ihre in Amazon S3 gespeicherten Trainingsdaten einfach sondieren und visualisieren können.

Anwendungsservices

Für Entwickler, die vorgefertigte KI-Funktionalität in ihre Anwendungen integrieren möchten, bietet AWS lösungsorientierte APIs für Computer Vision und die Verarbeitung von natürlicher Sprache. Mit diesen Anwendungsservices können Entwickler ihre Anwendungen um Intelligenz erweitern, ohne ihre eigenen Modelle entwickeln und trainieren zu müssen.

Mehr Data Lakes und Analysen in AWS als irgendwo sonst

Warum sollten Sie Data Lakes und Analysen in AWS verwenden?

Flexibilität und Auswahl

AWS bietet das umfassendste Paket mit Analysetools und Algorithmen, das Daten auf Basis offener Formate und Standards analysiert. Sie können Ihre Daten in dem Standarddatenformat Ihrer Wahl speichern, darunter CSV, ORC, Grok, Avro und Parquet, und Sie können den Tag flexibel auf verschiedene Arten analysieren. So können Sie beispielsweise auf Data Warehousing, interaktive SQL-Abfragen, Echtzeit-Analysen und Big Data-Verarbeitung zurückgreifen. Die große Bandbreite an Analyseservices, die Sie für Ihre Daten in AWS nutzen können, gewährleistet, dass Ihre Anforderungen für aktuelle und künftige Analyseanwendungsfälle erfüllt werden.

Unvergleichliche Skalierbarkeit und Verfügbarkeit

Mit Amazon S3 können Sie beliebige Datenmengen mit unvergleichbarer Verfügbarkeit speichern und abrufen. Sie wurde von Grund auf neu entwickelt und bietet eine Beständigkeit von 99,999999999 %. Bei dieser Lösung handelt es sich um das einzige Speicherangebot, mit dem Sie Ihre Daten in mehreren Rechenzentren über drei Availability Zones hinweg innerhalb einer einzigen AWS-Region speichern können und dabei von einer unvergleichlichen Ausfallsicherheit bei einzelnen Rechenzentrumsproblemen profitieren; außerdem ist es das einzige Speicherangebot, das Ihre Daten nahtlos zwischen verschiedenen Regionen repliziert.

Sehr sicher

S3 ist die einzige Cloud-Speicherplattform, mit der Sie Zugriffs-, Protokoll- und Auditrichtlinien auf der Konto- und Objektebene anwenden können. S3 bietet eine automatische Verschlüsselung auf Serverseite, eine Verschlüsselung mit Schlüsseln, die vom AWS Key Management Service (KMS) verwaltet werden, sowie eine Verschlüsselung mit Schlüsseln, die Sie selbst verwalten. S3 verschlüsselt unterwegs befindliche Daten, wenn Sie eine Replizierung über Regionen hinweg durchführen, außerdem können Sie separate Konten für Quell- und Zielregionen verwenden, um sich vor bösartigen Insider-Löschvorgängen zu schützen. Um Angriffe möglichst frühzeitig zu erkennen, überwacht Amazon Macie, ein ML-basierter Sicherheitsservice, Datenzugriffsaktivitäten auf Anomalien und generiert detaillierte Warnungen, wenn ein Risiko durch einen nicht autorisierten Zugriff oder unbeabsichtigte Datenlecks erkannt wird.

Kostengünstig

In AWS integrierte Data Lakes sind äußerst kostengünstig. Daten, auf die nicht häufig zugegriffen wird, können nach Amazon Glacier verschoben werden, um sie dort zu niedrigen Kosten dauerhaft zu speichern und zu archivieren. Die Verwaltungsfunktionen in Amazon S3 können Objektzugriffsmuster analysieren, um selten verwendete Daten bedarfsbasiert oder auf Basis von Lebenszyklusrichtlinien automatisch nach Glacier zu verschieben. Sie können Datenabfragen mit Amazon Athena bereits ab 0,005/GB USD durchführen. Weitere Analyse- und Machine Learning-Services werden nutzungsabhängig abgerechnet, sie zahlen also nur für die verbrauchten Ressourcen.

Hohe Leistung

AWS-Analyseservices wie Amazon Redshift und Amazon Athena wurden für eine schnelle, interaktive Abfrageleistung und ein großes Aufkommen aufeinander folgender, interaktiver Abfragen entwickelt. Wenn Sie das umfassende AWS-Paket mit Analyse- und Machine Learning-Services mit Amazon S3 Select ausführen, werden nur die Datenteilbereiche ausgegeben, die in Objekten benötigt werden. Damit können Abfragen um bis zu 400 % schneller und zu deutlich geringeren Kosten ausgeführt werden. Glacier Select bietet ähnliche Merkmale, so können Sie archivierte Daten schneller abrufen und Ihre analytischen Funktionen über Ihren Data Lake ausweiten, um auch die Archivspeicherung einzubinden.  

 

Das größte Partnernetzwerk

Das AWS-Partnernetzwerk (APN) kann mit zehntausenden Partnern, darunter Beratungsunternehmen und unabhängige Softwareanbieter aus allen Teilen der Welt, auf zweimal so viele Partnerintegrationen wie andere Netzwerke vertrauen. Damit ist es möglich, mit vielen der Tools zu arbeiten und zu integrieren, die Sie in Ihrer täglichen Arbeit schätzen. Mit Data Lake Quick Starts, die von AWS-Lösungsarchitekten und Partnern entwickelt wurden, können Sie Data Lake-Lösungen auf Basis bewährter AWS-Methoden für Sicherheit und Hochverfügbarkeit mit wenigen einfachen Schritten entwickeln, testen und bereitstellen. 

 

Erste Schritte mit AWS

Step 1 - Sign up for an AWS account

Registrieren Sie sich, um ein AWS-Konto zu erstellen

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
 
icon2

Entwickeln Sie einen sicheren Data Lake in wenigen Tagen

Erfahren Sie mehr über AWS Lake Formation

 
icon3

Beginnen Sie die Erstellung mit AWS

Erfahren Sie mehr über die Bereitstellung von Data Lakes auf AWS

 

Erste Schritte mit Data Lakes auf AWS

Stellen Sie einen Data Lake mit AWS Quick Starts bereit
Haben Sie weitere Fragen?
Kontakt