Data Lakes und Analysen auf AWS

Der schnellster Weg Antworten von all Ihren Daten an alle Ihre Benutzer zu schicken

AWS bietet ein integriertes Servicepaket, das alles enthält, was Sie für die schnelle und einfache Entwicklung und Verwaltung eines Data Lake für Analysezwecke benötigen. AWS-basierte Data Lakes können die Skalierbarkeit, Agilität und Flexibilität verarbeiten, die erforderlich sind, um verschiedene Arten von Daten und Analyseverfahren zu kombinieren und tiefere Einblicke zu gewinnen. Herkömmliche Datensilos und Data Warehouses bieten diese Eigenschaften nicht. AWS bietet Kunden das größte Angebot an Analyse- und Machine Learning-Services und ermöglicht einen einfachen Zugriff auf alle relevanten Daten, ohne dass die Kunden Abstriche bei Sicherheit oder Governance in Kauf nehmen müssen.

Auf AWS sind mehr Organisationen mit Data Lakes vertreten als in anderen Cloud-Lösungen. Kunden wie NASDAQ, Zillow, Yelp, iRobot und FINRA vertrauen bei der Verarbeitung geschäftskritischer Analyse-Arbeitslasten auf AWS.

Data Lakes und Analysen auf AWS

Data Lakes und Analysen auf AWS

Um Ihre Data Lake- und Analyselösung zu entwickeln, gibt AWS Ihnen das umfangreichste Servicepaket an die Hand, damit Sie Ihre Daten verlagern, speichern und analysieren können.

aws-datalake-diagram-simplified

Datenverlagerung

Importieren Sie Ihre Daten in Echtzeit von standortbasierten Speicherorten.

Data Lake

Speichern Sie beliebige Datentypen im Giga- bis zum Exabyte-Bereich sicher.

Analysen

Analysieren Sie Ihre Daten mit dem umfangreichsten Paket an Analyseservices.

Machine Learning

Prognostizieren Sie künftige Ergebnisse, und definieren Sie Maßnahmen für schnelle Reaktionen.

Warum sollten Sie Data Lakes und Analysen in AWS verwenden?

Einfachstes Erstellen von Data Lakes

Entwickeln Sie einen sicheren Data Lake in wenigen Tagen anstatt Monaten. Unsere Erfahrung in der Zusammenarbeit mit Zehntausenden von Kunden beim Aufbau produktiver Data Lakes hat es uns ermöglicht, jeden Aspekt der Datenanalyse in der Cloud einfacher zu gestalten. AWS Lake Formation automatisiert beispielsweise die manuellen Schritte, die für den Aufbau eines Data Lakes erforderlich sind, und bietet einen einzigen Sicherheitsmechanismus für alle Ihre Daten, so dass Sie weniger Zeit mit undifferenzierten schweren Aufgaben verbringen, der für den Aufbau eines Data Lakes erforderlich ist, und mehr Zeit mit der Erforschung Ihrer Daten für Antworten auf Ihre wichtigsten Fragen verbringen.

Beste Leistung bei niedrigsten Kosten

AWS ist der schnellste und kostengünstigste Ort, um Daten zu speichern und zu analysieren. Amazon S3 bietet beispielsweise fünf Speicherklassen und ein automatisches Datenlebenszyklusmanagement, so dass Sie nur bezahlen, was für Ihre Daten je nach Verwendung benötigt wird. Amazon Redshift ist drei Mal schneller als jedes andere Cloud-basierte Data Warehouse und wird jedes Jahr noch schneller. Amazon EMR bietet die schnellste Möglichkeit, Apache Spark und Apache HIVE Workloads in der Cloud auszuführen. Die tiefe Integration von EMR in den Rest von AWS macht es einfach, kostensparende Funktionen wie EC2 Spot-Instances zu nutzen, um die Kosten um bis zu 90 % zu senken.

Sehr umfangreich und offen

Das Speichern all Ihrer Daten in einem einzigen isolierten Analytikdienst funktioniert nicht mehr. Moderne Analysen erfordern eine Sammlung verschiedener Tools und Ansätze, darunter SQL, R, Scala, Jupyter und Python, um die richtigen Erkenntnisse und Antworten in verschiedenen Sprachen zu erhalten. AWS bietet eine ausgereifte und umfassende Palette von Analysediensten, die auf dem offenen Data Lake laufen, so dass Sie das richtige Werkzeug für die richtige Aufgabe verwenden können, ohne Daten für jeden einzelnen Analyseansatz verschieben oder transformieren zu müssen. Alle unsere Dienste unterstützen den Zugriff auf Daten, die in einem einzigen Objektspeicher (S3) mit offenen APIs gespeichert sind, in offenen Formaten (z. B. Apache Paquet, Apache ORC, Apache Avro) und verwenden sowohl proprietäre (Redshift für Data-Warehousing) als auch offene Engines (z. B. Spark, Hive). 

Höchstes Sicherheitsniveau

Die Sicherheit Ihrer Daten und die Einhaltung der einschlägigen Vorschriften sind unerlässlich. AWS bietet eine umfassende Palette von Tools, die über die Standard-Sicherheitsfunktionen wie Verschlüsselung und Zugriffskontrolle hinausgeht, bis hin zur proaktiven Überwachung und einheitlichen Verwaltung von Sicherheitsrichtlinien. So hilft Amazon Macie beispielsweise bei der Überwachung Ihres Data Lakes, um sicherzustellen, dass Sie nicht versehentlich Zugangsdaten oder persönlich identifizierbare Informationen (PII) preisgeben. Amazon Inspector hilft bei der Durchsetzung von Best Practices und der Identifizierung von Konfigurationsproblemen, die ausgenutzt werden könnten. AWS Lake Formation ermöglicht es Ihnen, den Zugriff auf Daten in Ihrem Data Lake über alle Analysedienste hinweg konsequent zu kontrollieren. 

Datenverlagerung

Der erste Schritt bei der Entwicklung von Data Lakes auf AWS besteht in der Verlagerung Ihrer Daten in die Cloud. Die physischen Beschränkungen bei Bandbreite und Übertragungsgeschwindigkeiten beschränken die Möglichkeiten, Daten ohne starke Verzögerungen, hohe Kosten und einen hohen Zeitaufwand umzulagern. Für eine einfache und flexible Datenübertragung stellt AWS das umfangreichste Optionspaket für die Übertragung von Daten in die Cloud zur Verfügung.

Wenn Sie ETL-Aufgaben und ML Transforms für Ihren Data Lake entwickeln möchten, finden Sie weitere Informationen unter AWS Lake Formation.

Standortbasierte Datenverlagerung

AWS bietet zahlreiche Möglichkeiten, Daten von Ihrem Rechenzentrum nach AWS zu verlagern. Für den Aufbau einer dedizierten Netzwerkverbindung zwischen Ihrem Netzwerk und AWS können Sie AWS Direct Connect verwenden. Um mithilfe physischer Appliances Petabytes bin hin zu Exabytes an Daten nach AWS zu verlagern, können Sie AWS Snowball und AWS Snowmobile verwenden. Wenn Ihre standortbasierten Anwendungen Daten direkt nach AWS speichern sollen, verwenden Sie AWS Storage Gateway.  

Datenverlagerung in Echtzeit

AWS bietet mehrere Optionen, um Echtzeitdaten aufzunehmen, die aus neuen Quellen wie Websites, mobilen Apps und mit dem Internet verbundenen Geräten generiert wurden. Um das Erfassen und Laden von Streaming-Daten oder IoT-Gerätedaten zu vereinfachen, können Sie Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams und AWS IoT Core verwenden.  

Data Lake

Sobald die Daten für die Cloud geeignet sind, erleichtert AWS Ihnen die sichere Speicherung sowie die Speicherung in großem Umfang von Daten mit Amazon S3 and Amazon Glacier in beliebigen Formaten. Um es Endbenutzern zu vereinfachen, die für ihre Analysen relevanten Daten zu ermitteln, erstellt AWS Glue automatisch einen Katalog, den Benutzer durchsuchen und abfragen können.

Weitere Informationen zur zügigen Erstellung eines sicheren Data Lakes finden Sie, wenn Sie sich mit AWS Lake Formation beschäftigen.

Objektspeicher

Amazon S3

Amazon S3 ist ein sicherer, hochgradig skalierbarer, dauerhafter Objektspeicher, der einen Datenzugriff mit einer Latenz im Millisekundenbereich bietet. S3 wurde zum Speichern beliebiger Datentypen aus allen Speicherorten – Websites und mobilen Apps, Unternehmensanwendungen sowie Daten von IoT-Sensoren oder -Geräten – entwickelt. Mit dieser Lösung können Sie beliebige Datenmengen mit unvergleichbarer Verfügbarkeit speichern und abrufen. Sie wurde von Grund auf neu entwickelt und bietet eine Beständigkeit von 99,999999999 %. S3 Select setzt den Fokus auf das Lesen und Abrufen von Daten und reduziert die Reaktionszeiten um bis zu 400 %. S3 bietet umfassende Sicherheits- und Compliance-Funktionen, die selbst die strengsten rechtlichen Anforderungen erfüllen.  

Backup und Archivierung

Amazon Glacier

Amazon Glacier ist ein sicherer, beständiger und äußerst kostengünstiger Speicher für Langzeit-Backups und -Archivierung, der innerhalb von Minuten auf Daten zugreifen kann, während Glacier Select nur die benötigten Daten liest und abruft. Diese Lösung bietet eine Beständigkeit von 99,999999999 % und umfassende Sicherheits- und Compliance-Funktionen, die selbst die strengsten gesetzlichen Anforderungen erfüllen können. Kunden können Datenmengen zuverlässig für nur 0,004 USD pro GB und Monat speichern. Dies bedeutet eine im Vergleich zu lokalen Lösungen erhebliche Kostenersparnis.

Datenkatalog

AWS Glue

AWS Glue ist ein vollständig verwalteter Service, der einen Datenkatalog bereitstellt, damit Daten in einem Data Lake ermittelt werden können. Außerdem bietet er die Möglichkeit, Daten für Analysezwecke zu extrahieren, zu transformieren und zu laden. Der Datenkatalog wird automatisch als dauerhafter Metadatenspeicher für alle Datenressourcen erstellt. Damit können die Daten in einer einzigen Ansicht durchsucht und abgefragt werden.

Analysen

AWS bietet das umfassendste und kostengünstigste Paket mit Analyseservices, die in einem Data Lake ausgeführt werden können. Jeder Analyseservice wurde für einen großen Bereich von Analyseanwendungsfällen entwickelt, darunter interaktive Analysen, Big Data-Verarbeitung mit Apache Spark und Hadoop, Data Warehousing, Echtzeit-Analysen, Betriebsanalysen, Dashboards und Visualisierungen.

Machen Sie sich mit AWS Lake Formation vertraut, damit ein sicherer Self-Service-Zugang zu Daten in einem Data Lake für Analyseservices sichergestellt ist.

Interaktive Analysen

Amazon Athena

Bei interaktiven Analysen können Sie Daten mit Amazon Athena mithilfe von Standard-SQL-Abfragen auf einfache Weise direkt in S3 und Glacier analysieren. Athena ist serverlos, es gibt also keine Infrastruktur, Einrichtung oder Verwaltung. Sie können Daten sofort abfragen, erhalten Ergebnisse innerhalb von Sekunden und zahlen nur für die ausgeführten Abfragen. Verweisen Sie einfach auf Ihre Daten in Amazon S3, definieren Sie das Schema, und starten Sie die Abfrage mit Standard-SQL. Die meisten Ergebnisse erhalten Sie in Sekundenschnelle.  

Verarbeitung von Big Data

Amazon EMR

Bei der Verarbeitung von Big Data mit Spark- und Hadoop-Frameworks bietet Amazon EMR einen verwalteten Service, mit dem Sie große Datenmengen einfach, schnell und kostengünstig verarbeiten können. Amazon EMR unterstützt 19 verschiedene Open Source-Projekte, darunter Hadoop, Spark, HBase und Presto, mit verwalteten EMR-Notebooks für Data-Engineering, Datenwissenschaftsentwicklung und Zusammenarbeit. Jede Projekt wird innerhalb von 30 Tagen nach einer Versionsveröffentlichung in EMR aktualisiert. Damit wird sichergestellt, dass Sie ohne Aufwand stets auf die neuesten und großartigsten Beiträge der Community zugreifen können.

Data Warehousing

Amazon Redshift

Im Kontext von Data Warehousing bietet Amazon Redshift die Möglichkeit, komplexe Analyseabfragen für strukturierte Daten im Petabyte-Bereich durchzuführen. Es enthält außerdem Redshift Spectrum, das SQL-Abfragen direkt für strukturierte oder unstrukturierte Daten in S3 im Exabyte-Bereich ausführt, ohne Daten unnötigerweise zu verschieben. Amazon Redshift kostet weniger als ein Zehntel der Kosten für herkömmliche Lösungen. Wenn Sie sich zunächst für einen kleinen Einstieg entscheiden, zahlen Sie 0,25 USD pro Stunde, Sie können das Angebot jedoch auf Daten im Petabyte-Bereich skalieren. In diesem Fall entstehen Kosten von 1 000 USD pro Terabyte pro Jahr.

Echtzeitanalysen

Amazon Kinesis

Wenn Sie Echtzeit-Analysen durchführen möchten, können Sie mit Amazon Kinesis Streaming-Daten auf einfache Weise erfassen, verarbeiten und analysieren, darunter IoT-Telemetriedaten, Anwendungsprotokolle und Website-Clickstreams. Mit dieser Lösung können Sie Daten beim Eintreffen in Ihrem Data Lake verarbeiten und analysieren und in Echtzeit reagieren, anstatt warten zu müssen, bis alle Daten erfasst wurden, bevor die Verarbeitung beginnen kann.

Betriebsanalysen

Amazon Elasticsearch Service

Wenn Sie Betriebsanalysen durchführen möchten, z. B. Anwendungsüberwachungen, Protokollanalysen und Clickstream-Analysen, können Sie Ihre Daten mit Amazon Elasticsearch Service nahezu in Echtzeit durchsuchen, untersuchen, filtern, zusammenfassen und visualisieren. Amazon Elasticsearch Service bietet einfach zu verwendende APIs und Echtzeitanalysefähigkeiten von Elasticsearch sowie die Verfügbarkeit, Skalierbarkeit und Sicherheit, die für Produktionsarbeitslasten erforderlich sind.

 

Dashboards und Visualisierungen

Amazon QuickSight

Im Kontext von Dashboards und Visualisierungen bietet Amazon QuickSight einen schnellen, Cloud-basierten Geschäftsanalyseservice, der die Entwicklung beeindruckender Visualisierungen und umfangreicher Dashboards vereinfacht, auf die von jedem beliebigen Browser oder mobilen Gerät aus zugegriffen werden kann.

 

Machine Learning

Für Anwendungsfälle im Rahmen von vorausschauenden Analysen bietet AWS ein großes Angebot an Machine Learning-Services und Tools, die auf Ihrem Data Lake auf AWS ausgeführt werden können. Unsere Services basieren auf dem Wissen und der Kompetenz, die wir bei Amazon aufgebaut haben. So unterstützt ML beispielsweise die Empfehlungsalgorithmen, die Lieferkette, das Forecasting, das Fulfillment-Center sowie die Kapazitätsplanung auf Amazon.com.  

Frameworks und Schnittstellen

Für Expertenanwender im Bereich Machine Learning sowie Datenwissenschaftler bietet AWS mit AWS Deep Learning-AMIs einfache Lösungen für die Entwicklung von Deep Learning-Modellen und Clustern mit ML- und DL-optimierten GPU-Instances. AWS unterstützt alle großen ML-Frameworks, darunter Apache MXNET, TensorFlow und Caffe2, damit Sie jedes gewünschte Modell verwenden oder entwickeln können. Diese Funktionen bieten eine unvergleichbare Leistung, Geschwindigkeit und Effizienz, die für Deep Learning- und Machine Learning-Arbeitslasten benötigt werden.

Plattform-Services

Entwicklern, die tief in ML einsteigen möchten, bietet Amazon SageMaker einen Plattform-Service, der den gesamten Prozess der Entwicklung, des Trainings und der Bereitstellung von ML-Modellen vereinfacht. Dies gelingt, indem SageMaker das bereitstellt, was Sie benötigen, um eine Verbindung zu Ihren Trainingsdaten herzustellen, den besten Algorithmus und das beste Framework auszuwählen und zu optimieren und Ihr Modell auf Auto-Scaling-Clustern auf Amazon EC2 bereitzustellen. SageMaker umfasst außerdem gehostete Jupyter-Notebooks, mit denen Sie Ihre in Amazon S3 gespeicherten Trainingsdaten einfach sondieren und visualisieren können.

Anwendungsservices

Für Entwickler, die vorgefertigte KI-Funktionalität in ihre Anwendungen integrieren möchten, bietet AWS lösungsorientierte APIs für Computer Vision und die Verarbeitung von natürlicher Sprache. Mit diesen Anwendungsservices können Entwickler ihre Anwendungen um Intelligenz erweitern, ohne ihre eigenen Modelle entwickeln und trainieren zu müssen.

Mehr Data Lakes und Analysen in AWS als irgendwo sonst

Erste Schritte mit AWS

Step 1 - Sign up for an AWS account

Registrieren Sie sich, um ein AWS-Konto zu erstellen

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
 
icon2

Entwickeln Sie einen sicheren Data Lake in wenigen Tagen

Erfahren Sie mehr über AWS Lake Formation

 
icon3

Beginnen Sie die Erstellung mit AWS

Erfahren Sie mehr über die Bereitstellung von Data Lakes auf AWS

 

Erste Schritte mit Data Lakes auf AWS

Stellen Sie einen Data Lake mit AWS Lake Formation bereit
Haben Sie noch Fragen?
Kontakt