Was ist ein Lake-House-Ansatz?

Nahtlose Integration von Data Lake, Data Warehouse und speziell entwickelten Datenspeichern

Lake-House-Ansatz – wie alles funktioniert

Der Lake-House-Ansatz trägt der Tatsache Rechnung, dass ein einheitlicher Ansatz für die Analytik letztendlich zu Kompromissen führt. Dabei geht es nicht nur um die Integration eines Data Lakes mit einem Data Warehouse, sondern vielmehr um die Integration eines Data Lakes, eines Data Warehouses und zweckbestimmter Speicher, die eine einheitliche Governance und eine einfache Datenbewegung ermöglichen. Mithilfe einer Lake House-Architektur auf AWS können Kunden Daten in einem Data Lake speichern und einen Ring aus speziell entwickelten Datenservices um den Lake herum nutzen, um schnell und flexibel Entscheidungen zu treffen, und zwar in einem Umfang und zu einem Preis-Leistungs-Verhältnis, das auf dem Markt unübertroffen ist.

Eine Lake-House-Architektur erfordert, dass Kunden:

  • Skalierbare Data- Lakes schnell aufbauen
  • Eine breite und tiefe Sammlung zweckgebundener Datendienste nutzen
  • Die Compliance durch eine einheitliche Methode zur Sicherung, Überwachung und Verwaltung des Zugriffs auf Ihre Daten sicherstellen
  • Ihre Systeme ohne Leistungseinbußen kostengünstig skalieren
Wie es funktioniert – Lake-House-Ansatz

Warum Sie einen Lake-House-Ansatz brauchen

Das Datenvolumen wächst in einem noch nie dagewesenen Ausmaß, das von Terabytes auf Petabytes und manchmal sogar Exabytes ansteigt. Herkömmliche On-Premises-Datenanalytik kann diese Datenmengen nicht bewältigen, da sie nicht ausreichend skalierbar und zu teuer ist. Viele Unternehmen fassen alle Daten aus verschiedenen Silos an einem Ort zusammen, den viele als Data Lake bezeichnen, um Analysen und ML direkt auf diesen Daten durchzuführen. Zu anderen Zeiten speichern dieselben Unternehmen andere Daten in eigens dafür eingerichteten Datenspeichern, um strukturierte und unstrukturierte Daten zu analysieren und schnelle Erkenntnisse daraus zu gewinnen. Diese Datenübermittlung kann „von innen nach außen“, „von außen nach innen“ oder „um den Rand herum“ erfolgen, denn Daten werden träge.

  • Von innen nach außen
  • Von außen nach innen
  • Um den Rand herum
  • Data Gravity
  • Von innen nach außen
  • Datenübermittlung von innen nach außen

    Kunden, die Daten in einem Data Lake speichern und dann einen Teil dieser Daten in einen eigens dafür eingerichteten Datenspeicher verschieben, um zusätzliche Machine Learning- oder Analytikverfahren durchzuführen.

    Beispiel: Clickstream-Daten aus Webanwendungen können direkt in einem Data Lake gesammelt werden, und ein Teil dieser Daten kann für die tägliche Berichterstattung in ein Data Warehouse ausgelagert werden. Wir bezeichnen dieses Konzept als Datenübermittlung von innen nach außen.

    Datenübermittlung von innen nach außen
  • Von außen nach innen
  • Datenübermittlung von außen nach innen

    Kunden speichern Daten in speziellen Datenspeichern wie einem Data Warehouse oder einer Datenbank und verschieben diese Daten in einen Data Lake, um Analysen mit diesen Daten durchzuführen. 

    Beispiel: Sie kopieren Abfrageergebnisse für Produktverkäufe in einer bestimmten Region aus ihrem Data Warehouse in ihren Data Lake, um Produktempfehlungsalgorithmen mit Hilfe von ML gegen einen größeren Datensatz laufen zu lassen.

    Datenübermittlung von außen nach innen
  • Um den Rand herum
  • Datenübermittlung um den Rand herum

    Nahtlose Integration von Data Lake, Data Warehouse und speziell entwickelten Datenspeichern. 

    Beispiel: Sie können die in ihrer Datenbank gespeicherten Produktkatalogdaten in ihren Suchdienst kopieren, um das Durchsuchen ihres Produktkatalogs zu erleichtern und die Suchanfragen von der Datenbank zu entlasten.

    Datenübermittlung von außen nach innen
  • Data Gravity
  • Data Gravity

    Da die Daten in diesen Data Lakes und zweckgebundenen Speichern immer weiter wachsen, wird es immer schwieriger, all diese Daten zu verschieben, denn Daten werden träge. Ebenso wichtig ist es, dafür zu sorgen, dass die Daten problemlos und mit den richtigen Kontrollen dorthin gelangen können, wo sie benötigt werden, um Analysen und Erkenntnisse zu ermöglichen.

    Data Gravity

Säulen des Lake-House-Ansatzes

Unternehmen nehmen ihre Daten aus verschiedenen Silos und führen sie an einem Ort zusammen, um Analytik und Machine Learning auf diesen Daten durchzuführen. Um den größtmöglichen Nutzen daraus zu ziehen, müssen sie einen Lake-House-Ansatz nutzen, der es ihnen ermöglicht, Daten problemlos zwischen Data Lakes und zweckgebundenen Datenspeichern zu verschieben. Diese moderne Art der Architektur erfordert:

Mehr Kunden bauen Lake Houses auf AWS als irgendwo sonst

  • lake_house_customers_logo_bmw
  • lake_house_customers_logo_nielsen
  • lake_house_customers_logo_engie
  • BMW-Gruppe
  • BMW-Gruppe
    BMW-Gruppe

    Zur Beschleunigung von Innovationen und zur Demokratisierung der Datennutzung im großen Maßstab migrierte die BMW-Gruppe ihren On-Premises Data Lake zu einem von Amazon S3 betriebenen Data Lake. BMW verarbeitet nun täglich mehrere TB an Telemetriedaten von Millionen von Fahrzeugen und löst Probleme, bevor sie sich auf die Kunden auswirken.

    Fallstudie lesen 
  • Nielsen
  • Nielsen
    Nielsen

    Nielsen, ein weltweit tätiges Mess- und Datenanalytikunternehmen, konnte durch die Nutzung einer modernen Cloud-Technologie die Datenmenge, die es täglich erfassen, verarbeiten und an seine Kunden weitergeben kann, drastisch erhöhen. Die Zahl der täglich gemessenen Haushalte stieg von 40.000 auf mehr als 30 Millionen.

    Fallstudie lesen 
  • Engie
  • Engie
    lake_house_customers_logo_engie

    ENGIE ist eines der größten Versorgungsunternehmen Frankreichs mit 160.000 Mitarbeitern und 40 Geschäftsbereichen in 70 Ländern. Der fast 100 TB große Data Lake des Common Data Hub nutzt AWS-Services, um die Geschäftsanforderungen in den Bereichen Datenwissenschaft, Marketing und Betrieb zu erfüllen.

    Fallstudie lesen 

Partner

Erfahren Sie, wie unsere Partner Unternehmen beim Aufbau einer modernen Datenarchitektur mit dem Lake House-Ansatz auf AWS unterstützen.

Cloudera

Cloudera

Mit dem Betrieb von Cloudera Enterprise auf AWS steht IT- und Fachanwendern eine Datenmanagement-Plattform zur Verfügung, die als Grundlage für moderne Datenverarbeitung und -analyse dienen kann.

Weitere Informationen »

Informatica Cloud

Informatica Cloud

Informatica Cloud bietet eine optimierte Integration in die AWS-Datendienste mit nativer Konnektivität zu über 100 Anwendungen.

Weitere Informationen »

Dataguise

Dataguise

Dataguise ist führend im Bereich der sicheren Geschäftsabwicklung und liefert datenzentrische Sicherheitslösungen, die die sensiblen Daten eines Unternehmens erkennen und schützen – unabhängig davon, wo sich das Unternehmen befindet oder wer sie nutzen muss.

Weitere Informationen »

Alluxio Data Orchestration

Alluxio Data Orchestration

Alluxio Data Orchestration ermöglicht Kunden eine bessere Nutzung wichtiger AWS-Services, wie EMR und S3 für Analyse und KI-Workloads.

Weitere Informationen »

Erste Schritte

AWS Data Driven Everything-Programm

AWS Data-Driven Everything
Im AWS-Data-Driven-EVERYTHING (D2E)-Programm bildet AWS eine Partnerschaft mit unseren Kunden, um schneller und präziser um mit einem viel ehrgeizigeren Umfang voranzuschreiten, damit Ihr eigenes Daten-Schwungrad in die Gänge kommt.

Weitere Informationen »

AWS Data Lab

AWS Data Lab
Das AWS Data Lab bietet beschleunigte, gemeinsame Eingineering-Engagements zwischen Kunden und technischen Ressourcen von AWS, um greifbare Ergebnisse zu erzielen, die die Modernisierung von Daten- und Analyse-Initiativen vorantreiben.

Weitere Informationen »

AWS-Analytik- und Big Data-Referenzarchitektur

AWS-Analytik- und Big Data-Referenzarchitektur
Erfahren Sie mehr über bewährte Methoden für Architektur für Cloud-Datenanalyse, Data Warehousing und Datenverwaltung auf AWS.

Weitere Informationen »