AWS Lake Formation

Entwickeln Sie einen sicheren Data Lake in wenigen Tagen

AWS Lake Formation ist ein Service, der es Ihnen ermöglicht, innerhalb weniger Tage einen sicheren Data Lake einzurichten. Ein Data Lake ist ein zentralisiertes, verwaltetes und gesichertes Repository, das alle Ihre Daten speichert, sowohl in ihrer ursprünglichen Form als auch zur Analyse vorbereitet. Ein Data Lake ermöglicht es Ihnen, Datensilos zu zerlegen und verschiedene Arten von Analysen zu kombinieren, um so Einsichten zu gewinnen und bessere Geschäftsentscheidungen treffen zu können.

Die Einrichtung und Verwaltung von Data Lakes ist heute mit vielen manuellen, komplizierten und zeitaufwändigen Aufgaben verbunden. Diese Arbeit umfasst das Laden von Daten aus verschiedenen Quellen, das Überwachen dieser Datenflüsse, das Einrichten von Partitionen, das Aktivieren von Verschlüsselung und Schlüsselverwaltung, das Definieren von Transformationsjobs und das Überwachen ihres Betriebs, das Reorganisieren von Daten in ein spaltenförmiges Format, das Deduplizieren redundanter Daten und das Abgleichen verknüpfter Datensätze. Sobald die Daten in den Data Lake geladen wurden, müssen Sie einen fein abgestuften Zugriff auf die Datensätze gewähren und den Zugriff im Laufe der Zeit über eine breite Palette von Analyse- und ML-Tools und -Services überprüfen.

Das Erstellen eines Data Lake mit Lake Formation ist so einfach wie das Definieren von Datenquellen und der anzuwendenden Zugriffs- und Sicherheitsrichtlinien. Lake Formation hilft Ihnen dann beim Sammeln und Katalogisieren von Daten aus Datenbanken und Objektspeichern, beim Verschieben der Daten in Ihren neuen Amazon-Simple-Storage-Service (S3)-Data-Lake, beim Bereinigen und Klassifizieren Ihrer Daten mithilfe von ML-Algorithmen und beim sicheren Zugriff auf Ihre vertraulichen Daten, mithilfe von granularen Kontrollen auf Spalten-, Zeilen- und Zellenebene. Ihre Benutzer können auf einen zentralen Datenkatalog zugreifen, der die verfügbaren Datensätze und ihre entsprechende Verwendung beschreibt. Sie verwenden diese Datensätze dann mit den Analytik- und ML-Services ihrer Wahl, wie Amazon Redshift, Amazon Athena, Amazon EMR for Apache Spark und Amazon QuickSight. Lake Formation baut auf den in AWS Glue verfügbaren Funktionen auf.

AWS re:Invent 2018 - Ankündigung von AWS Lake Formation (2:44)

Vorteile

Schnelle Erstellung von Data Lakes

Mit Lake Formation können Sie Ihre Daten schneller verschieben, speichern, katalogisieren und bereinigen. Sie stellen Lake Formation einfach den Pfad zu Ihren Datenquellen zur Verfügung und es scannt Ihre Quellen und verschiebt die Daten in Ihren neuen Amazon S3 Data Lake. Lake Formation organisiert Daten in S3 auf Basis häufig verwendeter Abfragebegriffe in angemessen dimensionierte Blöcke, um die Effizienz zu steigern. Es wandelt Daten auch zur schnelleren Analyse in Formate wie Apache Parquet und ORC um. Darüber hinaus besitzt Lake Formation integrierte ML-Funktionen, um übereinstimmende Datensätze (Einträge mit identischem Zielverweis) zu deduplizieren und zu finden. So kann die Datenqualität gesteigert werden.

Vereinfachte Sicherheitsverwaltung

Lake Formation bietet einen zentralen Ort zur Definition und Durchsetzung von Zugriffskontrollen, die auf Tabellen-, Spalten-, Zeilen- und Zellenebene für alle Benutzer und Services, die auf Ihre Daten zugreifen, funktionieren. Ihre Richtlinien werden einheitlich umgesetzt. Somit entfällt die Notwendigkeit, sie manuell in allen Sicherheitsservices, wie zum Beispiel AWS Identity and Access Management (IAM) und AWS Key Management Service (KMS), Speicherservices wie S3 und Analyse- und ML-Services wie Redshift, Athena, AWS Glue und EMR für Apache Spark zu konfigurieren. Damit sparen Sie Mühe bei der Konfiguration serviceübergreifender Richtlinien und ermöglichen eine einheitliche Durchsetzung und Compliance.

Bieten Sie Self-Service-Zugriff auf Daten

Mit Lake Formation erstellen Sie einen Datenkatalog, der die unterschiedlichen verfügbaren Datensätze sowie die zum Zugriff berechtigten Benutzergruppen beschreibt. So steigern Sie die Produktivität Ihrer Benutzer, indem Sie ihnen dabei helfen, den richtigen Datensatz zur Analyse zu finden. Durch die Bereitstellung eines Datenkatalogs mit einheitlicher Sicherheitsdurchsetzung macht Lake Formation es für Ihre Analysten und Datenwissenschaftler einfacher, ihren bevorzugten Analyseservice zu verwenden. Sie können EMR für Apache Spark, Redshift, Athena, AWS Glue und Amazon QuickSight mit verschiedensten Datensätzen verwenden, die in einem einzigen Data Lake gespeichert werden. Benutzer können diese Services auch kombinieren, ohne Daten zwischen Silos verschieben zu müssen.

Funktionsweise

Funktionsweise

Lake Formation hilft Ihnen bei der Erstellung, Sicherung und Verwaltung Ihres Data Lake. Ermitteln Sie als nächstes bestehende Datenspeicher in S3 oder relationalen und NoSQL-Datenbanken und verschieben Sie die Daten in Ihren Data Lake. Scannen, katalogisieren und bereiten Sie die Daten dann zur Analyse vor. Stellen Sie Ihren Benutzern anschließend einen sicheren Self-Service-Zugriff auf die Daten über die Analyseservices ihrer Wahl bereit. Andere AWS-Services und Drittanbieteranwendungen können ebenfalls über die gezeigten Services auf Daten zugreifen. Lake Formation verwaltet alle Aufgaben gezeigt im orangefarbenen Kasten und ist mit den in den blauen Kästen gezeigten Datenspeichern und Services kompatibel.

Anwendungsfälle

Schnelle Erstellung von Data Lakes

Verwenden Sie Vorlagen in Lake Formation, um Ihre Daten schneller zu verschieben, zu speichern, zu katalogisieren, zu bereinigen und zu organisieren. Konvertieren Sie Daten in Formate wie Parquet und ORC, um Analysen zu beschleunigen, und nutzen Sie die integrierte ML-Funktion, um Duplikate zu entfernen und passende Datensätze zu finden. Vereinfachen Sie die Speicherung und Pflege Ihrer Daten mit Governed Tables, einem neuen Typ von Amazon-S3-Tabellen. Governed Tables verwenden ACID-Transaktionen (atomic, consistent, isolated, and durable), die Konflikte automatisch verwalten und konsistente Datenansichten für alle Benutzer gewährleisten. Governed Tables überwacht und optimiert auch automatisch Ihre Daten, um die Leistung der Maschine bei der Abfrage der Governed Tables zu verbessern.

Zentrale Definition und Verwaltung von Zugriffskontrollen

Lake Formation bietet einen zentralen Ort zum Definieren, Klassifizieren, Markieren und Verwalten fein abgestufter Berechtigungen für Daten in Amazon S3. Sie können eine hierarchische Liste von Tags definieren, Tags zu Datenbanken, Tabellen und Spalten zuordnen und die Sicherheit auf Spalten- und Zellenebene konfigurieren.

Durchsetzung der Datenklassifizierung und des differenzierten Zugriffs

Lake Formation setzt Richtlinien durch, ohne dass die Datenzugriffskontrollen in jedem konsumierenden Service konfiguriert werden müssen. Lake Formation filtert Daten automatisch und gibt nur die Daten an autorisierte Benutzer weiter, die gemäß der definierten Richtlinie zulässig sind, ohne dass Daten dupliziert werden müssen.

Ermöglichen Sie kontinuierliches Datenmanagement, Zeitreisen und Speicheroptimierung

Verbessern Sie die Zuverlässigkeit und Vertrauenswürdigkeit des Data Lake für die Aktualisierung von Batch- und Streaming-Daten. Fragen Sie historische Datenversionen ab und prüfen Sie die geänderten Daten. Komprimieren Sie kleine Dateien automatisch und aktivieren Sie Push-Down-Filtern zur Reduzierung von Datenscans und Verbesserung der Abfrageleistung.

Ermöglichen Sie föderierte Data Lakes mit kontoübergreifender Freigabe

Stellen Sie dezentralisierte, bereichsorientierte Datenprodukte für Ihr gesamtes Unternehmen bereit, indem Sie einen geregelten Datenaustausch mit minimaler oder gar keiner Datenverschiebung nutzen.

Für mehr Informationen besuchen Sie „Was ist ein Data Lake?“.

Kunden

Nu Skin

Nu Skin Enterprises ist ein globales Direktvertriebsunternehmen, das mehr als 200 hochwertige Anti-Aging-Produkte in den Kategorien Körperpflege und Nahrungsergänzungsmittel anbietet.

„Die Kapazitäten und der Scaling-Durchsatz unserer bestehenden Analysesysteme stellten uns vor eine Herausforderung. Unsere Daten waren auf mehrere nicht verbundene Datenbanken und SaaS-Lösungen verteilt, was es schwierig machte, Daten im erforderlichen Umfang zu analysieren und gleichzeitig den Zugriff auf sensible Daten einzuschränken. Um diese Herausforderung zu bewältigen, bauten wir eine Data-Lake-Lösung in AWS auf. Damit waren wir in der Lage, Daten aus verschiedenen Datensilos in Amazon S3 zu aggregieren, wo wir alle Daten mithilfe von AWS Lake Formation katalogisieren und sichern konnten. Ohne AWS Lake Formation wäre es unmöglich gewesen, unser Ziel einer skalierbaren, benutzerfreundlichen Sicherheitsebene für alle Daten auf Amazon S3 zu erreichen. Die Einrichtung und Anwendung differenzierter Zugriffskontrollen auf Grundlage von Benutzerpersönlichkeiten war einfach.“

Joe Sueper, VP Enterprise Architecture, Global Technology Services - Nu Skin Enterprises

Panasonic

Die Panasonic Avionics Corporation ist der weltweit führende Anbieter von Unterhaltungs- und Kommunikationssystemen an Bord.

„Wir wollten eine Datenplattform schaffen, mit der die Sicherheitseinstellungen für alle verschiedenen Anwendungen in unserer Umgebung verwaltet werden können. Mit AWS Lake Formation können wir jetzt Richtlinien für mehrere von uns verwendete Services, einschließlich AWS Glue und Amazon Athena, einmal definieren und überall auf die gleiche Weise durchsetzen. Die erweiterte Kontrollebene ermöglicht uns den sicheren Zugriff auf Daten und Metadaten für Spalten und Tabellen, nicht nur für Bulk-Objekte, was ein wichtiger Bestandteil unseres Datenschutz- und Governance-Standards ist.“

Anand Desikan, Director of Cloud and Data Services – Panasonic Avionics

Accenture

Accenture ist eine führende, weltweit agierende Unternehmensberatung mit einem umfassenden Portfolio an Services und Lösungen für die Bereiche Strategie, Beratung, Digitalisierung, Technologie und Betrieb.

„Ich konzentriere mich darauf, Kunden auf dem Weg ihrer Daten in die Cloud zu helfen. Insbesondere haben wir festgestellt, dass Unternehmen mit einem Mangel an vertrauenswürdigen Daten konfrontiert sind, wenn sie Analysen für Daten durchführen müssen, die aus mehreren Quellen stammen. Datenbereinigung ist ein entscheidender Schritt in der Datenanalyse und kann das Geschäftsergebnis und die Entscheidungsfindung erheblich beeinflussen. Die neuen Funktionen in AWS Lake Formation haben sich als äußerst nützlich erwiesen, um die Herausforderung der Datenwahrheit und des gesicherten Zugriffs auf den Data Lake zu bewältigen. Wir fanden es äußerst nützlich, die fortgeschrittenen Techniken des maschinellen Lernens für die Datenaufbereitung zu nutzen, um übereinstimmende Datensätze zu finden, Daten zu bereinigen und aus verschiedenen Datenquellen zu deduplizieren. Dies wird dazu beitragen, Zeit, Aufwand und Kosten zu reduzieren und gleichzeitig die Qualität und Genauigkeit der Daten in den Data Lakes eines Kunden zu verbessern.“

Namrata Maheshwary, Senior Architect for the Data Business Group – Accenture

Zalando

Zalando ist Europas führende Online-Plattform für Mode und Lifestyle.

„Als Europas modernstes Technologieunternehmen arbeiten wir hart daran, digitale Lösungen für jeden Aspekt der Modereise zu finden. Mit AWS Lake Formation haben wir einen skalierbaren zentralen Kontrollpunkt für den Datenzugriff über Amazon Redshift erhalten, der den Prozess nicht nur vereinfacht, sondern durch eine differenzierte Kontrolle über die Verwendung unserer Daten verbessert hat. Jetzt können wir mit unseren bevorzugten Tools Daten in unserem Data Lake entdecken, darauf zugreifen und analysieren und sie für Business Intelligence und Data Science nutzen. Dieser optimierte Workflow hilft unseren Führungskräften, rechtzeitig die richtigen Entscheidungen zu treffen, und fördert die Innovation durch Machine Learning.“

Alberto Miorin, Engineering Lead – Zalando SE

Life360

Life360 ist der weltweit führende Service für Familien. Die Life360-App bringt Familien mit intelligenten Funktionen näher zusammen, mit denen die wichtigsten Personen geschützt und miteinander verbunden werden.

„Wir wollten AWS Lake Formation verwenden, um unseren Data Lake für die Unterstützung von standortbasierten Zeitreihendaten zu erstellen und das Laden von Daten zu vereinfachen. Die vorgefertigten Blueprints halfen dabei, Daten in den Data Lake zu bringen, ohne dass unser Data-Engineering-Team den Code von Grund auf neu schreiben musste, so dass es sich auf die Operationalisierung des Ingest konzentrieren konnte und nicht das Rad neu erfinden musste. Mit AWS Lake Formation konnten wir die in Amazon S3 verfügbaren Daten schnell erschließen und für die Analyse über ein breites Spektrum von AWS-Datenservices zur Verfügung stellen. Die Daten bleiben in Amazon S3 erhalten, wir können sie auf viele verschiedene Arten analysieren und behalten die volle Kontrolle darüber.“

Richard Chennault, Head of Cloud and Data Services – Life360, Inc.

Change Healthcare

Change Healthcare ist ein führendes Unternehmen für Technologie im Gesundheitswesen, das daten- und analysegetriebene Lösungen für fast 2100 staatliche und private Krankenkassenverbindungen, 5500 Krankenhäuser, 900 000 Ärzte und 33 000 Apotheken bereitstellt.

„Wir verarbeiten Daten aus Millionen von Transaktionen täglich und halten dabei Vorschriften für das Gesundheitswesen ein, darunter HIPAA. Wir sind begeistert von der Einführung von AWS Lake Formation, das einen zentralen Steuerpunkt zum einfachen Laden, Bereinigen, Sichern und Katalogisieren von Daten tausender Kunden in unserem AWS-basierten Data Lake bietet. Damit können wir unsere Betriebsauslastung drastisch reduzieren. Die Datenzugriffskontrollen in Lake Formation machen es für uns einfach, unsere Richtlinien einmalig zu definieren und diese dann in allen von uns verwendeten Analyse- und Machine-Learning-Services durchzusetzen, während Audit-Protokolle die Compliance nachweisen.“

Aaron Symanski, CTO – Change Healthcare

Fender Digital

Fender Digital ist ein Teil der legendären Gitarrenmarke Fender, die Apps, Webseiten und Tools als Ergänzung zu den von Fender hergestellten Gitarren, Verstärkern und Audiogeräten entwickelt.

„Wir erzeugen mit unseren digitalen Anwendungen und Geräten eine Unmenge an Benutzer- und Nutzungsdaten. Wir planen die Erstellung eines Data Lake auf AWS, um diesen parallel zu unserem auf Amazon Redshift basierendem Data Warehouse zu betreiben. Ich kann es kaum erwarten, bis wir bei unserem Team mit AWS Lake Formation loslegen können. Lake Formation wird es für uns leicht machen, unsere Daten zu laden, transformieren und katalogisieren und sie über eine Vielzahl an AWS-Services hinweg in unserem Unternehmen bereitzustellen. Mit einer unternehmensorientierten Option wie Lake Formation können wir mehr Zeit damit verbringen, Wert aus unseren Daten zu schöpfen, statt Ressourcen für die manuelle Einrichtung und Verwaltung unseres Data Lake aufzuwenden.“

Joshua Couch, VP Engineering – Fender Digital

Cloudreach

Cloudreach basiert auf der Migrations- und Verwaltungssoftware-Plattform Cloudamize und bringt Einfachheit und absolutes Vertrauen in die datengetriebene Entscheidungsfindung.

„AWS Lake Formation demokratisiert den Data Lake und schafft einen Beschleunigungspunkt für die Unternehmensdatenstrategie. AWS Lake Formation zentralisiert die Sicherheit und Verwaltung von Diensten, rationalisiert das Management und reduziert den Betriebsaufwand. Durch die Beschleunigung der unternehmensweiten Freigabe von Daten können andere Dateninitiativen wie Machine Learning den Unternehmenswert steigern.“

Kevin Davis, CTO AWS Practice – Cloudreach

Amgen

Amgen ist das weltweit größte unabhängige Biotechnologieunternehmen.

„Bei Amgen nutzen wir seit über drei Jahren Amazon-Redshift- und Amazon-EMR-Cluster. Das Einrichten von Sicherheits- und Zugriffskontrollen für jedes AWS-Konto, jeden AWS-Service, jeden AWS-Benutzer und jeden AWS-Datensatz auf der erforderlichen Detailebene kann mühsam sein. „AWS Lake Formation rationalisiert den Prozess mit einem zentralen Kontrollpunkt und ermöglicht es uns gleichzeitig, detaillierter zu verwalten, wer unsere Daten wie verwendet. Mit AWS Lake Formation können wir Berechtigungen für Amazon S3-Objekte wie Berechtigungen für Daten in einer Datenbank verwalten. Unsere Benutzer können die benötigten Daten mit den von ihnen bevorzugten Tools finden, darauf zugreifen und analysieren. Mit diesem neuen Workflow können alle Mitarbeiter produktiver arbeiten, wenn sie Amgens Daten verwenden.“

Kerby Johnson, Enterprise Data Lake Product Owner – Amgen

Alcon

Alcon ist führend in der Innovation und Entwicklung von Produkten für lebensverändernde Sehkraft und Augenpflege.

„Wie zahlreiche Unternehmen haben wir unsere Data Lake-Initiative gestartet, um von den unzugänglichen Datensilos wegzukommen. Mit AWS Lake Formation können wir schnell Zugriff auf vorhandene Amazon-S3-Buckets hinzufügen und definieren, was diese enthalten und wie diese Inhalte genutzt werden können. Die Daten bleiben in S3 erhalten, wir haben jedoch die volle Kontrolle über sie für andere Zwecke.“

Srinivas Ravilisetty, IT Analytics Lead – Alcon

Quantiphi

Quantiphi ist ein Software- und Dienstleistungsunternehmen für künstliche Intelligenz und Big Data, das sich dem Wunsch verschrieben hat, komplexe geschäftliche Probleme zu lösen. Quantiphi hat sich darauf spezialisiert, Data Lakes und KI-Lösungen für Kunden zu bauen, um einen quantifizierbaren Wert zu liefern.

„Mit AWS Lake Formation können wir in wenigen Tagen einen sicheren Data Lake mit Zugriff auf relevante Daten bereitstellen. Wir haben jetzt die Möglichkeit, unseren Kunden das Beste aus beiden Welten zu bieten – volle Sicherheit sowie vereinfachten Zugriff auf relevante Daten, damit ihre Benutzer leicht Entscheidungen treffen können. Unsere Kunden können sich auf intelligentere, analyseorientierte Geschäftsentscheidungen konzentrieren, indem sie auf eine leistungsstarke, zentralisierte Datenquelle zurückgreifen.“

Arnav Gupta, AWS Practice Lead – Quantiphi

Curvo Labs

Curvo ist ein Software-as-Service-Unternehmen, das sich ausschließlich auf die Lieferkette im Gesundheitswesen konzentriert. Mit eingehendem Fachwissen und flexiblen Entwicklungspraktiken entwickeln sie Analysen, Workflow und die Automatisierung, um die Ausgabenverwaltung im Gesundheitswesen schneller und einfacher zu gestalten.

„Datennormalisierung ist ein wichtiger Schritt, um bessere Patientenergebnisse zu liefern, indem Transparenz für Preisangaben von klinischen und medizinischen Produkten geboten wird. Mit ML Transformations in AWS Lake Formation verarbeiten wir jetzt Datensätze statt in einer Woche in nur vier Stunden. Unser Genauigkeitsgrad hat sich auch auf fast 100 % gesteigert. Diese Schnelligkeit und Genauigkeit macht es unseren Kunden im Gesundheitswesen möglich, schnell auf Veränderungen im Markt zu reagieren und letztendlich erschwinglichere Behandlungen anzubieten, ohne Abstriche bei den Patientenergebnissen machen zu müssen. Wir liefern ihnen an einem Tag, was unsere Konkurrenten in 4 – 6 Wochen liefern.“

Nic Sagez, CTO – Curvo

Neues

Datum
  • Datum
1
Standard Product Icons (Features) Squid Ink
Weitere Informationen zu den Merkmalen von AWS Lake Formation

Weitere Informationen zu den Merkmalen von AWS Lake Formation finden Sie, indem Sie die Funktionsseite aufrufen.

Weitere Informationen 
Sign up for a free account
Für ein Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Standard Product Icons (Start Building) Squid Ink
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit dem Erstellen von AWS Lake Formation in der AWS-Managementkonsole.

Anmeldung