Überspringen zum Hauptinhalt

Was versteht man unter Datenerfassung?

Datenerfassung bedeutet, Daten aus verschiedenen Quellen zu sammeln und zur Speicherung und Analyse in ein Zielsystem zu kopieren. Moderne Systeme gehen davon aus, dass Daten in unterschiedlichen Formaten und Geschwindigkeiten über und zwischen Systemen und Geräten „fließen“. Beispielsweise können Daten von intelligenten Sensoren kontinuierlich als konstanter Strom von Sensoreingaben empfangen werden, während Kundenverkaufsdaten am Ende des Tages in einem Batch gesammelt und gesendet werden können. Die verschiedenen Datenquellen erfordern Validierungsprüfungen, Vorverarbeitung und Fehlermanagement, bevor die Daten ins Ziel gelangen können. Die Datenerfassung umfasst alle Technologien und Prozesse, die für die sichere Erfassung der Daten für weitere Analysen erforderlich sind.

Warum ist die Datenerfassung wichtig?

Die Datenerfassung ist der erste Schritt in jeder Data Pipeline. Sie stellt sicher, dass Rohdaten ordnungsgemäß gesammelt, aufbereitet und für nachgelagerte Prozesse zur Verfügung gestellt werden. Hier sind die Gründe, warum eine genaue Datenerfassung unerlässlich ist.

Support für Datenpriorisierung

Geschäftsanalysten und Datenwissenschaftler priorisieren die kritischsten Datenquellen und konfigurieren Datenerfassungs-Pipelines für eine effiziente Verarbeitung und Integration. Je nach den Anforderungen eines Vorgangs werden priorisierte Daten in Richtung Bereinigung, Deduplizierung, Transformation oder Verbreitung verschoben. Diese vorbereitenden Schritte sind für effektive Datenvorgänge unerlässlich. Ein priorisierter Ansatz steigert die Effizienz des Unternehmens und optimiert gleichzeitig die Datenverarbeitung.

Beseitigt Datensilos

Durch das Sammeln von Daten aus mehreren Quellen und deren Umwandlung in ein einheitliches Format stellt die Datenerfassung sicher, dass Unternehmen eine konsolidierte Ansicht ihrer Datenbestände erhalten. Dieser Prozess hilft dabei, Datensilos zu vermeiden, und erleichtert es den Abteilungen, auf Informationen zuzugreifen, um die Zusammenarbeit zu verbessern.

Beschleunigt durch Automatisierung

Nach dem Aufbau eines Datenerfassungssystems können Dateningenieure verschiedene Automatisierungssteuerungen einrichten, um den Prozess weiter zu beschleunigen. Diese Prozesse lassen sich leicht in andere datengestützte Tools wie KI und Machine-Learning-Modelle einspeisen, die auf diese Daten angewiesen sind. Automatisierte Data Pipelines tragen auch zur Optimierung des Gesamtprozesses bei.

Verbessert die Analytik

Relevante Informationen müssen leicht verfügbar sein, damit die Datenanalytik effektiv ist. Während der Datenerfassung können Sie mehrere Quellen kombinieren oder Datenanreicherungsaktivitäten durchführen. Die Datenerfassungsschicht leitet die Daten an die entsprechenden Speichersysteme wie Data Warehouses oder spezialisierte Data Marts weiter und ermöglicht, dass schnell und zuverlässig auf die Daten zugegriffen werden kann. Durch den bedarfsgesteuerten Zugriff auf Daten wird eine Datenverarbeitung und -analytik in Echtzeit ermöglicht. Ihr Unternehmen kann die Ergebnisse der Datenanalyse nutzen, um präzisere Geschäftsentscheidungen zu treffen.

Was sind die Arten von Datenerfassungsprozessen?

Die Datenerfassung und die Ansätze variieren je nach Datenvolumen, Geschwindigkeit und Anwendungsfall.

Batch-Datenerfassung

Tools zur Batch-Erfassung sammeln Daten über einen bestimmten Zeitraum und erfassen eine Gruppe von mehreren Dateneinträgen gleichzeitig. Sie sind in der Regel so eingerichtet, dass sie Daten in geplanten Intervallen wie am Ende des Tages, am Wochenende oder am Ende des Monats abrufen. Beispielsweise könnte eine Bildbearbeitungssoftware am Ende des Tages automatisch alle bearbeiteten Bilder in die Cloud hochladen.

Die Verarbeitung von Daten in großen Batches kann ein schneller Prozess oder ein langsamer Prozess sein, wenn es sich um große Datenmengen handelt. Wenn es sich um eine langsame Übertragung handelt und Fehler auftreten, kann ein Neustart des Batches teuer und komplex sein. Ingenieure, die die Batch-Verarbeitung nutzen, erstellen fehlertolerante Pipelines, die es ihnen ermöglichen, dort fortzufahren, wo das Batch zuletzt unterbrochen wurde.

Dieser Ansatz eignet sich am besten, wenn Sie historische Daten analysieren möchten oder wenn der Zeitpunkt nicht relevant ist. Für die Erfassung von Daten nahezu in Echtzeit oder in Echtzeit ist oft eine der folgenden Methoden vorzuziehen.

Erfassung von Streaming-Daten

Tools zur Erfassung von Streaming-Daten sammeln Daten, sobald sie generiert werden, beispielsweise bei der Erfassung von Daten von IoT-Sensoren, die kontinuierliche Messungen durchführen. Streaming gewährleistet zwar den Zugriff auf die neuesten Daten, kann jedoch ressourcenintensiv sein. Dateningenieure müssen System- oder Netzwerkfehler und Netzwerkverzögerungen bewältigen, die zu Datenverlust und Lücken im Datenstrom führen können.

Es gibt zwei Ansätze für die Datenerfassung per Streaming.

Pull-basierte Erfassung

Das Erfassungstool fragt Quellen ab und führt die Datenextraktion durch. Dies kann kontinuierlich oder in voreingestellten Intervallen erfolgen.

Push-basierte Erfassung

Die Datenquelle überträgt die Daten an das Erfassungstool, sobald neue Informationen generiert werden.

Erfassung in Mikro-Batches

Bei der Datenerfassung im Mikrobatch-Verfahren werden kontinuierliche Datenströme in kleinere, besser handhabbare Blöcke unterteilt, die als diskretisierte Ströme aufgerufen werden. Dieser Ansatz vereint die Vorteile der Batch- und Streaming-Erfassung. Sie eignet sich ideal für Szenarien, in denen eine Echtzeitverarbeitung gewünscht wird, ein vollständiges Streaming jedoch zu ressourcenintensiv ist. Allerdings führt die Mikrobatch-Verarbeitung im Vergleich zur reinen Streaming-Erfassung immer noch zu einer gewissen Verzögerung.

Die Mikrobatch-Verarbeitung ist eine kostengünstige Möglichkeit, Daten nahezu in Echtzeit zu erfassen, ohne die höheren Kosten im Zusammenhang mit Streaming zu tragen.

Ereignisgesteuerte Datenerfassung

Dies ist eine spezielle Form der Push-basierten Erfassung. Ereignisgesteuerte Systeme erfassen Daten, wenn ein bestimmtes Ereignis oder ein Auslöser eintritt, und nicht kontinuierlich oder in festgelegten Intervallen. Dieser Ansatz wird häufig für Anwendungen wie Auftragsabwicklung, Kundenbenachrichtigungen und Systemüberwachung verwendet. Diese Methode reduziert unnötige Datenbewegungen und optimiert die Verwendung von Ressourcen, indem Daten nur bei Bedarf erfasst werden. Eine effektive Funktionsweise hängt jedoch von genau definierten Ereignisauslösern und Mechanismen zur Ereignisbehandlung ab.

Change Data Capture

Systeme von Change Data Capture (CDC) sind eine Art ereignisbasierte Datenerfassung, die häufig für die Datenbankreplikation, das inkrementelle Data Warehousing und die Synchronisierung zwischen verteilten Systemen verwendet wird. Das Tool zur Datenerfassung erfasst nur die an einer Datenbank vorgenommenen Änderungen, anstatt ganze Datensätze zu übertragen. Durch die Überwachung von Transaktionsprotokollereignissen identifiziert CDC Einfügungen, Aktualisierungen und Löschungen und gibt sie nahezu in Echtzeit an andere Systeme weiter. CDC minimiert die Datenübertragungskosten und verbessert die Effizienz, erfordert jedoch Support durch das zugrundeliegende Datenbanksystem und kann zu einem gewissen Verarbeitungsaufwand führen.

Was ist der unterschied zwischen Datenerfassung, Datenintegration und ETL?

Diese Konzepte werden oft miteinander verwechselt, weisen jedoch wichtige Unterschiede auf.

Datenerfassung vs. Datenintegration

Datenintegration bezieht sich auf die Kombination verschiedener Datensätze zu einer einheitlichen Ansicht. Es ist ein weit gefasster Überbegriff für die Übertragung von Daten aus mehreren Quellsystemen in ein einziges Zielsystem, Zusammenführung der Daten, Löschung nicht benötigter Daten, Beseitigung von Duplikaten und die anschließende Analyse, um detaillierte Erkenntnisse zu erhalten. Die Integration von Kundenprofildaten mit Bestell- und Einkaufsdaten könnte beispielsweise Einblicke in die Bestellpräferenzen einer bestimmten Altersgruppe oder einer bestimmten demografischen Region geben.

Die Datenerfassung ist der erste Schritt in jeder Datenintegrationspipeline. Die Datenintegration umfasst jedoch neben der Erfassung auch andere Tools und Technologien, darunter ETL-Pipelines (Extrahieren, Transformieren, Laden) und Datenabfragen.

Datenerfassung vs. ETL und ELT

Extract, Transform, Load (ETL) ist eine Art mehrstufiger Architektur, die die Datenqualität in mehreren Stufen oder Hops verbessert. Bei ETL werden Daten aus ihrer Quelle extrahiert, in Formate umgewandelt, die von Analytik-Tools gewünscht werden, und dann in einen Datenspeicher wie ein Data Warehouse oder einen Data Lake geladen.

Extract, Load, Transform (ELT) ist eine alternative Pipeline, die die Datentransformation und das Laden von Segmenten von ETL rückgängig macht. Es handelt sich um eine Single-Hop-Architektur. Das bedeutet, dass Daten auf das Zielsystem geladen und transformiert werden..

Die Datenerfassung bezieht sich auf die Extraktions- und Ladephasen von ETL- und ELT-Pipelines. Sowohl ETL als auch ELT übernehmen jedoch mehr als nur die Datenerfassung, da sich die Datenverarbeitung in der Transformationsphase befindet.

Welche Herausforderungen gibt es bei der Datenerfassung?

Hier sind einige Herausforderungen, die Unternehmen bei der Datenerfassung berücksichtigen sollten.

Skalieren

Die Skalierung von Datenerfassungssystemen ist für Unternehmen aufgrund des Datenvolumens und der Tatsache, dass die Datengeschwindigkeit im Laufe der Zeit zunimmt, eine Herausforderung.

Horizontale und vertikale Skalierung

Unternehmen verwenden zwei Hauptstrategien, um zu skalieren. Bei der horizontalen Skalierung wird der Workload der Erfassung auf mehrere Knoten verteilt. Dies erfordert eine effiziente Lastverteilung und Koordination, um Engpässe zu vermeiden. Vertikale Skalierung basiert auf der Erhöhung der Rechenleistung innerhalb eines einzelnen Knotens, was einfacher zu konstruieren sein kann, aber durch die Rechenleistung des Knotens begrenzt ist. Eine zentrale Herausforderung hier besteht darin, sicherzustellen, dass die Erfassungspipeline ein zunehmendes Datenvolumen verarbeiten kann, ohne dass es zu Verzögerungen oder Systemausfällen kommt.

Zur Bewältigung von Skalierungsproblemen können Sie Amazon Kinesis Data Streams für die Datenerfassung in Echtzeit mit horizontaler Skalierung verwenden. Alternativ ermöglicht Amazon EMR Benutzern die einfache Ausführung und Skalierung von Apache Spark, Trino und anderen Big-Data-Workloads.

Architekturen ohne Server

Serverless-Pipelines sind Architekturen für die On-Demand-Datenerfassung, für die keine Instance-Konfiguration und -Bereitstellung erforderlich ist. Serverless-Architekturen eignen sich am besten für variable Datenerfassungsmuster oder ereignisgesteuerte Datenerfassung.

Beispielsweise können Serverless-Erfassungs-Pipelines auf AWS mit Amazon Data Firehose und AWS Lambda erstellt werden.

Sicherheit

Sicherheit und Compliance sind bei der Datenerfassung äußerst bedenkliche Aspekte, insbesondere wenn es sich um sensible Informationen handelt. Unternehmen müssen sich an Datenschutzbestimmungen halten, die strenge Anforderungen an die Erhebung, Übertragung und Speicherung von Daten stellen.

Zu den bewährten Methoden für die Datensicherheit bei der Datenerfassung gehören:

  • Datenverschlüsselung bei Übertragung und Speicherung
  • Zugriffskontrollen und Authentifizierungsmechanismen
  • Techniken zur Datenmaskierung und -anonymisierung zum Schutz persönlich identifizierbarer Informationen (PII)

Zum Schutz der Datensicherheit bei der Erfassung in AWS können Sie Services wie die folgenden nutzen:

Zuverlässigkeit des Netzwerks

Netzwerkunterbrechungen, API-Fehler und eine inkonsistente Datenverfügbarkeit können den Prozess der Datenerfassung stören. Diese Ereignisse bringen Herausforderungen wie Datenkorruption mit sich. Eine Datenüberlastung aus einer beliebigen Quelle kann zu einem potenziellen Datenverlust führen oder Systeme wie Ihr Data Warehouse vorübergehend verlangsamen. Um Spitzen im Datenfluss zu bewältigen, kann eine adaptive Drosselung erforderlich sein. Durch das Backpressure-Management kann das Tool zur Datenerfassung eingehende Daten mit einer Geschwindigkeit verarbeiten, die seiner Verarbeitungskapazität entspricht.

Eine weitere Strategie zur Fehlerbehebung besteht darin, die Verarbeitung fehlgeschlagener Daten erneut zu versuchen. Das Tool zur Datenerfassung sendet erneute Sendeanfragen an die Quelle, wenn es beschädigte oder fehlende Daten erkennt. Ein erneuter Versuch erhöht die Genauigkeit, kann sich jedoch auf den erwarteten Durchsatz und die Latenz auswirken.

Um automatische Wiederholungsversuche in AWS zu implementieren, können Sie mithilfe von AWS Step Functions Ihre eigenen Workflows erstellen, wohingegen Amazon Kinesis konfigurierbare Richtlinien und Prozesse für die Verwaltung des eingehenden Datenflusses bietet.

Datenqualität

Wenn Daten aus verschiedenen Quellen in die Pipeline zur Datenerfassung gelangen, gibt es keine Garantie dafür, dass sie in einem einheitlichen Format vorliegen, das für das Unternehmen anwendbar ist. Rohdatenquellen können fehlende Werte, falsche Datenformate und Schema-Inkonsistenzen enthalten. Dies ist insbesondere bei der Arbeit mit unstrukturierten Daten der Fall, da die mangelnde Einheitlichkeit zusätzliche Interaktions- und Bereinigungsebenen hinzufügt.

Tools zur Datenerfassung umfassen in der Regel Datenqualitätsprüfungen und implementieren Methoden zur Validierung, Bereinigung und Standardisierung der Daten. Automatisierte Deduplizierung, Schema-Durchsetzung und KI-gesteuerte Anomalieerkennung können dabei helfen, Fehler zu erkennen und zu beheben, bevor sie sich weiter in der Datenpipeline ausbreiten.

Zu den Datenqualitätstools auf AWS gehören AWS Glue Data Quality für Qualitätsregeln und Automatisierung sowie Amazon DataZone für Datenkatalogisierung und Governance.

Wie unterstützen Frameworks für die Datenerfassung bessere Geschäftsentscheidungen?

Ein zeitnaher Zugriff auf genaue Daten hilft Teams dabei, Trends schneller zu erkennen, auf sich ändernde Kundenbedürfnisse zu reagieren und Strategien in Echtzeit anzupassen. Ihr Unternehmen wird besser in der Lage sein, Entscheidungen auf der Grundlage von Beweisen und nicht auf Ahnungen zu treffen.

Vertrauensbildung mit sicheren und zuverlässigen Datenpipelines

Kunden und Aufsichtsbehörden erwarten von Unternehmen, dass sie verantwortungsbewusst mit Daten umgehen. Ein gut durchdachter Datenerfassungsprozess trägt dazu bei, diese Erwartungen zu erfüllen, indem sichergestellt wird, dass Daten sicher erfasst, übertragen und abgerufen werden.

Dies hat Vorteile, die über die unmittelbaren betrieblichen Verbesserungen hinausgehen, die Sie sehen werden. Die Einhaltung von Vorschriften wird zuverlässiger, und der Nachweis einer sicheren Datenverarbeitung in Ihren Data Warehouses kann das interne Vertrauen der Teams stärken und das Vertrauen der Kunden stärken.

Optimieren Sie die Einhaltung von Vorschriften und Berichten in Ihrem gesamten Unternehmen

Ein zuverlässiger Datenerfassungsprozess hilft Ihrem Unternehmen dabei, behördliche Anforderungen zu erfüllen und Audits zu vereinfachen. Wenn Daten aus Ihrem gesamten Unternehmen konsistent und sicher erfasst werden, entsteht ein klares, rückverfolgbares Betriebsprotokoll. Dies ist besonders wichtig für die Einhaltung von Standards wie der Datenschutz-Grundverordnung (GDPR), dem Health Insurance Portability and Accountability Act (HIPAA) oder dem Payment Card Industry Data Security Standard (PCI DSS).

Die automatische Datenerfassung reduziert das Risiko menschlicher Fehler und stellt sicher, dass die erforderlichen Daten rechtzeitig erfasst werden. Dies macht es einfacher, genaue Berichte zu erstellen, auf Anfragen von Auditoren zu antworten und nachzuweisen, dass Ihre Datenpraktiken transparent und kontrolliert sind.

Schnellere Innovation in allen Teams ermöglichen

Wenn Daten zuverlässig erfasst und schnell verfügbar gemacht werden, können Teams im gesamten Unternehmen agiler werden. Produkt-, Marketing- und Betriebsteams können beispielsweise Hypothesen testen, Ergebnisse in Ihrem CRM-System (Customer Relationship Management) messen und iterieren, ohne darauf warten zu müssen, dass die IT-Abteilung Datensätze vorbereitet. Mithilfe automatisierter Erfassungspipelines erhalten diese Teams Self-Service-Zugriff auf aktuelle, vertrauenswürdige Daten, sodass schneller Erkenntnisse gewonnen werden können.

Wie kann AWS Sie bei Ihren Anforderungen an die Datenerfassung unterstützen?

AWS bietet Services und Funktionen zur Aufnahme verschiedener Datentypen in AWS Cloud-Datenbanken oder andere Analytik-Services. Beispiel:

  • Amazon Data Firehose ist Teil der Kinesis-Familie von Services, die automatisch skaliert werden, um dem Volumen und dem Durchsatz von Streaming-Daten zu entsprechen, und keine laufende Verwaltung erfordern.
  • AWS Glue ist ein vollständig verwalteter Serverless-ETL-Service, der Daten auf einfache und kostengünstige Weise kategorisiert, bereinigt, transformiert und zuverlässig zwischen verschiedenen Datenspeichern überträgt.
  • AWS Transfer Family ist ein vollständig verwalteter, sicherer Transfer-Servicesfür die Übertragung von Dateien in und aus AWS-Speicher-Services.
  • AWS-Datenbanken und AWS Database Migration Service (DMS) bieten Mechanismen zum Erfassen und Streamen von Änderungen aus allen AWS-Datenbank-Services. Sie können natives CDC von Amazon DynamoDB oder Amazon Neptune verwenden, wodurch Sie die Komplexität Ihrer Datenintegrations-Pipelines reduzieren können. Eine weitere Option ist die Verwendung von CDC im AWS Database Migration Service (DMS), der Änderungen aus dem Transaktionsprotokoll der Quelle extrahiert. DMS ist ein hochverfügbarer Service, der für solche lang andauernden Replikationsaufgaben widerstandsfähig ist. Ihre Datenströme können dann optional mithilfe von Amazon MSK, Amazon Kinesis oder AWS Glue transformiert und verteilt werden.
  • Amazon Managed Streaming für Apache Kafka (Amazon MSK) ist ein vollständig verwalteter Service, der die Erstellung und Ausführung von Anwendungen erleichtert, die das Open-Source-Programm Apache Kafka für die Stream-Aufnahme verwenden.

Sie können auch benutzerdefinierte Datenerfassungsplattformen auf Amazon EC2 und Amazon EMR installieren und Ihre eigenen Ebenen für die Speicherung und Verarbeitung von Datenströmen erstellen. Auf diese Weise vermeiden Sie Reibungsverluste bei der Bereitstellung der Infrastruktur und können auf verschiedene Frameworks für die Speicherung und Verarbeitung von Datenströmen zugreifen.

Legen Sie noch heute los mit der Datenerfassung in AWS, indem Sie ein kostenloses Konto erstellen.