Passa al contenuto principale

Cos'è l'importazione dei dati?

L'importazione dei dati è il processo di raccolta di dati da varie origini e di copia su un sistema di destinazione per l'archiviazione e l'analisi. I sistemi moderni considerano i dati come un “flusso” attraverso e tra sistemi e dispositivi in diversi formati e velocità. Ad esempio, i dati provenienti da sensori intelligenti possono essere ricevuti continuamente come un flusso costante di input dai sensori, mentre i dati di vendita dei clienti possono essere raccolti e inviati alla fine della giornata in batch. Le diverse origini dati richiedono diversi controlli di autenticazione e convalida, pre-elaborazione e gestione degli errori prima che i dati possano entrare nell'organizzazione. L'importazione dei dati include tutte le tecnologie e i processi necessari per raccogliere, pre-elaborare e archiviare in modo sicuro i dati per ulteriori analisi.

Perché l'importazione dei dati è importante?

L'importazione dei dati è il primo passaggio in qualsiasi pipeline di dati. Garantisce che i dati grezzi vengano raccolti, preparati adeguatamente e resi disponibili per i processi successivi. Ecco i motivi per cui un'importazione dei dati accurata è essenziale.

Supporta la prioritizzazione dei dati

Gli analisti aziendali e i data scientist danno priorità alle origini dati più critiche, configurando le pipeline di importazione dei dati per un'elaborazione e un'integrazione efficienti. A seconda delle esigenze di un'operazione, i dati prioritizzati vengono indirizzati verso processi di pulizia, deduplicazione, trasformazione o propagazione. Questi passaggi preparatori sono fondamentali per l'efficacia delle operazioni sui dati. Un approccio prioritizzato migliora l'efficienza aziendale e ottimizza l'elaborazione dei dati.

Rimuove i silo di dati

Raccogliendo dati da più origini e convertendoli in un formato unificato, l'importazione dei dati permette alle organizzazioni di ottenere una visione consolidata delle proprie risorse di dati. Questo processo aiuta a evitare silo di dati, rendendo le informazioni più accessibili tra i reparti per una migliore collaborazione.

Accelerazione grazie all'automazione

Dopo aver costruito un sistema di importazione dei dati, gli ingegneri dei dati possono impostare vari controlli di automazione per accelerare ulteriormente il processo. Questi processi si inseriscono facilmente in altri strumenti basati sui dati, come l'IA e i modelli di machine learning, che si basano su questi dati. Inoltre, le pipeline di dati automatizzate contribuiscono a ottimizzare l'intero processo.

Migliora l'analisi

Per essere efficace, l'analisi dei dati deve poter accedere rapidamente alle informazioni pertinenti. Durante l'importazione dei dati, è possibile combinare più origini o eseguire attività di arricchimento dei dati. Il livello di importazione dei dati indirizza i dati verso sistemi di archiviazione appropriati come data warehouse o data mart specializzati, garantendo un accesso rapido e affidabile ai dati. L'accesso on demand ai dati consente l'elaborazione e l'analisi in tempo reale dei dati stessi. L'azienda può utilizzare i risultati dell'analisi dei dati per prendere decisioni più precise sul business.

Quali sono i tipi di processi di importazione dei dati?

L'importazione dei dati e le relative metodologie variano in base al volume, alla velocità e al caso d'uso dei dati.

Importazione dei dati in batch

Gli strumenti di importazione in batch raccolgono i dati in un determinato periodo, importando contemporaneamente un gruppo di più dati. In genere sono configurati per recuperare dati a intervalli pianificati come a fine giornata, fine settimana o fine mese. Ad esempio, un software di editing immagini carica automaticamente sul cloud tutte le immagini modificate a fine giornata.

L'elaborazione dei dati in batch di grandi dimensioni può essere un processo rapido o lento, se coinvolge grandi quantità di dati. Se il trasferimento è lento e si verificano errori, il riavvio del batch può essere costoso e complesso. Gli ingegneri che utilizzano l'elaborazione in batch creano pipeline tolleranti ai guasti che consentono loro di riprendere dal punto in cui il batch ha subito l'interruzione.

Questo approccio funziona meglio quando si desidera analizzare i dati storici o quando la tempistica non è rilevante. Per l'importazione di dati quasi in tempo reale o in tempo reale, spesso è preferibile uno dei seguenti metodi.

Importazione dei dati in streaming

Gli strumenti di importazione dei dati in streaming raccolgono i dati non appena vengono generati, ad esempio quando importano dati da sensori IoT che effettuano letture continue. Sebbene lo streaming garantisca l'accesso ai dati più recenti, può richiedere molte risorse. Gli ingegneri dei dati devono gestire gli errori di sistema o di rete e i ritardi di rete, che possono causare la perdita di dati e creare lacune nel flusso di dati.

Esistono due approcci all'importazione dei dati in streaming.

Importazione basata su pull

Lo strumento di importazione interroga le origini ed esegue l'estrazione dei dati. Può farlo in modo continuo o a intervalli prestabiliti.

Importazione basata su push

L'origine dati invia i dati allo strumento di importazione non appena genera nuove informazioni.

Importazione in microbatch

L'importazione dei dati in microbatch suddivide i flussi di dati continui in blocchi più piccoli e gestibili, chiamati flussi discretizzati. Questo metodo bilancia i vantaggi dell'importazione in batch e in streaming. È ideale per gli scenari in cui si desidera ottenere l'elaborazione in tempo reale, ma lo streaming completo sarebbe troppo dispendioso in termini di risorse. Tuttavia, il microbatching introduce comunque un certo ritardo rispetto all'importazione streaming pura.

L'elaborazione in microbatch rappresenta un'alternativa conveniente per ottenere l'importazione dei dati quasi in tempo reale senza i costi elevati associati allo streaming.

Importazione basata su eventi

Questa è una forma specializzata di importazione basata su push. I sistemi basati su eventi importano i dati quando si verifica un evento o un trigger specifico anziché in modo continuo o a intervalli prestabiliti. Questo approccio è comunemente usato per applicazioni come l'elaborazione degli ordini, le notifiche ai clienti o il monitoraggio del sistema. Questo metodo riduce gli spostamenti di dati non necessari e ottimizza l'utilizzo delle risorse, importando i dati solo quando necessario. Tuttavia, il corretto funzionamento dipende dall'adeguata definizione dei trigger di eventi e dai meccanismi di gestione degli eventi.

Acquisizione dei dati di modifica (CDC)

I sistemi di acquisizione dei dati di modifica (CDC) sono un tipo di importazione basato su eventi comunemente utilizzato per replica dei database, data warehousing incrementale e sincronizzazione tra sistemi distribuiti. Lo strumento di importazione dei dati importa solo le modifiche apportate a un database anziché trasferire interi set di dati. Monitorando gli eventi del log delle transazioni, il CDC identifica inserimenti, aggiornamenti ed eliminazioni, propagandoli ad altri sistemi quasi in tempo reale. Il CDC riduce al minimo i costi di trasferimento dei dati e migliora l'efficienza, ma richiede il supporto del sistema di database sottostante e può comportare un sovraccarico di elaborazione.

Qual è la differenza tra importazione dei dati, integrazione dei dati ed ETL?

Questi concetti vengono spesso confusi, ma presentano distinzioni importanti.

Importazione dei dati o integrazione dei dati

L'integrazione dei dati si riferisce alla combinazione di diversi set di dati in un'unica vista unificata. È un termine generico che indica lo spostamento dei dati da più sistemi di origine in un unico sistema di destinazione, l'unione dei dati, l'eliminazione di quelli non necessari e dei duplicati, infine l'analisi per ottenere informazioni approfondite. Ad esempio, l'integrazione dei dati del profilo cliente con i dati sugli acquisti consente di ottenere approfondimenti sulle preferenze d'acquisto di una determinata fascia di età o area geografica.

L'importazione dei dati è il primo passaggio in qualsiasi pipeline di integrazione dei dati. Tuttavia, l'integrazione dei dati coinvolge altri strumenti e tecnologie oltre all'importazione, tra cui pipeline di estrazione, trasformazione, caricamento (ETL) e interrogazione dei dati.

Importazione dei dati o ETL ed ELT

Extract, transform, load (ETL) è un tipo di architettura a più fasi che migliora la qualità dei dati in più fasi, o hop. Nell'ETL, i dati vengono estratti dalla loro origine, trasformati in formati compatibili con gli strumenti di analisi e poi caricati in un sistema di archiviazione di dati, come data warehouse o data lake.

Extract, Load, Transform (ELT) è una pipeline alternativa che inverte i segmenti di la trasformazione e carico dei dati della sequenza ETL. È un'architettura a hop singolo, il che significa che i dati vengono caricati e trasformati sul sistema di destinazione.

L'importazione dei dati si riferisce alle fasi di estrazione e caricamento delle pipeline ETL ed ELT. Tuttavia, sia le pipeline ETL sia quelle ELT non si limitano all'importazione dei dati, prevedendo l'elaborazione degli stessi in fase di trasformazione.

Quali sono le sfide legate all'importazione dei dati?

Ecco alcune sfide che le aziende dovrebbero considerare quando importano dati.

Dimensionamento

Il dimensionamento dei sistemi di importazione dei dati è difficile per le organizzazioni a causa del volume dei dati e della crescita della velocità dei dati nel tempo.

Dimensionamento orizzontale e verticale

Le organizzazioni utilizzano due principali strategie di dimensionamento. Il dimensionamento orizzontale implica la distribuzione dei carichi di lavoro di importazione su più nodi. Richiede un bilanciamento e un coordinamento del carico efficienti per evitare colli di bottiglia. Il dimensionamento verticale si basa sull'aumento della potenza di elaborazione all'interno di un singolo nodo. La progettazione può essere più facile, ma la soluzione è limitata dalla potenza di elaborazione del nodo. In questo scenario, una sfida fondamentale è garantire che la pipeline di importazione sia in grado di gestire un volume crescente di dati senza causare ritardi o guasti di sistema.

Per superare le sfide di dimensionamento, è possibile utilizzare Flusso di dati Amazon Kinesis per l'importazione dei dati in tempo reale con dimensionamento orizzontale. In alternativa, Amazon EMR consente agli utenti di eseguire e scalare facilmente Apache Spark, Trino e altri carichi di lavoro di big data.

Architetture serverless

Le pipeline serverless sono architetture di importazione dei dati on demand che non richiedono la configurazione e l'implementazione delle istanze. Le architetture serverless sono più adatte a modelli di importazione dei dati variabili o all'importazione basata su eventi.

Ad esempio, le pipeline di importazione serverless su AWS possono essere create con Amazon Data Firehose e AWS Lambda.

Sicurezza

La sicurezza e la conformità sono aspetti fondamentali durante l'importazione dei dati, soprattutto quando si tratta di informazioni sensibili. Le organizzazioni devono rispettare le normative sulla privacy dei dati che impongono requisiti rigorosi per la loro raccolta, trasmissione e archiviazione.

Alcune best practice per la sicurezza dei dati durante l'importazione includono:

  • Crittografia dei dati in transito e a riposo
  • Controlli di accesso e meccanismi di autenticazione
  • Tecniche di mascheramento e anonimizzazione dei dati per proteggere le informazioni di identificazione personale (PII)

Per proteggere la sicurezza dei dati durante l'importazione in AWS, puoi utilizzare servizi come:

Affidabilità della rete

Interruzioni della rete, guasti delle API e disponibilità incoerente dei dati possono interrompere il processo di importazione dei dati. Questi eventi creano problemi, come il danneggiamento dei dati. Il sovraccarico dei dati da un'origine può causare una potenziale perdita di dati o rallentare temporaneamente il sistema, ad esempio un data warehouse. Per gestire i picchi nel flusso di dati può rendersi necessario il throttling, ossia la limitazione della larghezza di banda della rete adattiva. La gestione della congestione consente allo strumento di importazione dei dati di gestire i dati in ingresso a una velocità corrispondente alla sua capacità di elaborazione.

L'esecuzione di nuovi tentativi o la rielaborazione dei dati non riusciti sono altre strategie di gestione degli errori. Lo strumento di importazione dei dati manda richieste di nuovo invio all'origine quando identifica dati danneggiati o mancanti. Un nuovo tentativo aumenta la precisione ma può influire sul throughput e sulla latenza previsti.

Per implementare nuovi tentativi automatici su AWS, è possibile creare flussi di lavoro personalizzati utilizzando AWS Step Functions, mentre Amazon Kinesis offre policy e processi configurabili per la gestione del flusso di dati in entrata.

Qualità dei dati

Quando i dati arrivano nella pipeline di importazione dei dati da molteplici origini, non vi è alcuna garanzia che il loro formato sia coerente con quello applicabile all'azienda. Le origini dati grezze possono contenere valori mancanti, formati di dati errati e mancate corrispondenze dello schema. Ciò avviene soprattutto quando si lavora con dati non strutturati, poiché la mancanza di uniformità comporta livelli aggiuntivi di interazione e pulizia.

Gli strumenti di importazione dei dati in genere includono controlli di qualità dei dati e implementano metodi per convalidarli, pulirli e standardizzarli. La deduplicazione automatica, l'applicazione degli schemi e il rilevamento delle anomalie basato sull'IA aiutano a identificare e correggere gli errori prima che si propaghino ulteriormente nella pipeline di dati.

Gli strumenti di qualità dei dati su AWS includono Qualità dei dati di AWS Glue per le regole di qualità e l'automazione e Amazon DataZone per la catalogazione e la governance dei dati.

In che modo i framework di importazione dei dati supportano decisioni aziendali migliori?

Un accesso più tempestivo a dati accurati aiuta i team a individuare le tendenze più rapidamente, rispondere alle esigenze dei clienti man mano che si evolvono e adattare le strategie in tempo reale. La tua organizzazione sarà meglio attrezzata per prendere decisioni basate su prove anziché su intuizioni.

Rafforzamento della fiducia con pipeline di dati sicure e affidabili

I clienti e le autorità di regolamentazione si aspettano che le aziende gestiscano i dati in modo responsabile. Un processo di importazione dei dati ben progettato aiuta a soddisfare queste aspettative garantendo che la raccolta, il trasferimento e l'accesso ai dati avvengano in modo sicuro.

Ciò comporta vantaggi che vanno oltre i miglioramenti operativi immediati a cui assisterai. La conformità diventa più affidabile, mentre la dimostrazione di una gestione sicura dei dati nei data warehouse può aumentare la fiducia interna dei vari team e rafforzare la fiducia dei clienti.

Semplificazione della conformità e della reportistica in tutta l'azienda

Un processo di importazione dei dati affidabile aiuta l'organizzazione a soddisfare i requisiti normativi e a semplificare gli audit. Quando i dati di tutta l'azienda vengono raccolti in modo coerente e sicuro, si crea una registrazione chiara e tracciabile delle operazioni. Questo aspetto è particolarmente importante per la conformità a standard come il Regolamento generale sulla protezione dei dati (GDPR), lo Health Insurance Portability and Accountability Act (HIPAA) o il Payment Card Industry Data Security Standard (PCI DSS).

L'importazione automatica dei dati riduce il rischio di errore umano e garantisce che i dati richiesti vengano acquisiti in modo tempestivo. Ciò semplifica la generazione di report accurati, la risposta alle richieste dei revisori e la dimostrazione che le pratiche relative ai dati sono trasparenti e controllate.

Promozione di un'innovazione più rapida per tutti i team

Quando i dati vengono importati in modo affidabile e resi disponibili rapidamente, i team di tutta l'azienda possono diventare più agili. Ad esempio, i team di prodotto, marketing e operativi possono testare ipotesi, misurare i risultati nel sistema di gestione delle relazioni con i clienti (CRM) e iterare senza attendere che l'IT prepari i set di dati. Grazie a pipeline di importazione automatizzate, questi team ottengono l'accesso self-service a dati aggiornati e affidabili in grado di accelerare i tempi di acquisizione delle informazioni.

In che modo AWS supporta i requisiti di importazione dei dati?

AWS fornisce servizi e funzionalità per importare diversi tipi di dati nei database su cloud AWS o in altri servizi di analisi. Ad esempio:

  • Amazon Data Firehose fa parte della famiglia di servizi Kinesis che scala automaticamente in relazione al volume e al throughput dei dati in streaming e non richiede alcuna amministrazione continua.
  • AWS Glue è un servizio ETL serverless completamente gestito che classifica, pulisce, trasforma e trasferisce in modo affidabile i dati tra diversi archivi di dati in modo semplice ed economico.
  • AWS Transfer Family è un servizio di trasferimento sicuro e completamente gestito per spostare file da e verso i servizi di archiviazione AWS.
  • I database AWS e AWS Database Migration Service (DMS) forniscono meccanismi per l'acquisizione e lo streaming delle modifiche da tutti i servizi di database AWS. Puoi utilizzare un CDC nativo di Amazon DynamoDB o Amazon Neptune, che consente di ridurre la complessità delle tue pipeline di integrazione dei dati. Un'altra opzione è utilizzare CDC in AWS Database Migration Service (DMS), che estrae le modifiche dal log delle transazioni dell'origine. DMS è un servizio ad alta disponibilità, con resilienza per attività di replica di lunga durata. I flussi di dati possono quindi essere trasformati e distribuiti opzionalmente utilizzando Amazon MSK, Amazon Kinesis o AWS Glue.
  • Lo Streaming gestito da Amazon per Apache Kafka (Amazon MSK) è un servizio completamente gestito che semplifica la creazione e l'esecuzione di applicazioni che utilizzano Apache Kafka open source per l'importazione di flussi di dati.

Inoltre, è possibile installare piattaforme personalizzate per l'importazione dei dati su Amazon EC2 e Amazon EMR, creando livelli di archiviazione ed elaborazione di flussi personalizzati. In questo modo si evitano le complessità del provisioning dell'infrastruttura e si ottiene l'accesso a diversi framework per l'archiviazione e l'elaborazione dei flussi.

Inizia a usare l'importazione dei dati su AWS creando un account gratuito oggi stesso.