Cloud AWS
Nozioni di base su Amazon Redshift

Un data warehouse è un repository centralizzato di informazioni che possono essere analizzate per prendere decisioni più informate. I dati affluiscono nel data warehouse da sistemi transazionali, database relazionali e altre fonti, normalmente a cadenza regolare. Analisti aziendali, data scientist e responsabili decisionali accedono ai dati tramite strumenti di business intelligence (BI), client SQL e altre applicazioni di analisi.

I dati e la relativa analisi sono diventati fattori critici per garantire la competitività delle aziende. Report, pannelli di controllo e strumenti di analisi sono indispensabili per estrarre informazioni approfondite dai dati, monitorare le prestazioni aziendali e supportare il decision making. Questi report, pannelli di controllo e strumenti di business intelligence sono basati sui data warehouse, che memorizzano dati in modo efficiente per ridurre l'I/O al minimo e distribuire risultati di query con la massima rapidità a migliaia di utenti simultaneamente.

Scarica il whitepaper: Enterprise Data Warehousing on AWS

L'architettura di un data warehouse consiste in tre livelli. Il livello inferiore dell'architettura è il server del database, dove vengono caricati e archiviati i dati. Il livello centrale consiste nel motore di analisi utilizzato per accedere e analizzare i dati. Il livello superiore è il client di front-end che presenta i risultati tramite strumenti di reporting, analisi e data mining.

Un data warehouse funziona organizzando i dati in uno schema che descrive il layout e il tipo di dati, come valore intero, campo di dati o stringa. Quando i dati vengono acquisiti, vengono memorizzati in varie tabelle descritte dallo schema. Gli strumenti di query utilizzano lo schema per determinare a quali tabelle di dati accedere e analizzare.

I vantaggi di un data warehouse sono:

  • Migliori processi decisionali
  • Consolidamento di dati da più fonti
  • Qualità, coerenza e precisione dei dati
  • Intelligenza cronologica
  • Separazione dell'elaborazione analitica dai database transazionali, migliorando le prestazioni di entrambi i sistemi

 

Un data warehouse è specificamente progettato per l'analisi dei dati che prevede la lettura di grandi quantità di dati per la comprensione di rapporti e trend tra i dati stessi. Un database viene utilizzato per acquisire e archiviare i dati, come la registrazione dei dettagli di una transazione.

Caratteristiche Data warehouse Database transazionale
Carichi di lavoro consigliati Analisi, reporting, big data  Elaborazione di transazioni
Origine dati Dati raccolti e normalizzati da numerose origini Dati acquisiti così come sono da un'unica origine, come un sistema transazionale
Acquisizione di dati Scrittura in massa di operazioni, normalmente in un programma di batch predefinito

Ottimizzato per operazioni di scrittura continue in base alla disponibilità di nuovi dati per potenziare il throughput transazionale

Normalizzazione dei dati Schemi non normalizzati, come Star o Snowflake Schemi statici, altamente normalizzati
Storage dei dati Ottimizzato per la semplicità di accesso e prestazioni di query ad alta velocità utilizzando lo storage a colonne Ottimizzato per le operazioni di scrittura a throughput elevato in un blocco fisico orientato a una sola riga
Accesso ai dati Ottimizzato per ridurre al minimo operazioni I/O e potenziare il throughput di dati Volumi elevati di operazioni di lettura di piccole dimensioni

A differenza di un data warehouse, un data lake è un repository centralizzato per tutti i dati, compresi quelli strutturati e non strutturati. Un data warehouse utilizza uno schema predefinito, ottimizzato per l'analisi. In un data lake, lo schema non è definito, consentendo tipi aggiuntivi di analisi, come analisi di big data, ricerca nel testo completo, analisi in tempo reale e apprendimento automatico.

Caratteristiche Data warehouse Data lake
Disponibilità/durabilità Dati relazionali da sistemi transazionali, database operativi e applicazioni aziendali Dati relazionali e non relazionali da dispositivi IoT, siti Web, app mobili, social media e applicazioni corporative
Schema Progettato prima dell'implementazione del data warehouse (schema su scrittura) Scritto al momento dell'analisi (schema su lettura)
Prezzo/prestazioni Risultati delle query più rapidi utilizzando uno storage di costo superiore I risultati delle query diventano più rapidi utilizzando uno storage a costo contenuto
Qualità dei dati Dati estremamente curati che fungono da versione veritiera centrale Qualsiasi dato curato e non (ad es. dati grezzi)
Utenti Analisti aziendali, data scientist e sviluppatori di dati Data scientist, sviluppatori di dati e analisti aziendali (utilizzando dati curati)
Analisi Reporting in batch, BI e visualizzazioni Apprendimento automatico, analisi predittiva, rilevamento di dati e profiling

Un data mart è un data warehouse che assolve alle esigenze di uno specifico team o unità aziendale, come finanza, marketing o vendite. È più piccolo, più concentrato e può contenere riepiloghi dei dati che servono al meglio la relativa comunità di utenti.

Caratteristiche Data warehouse Data Mart
Ambito Centralizzato, più materie integrate tra loro Decentralizzato, materia specifica
Utenti A livello dell'intera organizzazione Un'unica comunità o reparto
Origine dati Molte origini Una o poche origini o una porzione di dati già raccolti in un data warehouse
Dimensioni Grandi, pari ad esempio a centinaia di gigabyte o petabyte Piccole, generalmente fino a decine di gigabyte
Progettazione Top-down Bottom-up
Dettagli dei dati Dati completi e dettagliati Può contenere dati riassunti

AWS consente di sfruttare tutti i vantaggi dell'elaborazione on demand, ad esempio l'accesso a storage e capacità di elaborazione praticamente illimitati, con la possibilità di ricalibrare le risorse di sistema in base ai volumi di dati raccolti, memorizzati e interrogati, pagando solo per le risorse allocate. AWS offre inoltre un'ampia gamma di servizi gestiti che si integrano l'uno con l'altro in modo fluido, consentendo di distribuire rapidamente soluzioni di analisi e data warehousing complete.

La figura seguente mostra i passaggi chiave di un processo di analisi e i servizi gestiti disponibili in AWS per ciascuna fase:

Pipeline di analisi in AWS

Amazon Redshift è un data warehouse rapido, conveniente e interamente gestito che fornisce warehousing di dati in scala petabyte e analisi di data lake in scala exabyte in un unico servizio.

Amazon Redshift è fino a dieci volte più rapido di un data warehouse locale tradizionale. Ottieni informazioni uniche eseguendo query su petabyte di dati in Redshift ed exabyte di dati strutturati o formati di file open in Amazon S3, senza la necessità di trasferire o trasformare i tuoi dati.

Redshift corrisponde a 1/10 del costo di una soluzione di data warehouse locale tradizionale. Puoi iniziare con una soluzione di base a un costo di soli 0,25 USD all'ora senza impegni, per poi ricalibrare la capacità fino a più petabyte di dati da 250 USD a 333 USD per terabyte non compresso all'anno, quindi estendere l'analisi al tuo data lake di Amazon S3 per la cifra irrisoria di 0,05 USD per ogni 10 gigabyte di dati scansionati. Ulteriori informazioni