Inizia il progetto

7 fasi  |  60 minuti

D: Che cos’è il data warehousing?

Le analisi sono onnipresenti. Tutti usiamo report e pannelli di controllo per gestire il nostro lavoro, creare report per le persone interessate ed effettuare analisi ad hoc per supportare il processo decisionale. Questi report, pannelli di controllo e strumenti di BI sono basati sui data warehouse, che archiviano dati in modo efficiente per ridurre l'I/O al minimo e distribuire risultati di query a velocità sorprendente a migliaia di utenti simultaneamente. Diversamente dai database transazionali, i data warehouse utilizzano architetture specializzate e storage per prestazioni di query e di carico di dati veloci. I data warehouse devono inoltre possedere una scalabilità elevata in modo da poter aggiungere continuamente altre origini dati per arricchire le analisi e le informazioni strategiche. Infine, i data warehouse devono integrarsi perfettamente con strumenti di business intelligence di terza parte e client SQL e supportare l'SQL standard in modo che i clienti possano utilizzare le tecnologie che già conoscono.

D: Qual è il vantaggio di eseguire il data warehousing in AWS?

Amazon Redshift, la nostra soluzione di data warehousing, è rapido, di facile utilizzo e completamente gestito. Automatizza il provisioning dell'infrastruttura e le attività amministrative come backup, repliche e applicazioni di patch. Grazie alla perfetta integrazione con strumenti di BI ed ETL di terza parte, puoi ottenere il tuo primo report in pochi minuti. Inoltre, non è prevista alcuna limitazione alla quantità di dati che puoi caricare a analizzare. Man mano che i tuoi dati aumentano, non devi preoccuparti di costosi aggiornamenti di sistema o del rallentamento delle prestazioni. Amazon Redshift è rapido su qualsiasi scala perché utilizza una tecnologia di storage basata su colonne e diverse tecniche di ottimizzazione. Amazon Redshift è inoltre economico, perché i prezzi sono calcolati solo in base all'uso effettivo. In conclusione, un numero illimitato di utenti possono eseguire analisi sui dati per 1.000 USD per terabyte all'anno. 

D: Cos'è Amazon Redshift?

Amazon Redshift è una soluzione di data warehousing agile, completamente gestita e scalabile a livello di petabyte in grado analizzare i dati in modo semplice e conveniente senza rivoluzionare gli strumenti di business intelligence già in uso. Puoi iniziare con una soluzione di base a un costo di 0,25 USD all'ora, senza impegni né pagamenti anticipati, per poi ricalibrare la capacità fino a petabyte a una tariffa pari a 1.000 USD per terabyte all'anno, meno di un decimo dei costi delle soluzioni tradizionali. Spesso i nostri clienti ottengono una compressione tre volte superiore, che riduce le spese di 333 USD all'anno per ogni terabyte di dati non compressi.

D: Come si posizionano le prestazioni di Amazon Redshift rispetto alla maggior parte dei database tradizionali per data warehousing e analisi?

Amazon Redshift utilizza una serie di innovazioni per ottenere prestazioni fino a dieci volte superiori rispetto a quelle dei database tradizionali per i carichi di lavoro di data warehousing e di analisi:

  • Elaborazione parallela su larga scala: Amazon Redshift fornisce una rapida elaborazione di query su gruppi di dati di qualsiasi ordine di grandezza, dai gigabyte agli exabyte. Per ridurre la quantità di I/O necessari per elaborare le query, Redshift impiega storage basato su colonne, compressione dei dati e mappature di zona. Inoltre l'architettura MPP (Massively Parallel Processing, elaborazione parallela di massa) del suo data warehouse consente di caricare in parallelo e distribuire le operazioni SQL, in modo da sfruttare al massimo tutte le risorse disponibili. L'hardware utilizzato è stato progettato per fornire prestazioni di alto livello in elaborazione dei dati: si serve di storage locali collegati per ottimizzare il throughput tra CPU e unità e di reti mesh con elevata larghezza di banda per ottimizzare il throughput tra nodi.
  • Machine learning: Amazon Redshift utilizza il machine learning per offrire throughput a prescindere da carichi di lavoro o utilizzo simultaneo. Redshift utilizza algoritmi complessi per prevedere i tempi di esecuzione delle query in arrivo e assegnarle alla coda ottimale per un'elaborazione più rapida. Ad esempio, le query quali pannelli di controllo e report con requisiti di concorrenza elevati sono instradate verso una coda rapida per l’elaborazione immediata. In base all’aumento della simultaneità, Amazon Redshift prevede quando è possibile iniziare l’accodamento e distribuisce in modo automatico le risorse transitorie con la funzione di dimensionamento della simultaneità, garantendo prestazioni veloci e costanti indipendentemente dalla variabilità della domanda nel cluster.
  • Memorizzazione dei risultati nella cache: Amazon Redshift memorizza nella cache i risultati per fornire tempi di risposta inferiori al secondo per le query ripetute. Gli strumenti di pannello di controllo, visualizzazione e business intelligence che eseguono query ripetute offrono un incremento notevole delle prestazioni. Quando una query è in esecuzione, Redshift effettua ricerche nella cache per verificare l'eventuale presenza del risultato memorizzato di una query precedente. Se emerge un risultato nella cache e i dati non sono cambiati, tale risultato viene restituito immediatamente senza rieseguire la query. 

D: Come accedo al mio cluster di data warehouse in esecuzione?

Quando il cluster di data warehouse è disponibile, puoi recuperare i relativi endpoint e la stringa di collegamento JDBC e ODBC tramite la Console di gestione AWS oppure utilizzando le API Redshift. Puoi utilizzare tale stringa di collegamento con lo strumento di database, il linguaggio di programmazione o lo strumento di Business Intelligence (BI) che preferisci. Dovrai autorizzare le richieste di rete al cluster di data warehouse in esecuzione. Per una spiegazione dettagliata, consulta la nostra Guida alle operazioni di base.

D: Amazon Redshift è compatibile con il mio pacchetto software di strumenti di Business Intelligence ed ETL?

Amazon Redshift utilizza SQL standard del settore ed è accessibile utilizzando i normali driver JDBC e ODBC. Puoi scaricare i driver JDBC e ODBC personalizzati per Amazon Redshift dalla scheda Connect Client della nostra Console. Abbiamo convalidato l’integrazione con vari fornitori di BI ed ETL di uso comune, un certo numero dei quali offre prove gratuite per aiutarti a iniziare a caricare e utilizzare i tuoi dati. Puoi inoltre accedere ad AWS Marketplace per implementare e configurare in pochi minuti soluzioni studiate per lavorare con Amazon Redshift.

D: Come si inizia a utilizzare Amazon Redshift?

Puoi provare gratuitamente Amazon Redshift. Se non hai mai creato un cluster Amazon Redshift, hai diritto a una prova gratuita di due mesi del nostro nodo DC1.Large. Otterrai 750 ore gratuite al mese, un numero sufficiente per eseguire un nodo DC1.Large con 160 GB di storage SSD compresso. Puoi anche creare cluster con più nodi per testare set di dati di maggiori dimensioni, che consumeranno però più rapidamente le ore gratuite. Una volta scaduti i due mesi di prova gratuita, oppure una volta superata la soglia di 750 ore al mese di utilizzo, puoi disattivare il tuo cluster evitando qualsiasi costo, oppure mantenerlo attivo alla nostra tariffa on demand standard.

Inizia il progetto