Inizia il progetto

7 fasi  |  60 minuti

D: Che cos’è il data warehousing?

Le analisi sono onnipresenti. Tutti usiamo report e pannelli di controllo per gestire il nostro lavoro, creare report per le persone interessate ed effettuare analisi ad hoc per supportare il processo decisionale. Questi report, pannelli di controllo e strumenti di BI sono basati sui data warehouse, che archiviano dati in modo efficiente per ridurre l'I/O al minimo e distribuire risultati di query a velocità sorprendente a migliaia di utenti simultaneamente. Diversamente dai database transazionali, i data warehouse utilizzano architetture specializzate e storage per rapide prestazioni di query e di carico di dati. I data warehouse devono inoltre possedere una scalabilità elevata in modo da poter aggiungere continuamente altre origini dati per arricchire le analisi e le informazioni strategiche. Infine, i data warehouse devono integrarsi perfettamente con strumenti di business intelligence di terza parte e client SQL e supportare l'SQL standard in modo che i clienti possano utilizzare le tecnologie che già conoscono.

D: Qual è il vantaggio di eseguire il data warehousing in AWS?

Amazon Redshift, la nostra soluzione di data warehousing, è rapido, di facile utilizzo e completamente gestito. Automatizza il provisioning dell'infrastruttura e le attività amministrative come backup, repliche e applicazioni di patch. Poiché si integra perfettamente con strumenti di BI e ETL di terza parte, puoi ottenere il tuo primo report in pochi minuti. Inoltre non è prevista alcuna limitazione alla quantità di dati che puoi caricare a analizzare. Man mano che i tuoi dati aumentano, non devi preoccuparti di costosi aggiornamenti di sistema o del rallentamento delle prestazioni. Amazon Redshift è rapido su qualsiasi scala perché utilizza una tecnologia di storage basata su colonne e diverse tecniche di ottimizzazione. Amazon Redshift è inoltre economico, perché i prezzi sono calcolati solo in base all'uso effettivo. In conclusione, puoi avere un numero illimitato di utenti che eseguono analisi sui dati per 1.000 USD per terabyte all'anno. 

D: Cos'è Amazon Redshift?

Amazon Redshift è una soluzione di data warehousing agile, completamente gestita e scalabile a livello di petabyte in grado analizzare i dati in modo semplice e conveniente senza rivoluzionare gli strumenti di business intelligence già in uso. Puoi iniziare con una soluzione di base a un costo di 0,25 USD all'ora, senza impegni né pagamenti anticipati, per poi ricalibrare la capacità fino a petabyte a una tariffa pari a 1.000 USD per terabyte all'anno, meno di un decimo dei costi delle soluzioni tradizionali. Spesso i nostri clienti ottengono una compressione tre volte superiore, che riduce le loro spese di 333 USD all'anno per ogni terabyte di dati non compressi.

D: Come si posizionano le prestazioni di Amazon Redshift rispetto alla maggior parte dei database tradizionali per data warehousing e analisi?

Amazon Redshift utilizza una serie di innovazioni per ottenere prestazioni superiori fino dieci volte rispetto a quelle dei database tradizionali per i carichi di lavoro di data warehousing e di analisi:

  • Storage dei dati a colonne: invece di memorizzare i dati come una serie di righe, Amazon Redshift li organizza per colonne. A differenza dei sistemi basati sulle righe, ideali per l’elaborazione di transazioni, quelli basati sulle colonne sono ideali per le attività di data warehousing e di analisi, nelle quali le query comportano spesso aggregazioni su set di dati di grandi dimensioni. Poiché vengono elaborate soltanto le colonne coinvolte nelle query, e i dati in forma colonnare vengono memorizzati sequenzialmente sui supporti di storage, i sistemi basati su colonne richiedono un numero nettamente inferiore di I/O, migliorando notevolmente le prestazioni di query.
  • Compressione avanzata: i datastore colonnari consentono una compressione molto più spinta di quelli per righe, in quanto i dati simili vengono memorizzati sequenzialmente su disco. Amazon Redshift utilizza più tecniche di compressione e riesce spesso a raggiungere un livello di compressione notevole rispetto ai datastore relazionali tradizionali. Amazon Redshift non richiede inoltre indici o visualizzazioni materializzate, occupando di conseguenza meno spazio dei sistemi tradizionali di database relazionali. Quando carica i dati in una tabella vuota, Amazon Redshift campiona automaticamente i dati, selezionando lo schema di compressione più indicato.
  • Elaborazione parallela su larga scala (MPP): Amazon Redshift distribuisce automaticamente il carico di dati e query fra tutti i nodi. Amazon Redshift semplifica l’aggiunta di nodi ai data warehouse, consentendo di mantenere prestazioni di query rapide al crescere dei medesimi.

D: Come accedo al mio cluster di data warehouse in esecuzione?

Una volta che il tuo cluster di data è disponibile, puoi recuperare i suoi endpoint e la stringa di collegamento a JDBC e ODBC tramite la Console di gestione AWS oppure utilizzando le API Redshift. Puoi quindi utilizzare tale stringa di collegamento con lo strumento di database, il linguaggio di programmazione o lo strumento di Business Intelligence (BI) che preferisci. Dovrai autorizzare le richieste di rete al tuo cluster di data warehouse in esecuzione. Per avere una spiegazione dettagliata, consulta la nostra Guida alle operazioni di base.

Q: Amazon Redshift è compatibile con il mio pacchetto software preferito di strumenti di Business Intelligence ed ETL?

Amazon Redshift utilizza SQL standard del settore ed è accessibile utilizzando i normali driver JDBC e ODBC. Puoi scaricare i driver JDBC e ODBC personalizzati per Amazon Redshift dalla scheda Connect Client della nostra Console. Abbiamo validato l’integrazione con vari fornitori di BI ed ETL di uso comune, un certo numero dei quali offre prove gratuite per aiutarti a iniziare a caricare e utilizzare i tuoi dati. Puoi inoltre accedere ad AWS Marketplace per implementare e configurare in pochi minuti soluzioni studiate per lavorare con Amazon Redshift.

D: Come si inizia a usare Amazon Redshift?

Poi provare gratuitamente Amazon Redshift. Se non hai mai creato un cluster Amazon Redshift, hai diritto a una prova gratuita di due mesi del nostro nodo DC1.Large. Otterrai 750 ore gratuite al mese, un numero sufficiente per eseguire un nodo DC1.Large con 160GB di storage SSD compresso. Puoi anche creare cluster con più nodi per testare set di dati di maggiori dimensioni che consumeranno più rapidamente le tue ore gratuite. Una volta scaduti i tuoi due mesi di prova gratuita o se il tuo utilizzo supera 750 ore al mese, puoi disattivare il tuo cluster evitando qualsiasi costo, oppure mantenerlo attivo alla nostra tariffa on demand standard.

Inizia il progetto