Domande generali

Visita la pagina Novità per scoprire le novità su Amazon Redshift.
Per visualizzare ulteriori informazioni dettagliate e istruzioni sull'utilizzo del servizio, visita la Documentazione.

D: Cos'è Amazon Redshift?

Amazon Redshift è un data warehouse nel cloud scalabile e completamente gestito che accelera i tempi per ottenere informazioni dettagliate con analisi dei dati veloci, facili e sicure su vasta scala. Migliaia di clienti si affidano ad Amazon Redshift per analizzare dati da terabyte a petabyte ed eseguire complesse query analitiche. Puoi ottenere informazioni dettagliate in tempo reale e analisi predittive su tutti i tuoi dati attraverso i tuoi database operativi, data lake, data warehouse e set di dati di terzi. Amazon Redshift offre tutto questo a un prezzo che è fino a 3 volte migliore rispetto ad altri data warehouse nel cloud integrati, aiutandoti a mantenere i costi prevedibili.

Amazon Redshift Serverless semplifica l'esecuzione di analisi dei dati nell'ordine dei petabyte in pochi secondi per ottenere informazioni approfondite rapide senza dover configurare e gestire i cluster di data warehouse. Amazon Redshift Serverless esegue il provisioning e dimensiona automaticamente la capacità del data warehouse per fornire prestazioni elevate per carichi di lavoro esigenti e imprevedibili e paghi solo per le risorse utilizzate.

D: Quali sono le ragioni principali per cui i clienti scelgono Amazon Redshift?

Migliaia di clienti scelgono Amazon Redshift per accelerare il loro tempo per ottenere informazioni dettagliate perché è facile da usare, offre prestazioni su qualsiasi scala e ti permette di analizzare tutti i tuoi dati. Amazon Redshift è un servizio completamente gestito e offre opzioni sia con provisioning che serverless, facilitando l'esecuzione e il dimensionamento delle analisi senza dover gestire il tuo data warehouse. Puoi scegliere l'opzione con provisioning per carichi di lavoro prevedibili o scegliere l'opzione Amazon Redshift Serverless per il provisioning automatico e dimensionare la capacità del data warehouse per offrire prestazioni elevate per carichi di lavoro esigenti e imprevedibili. Offre prestazioni su qualsiasi scala con un rapporto tra prezzo e prestazioni fino a 3 volte migliore rispetto ad altri data warehouse nel cloud integrati, aiutandoti a mantenere i costi prevedibili. Amazon Redshift ti consente di ottenere informazioni dettagliate dall'esecuzione di analisi dei dati in tempo reale e predittive su tutti i tuoi dati attraverso i tuoi database operativi, data lake, data warehouse e migliaia di set di dati di terze parti. Amazon Redshift mantiene i tuoi dati sicuri a riposo e in transito e soddisfa i requisiti di conformità interni ed esterni. Supporta la sicurezza leader del settore per proteggere i tuoi dati in transito e a riposo ed è conforme ai requisiti SOC1, SOC2, SOC3 e PCI DSS di Livello 1. Tutte le caratteristiche di sicurezza e conformità di Redshift sono incluse senza costi aggiuntivi.

D: In che modo Amazon Redshift semplifica la gestione del data warehouse?

Amazon Redshift è completamente gestito da AWS, quindi non dovrai più preoccuparti delle attività di gestione del data warehouse come il provisioning dell'hardware, l'applicazione di patch del software, l'impostazione, la configurazione, il monitoraggio dei nodi e delle unità per il ripristino dai guasti, o i backup. AWS gestisce il lavoro necessario per configurare, utilizzare e dimensionare un data warehouse per tuo conto, lasciandoti la libertà di concentrarti sullo sviluppo delle tue applicazioni. Amazon Redshift dispone anche di funzionalità di ottimizzazione automatica e genera raccomandazioni per gestire il vostro magazzino in Redshift Advisor. Per Redshift Spectrum, Amazon Redshift gestisce l'infrastruttura di elaborazione, il bilanciamento del carico, la pianificazione e l'esecuzione delle query sui dati memorizzati in Amazon S3. L'opzione serverless esegue il provisioning e dimensiona automaticamente la capacità del data warehouse per fornire prestazioni elevate per carichi di lavoro esigenti e imprevedibili e paghi solo per le risorse utilizzate.

D: Come sono le prestazioni di Amazon Redshift rispetto a quelle di altri data warehouse?

I risultati del benchmark TPC-DS mostrano che Amazon Redshift offre il miglior rapporto prezzo/prestazioni integrato, anche per un set di dati relativamente piccolo di 3 TB. Amazon Redshift fornisce prestazioni a livello di prezzo fino a 3 volte migliori con i data warehouse del cloud. Questo significa che si può beneficiare del miglior rapporto prezzo/prestazioni di Amazon Redshift fin dall'inizio senza una regolazione manuale. Ottieni prestazioni a livello di prezzo fino a 3 volte migliori con Amazon Redshift rispetto ad altri data warehouse del cloud | AWS Big Data Blog.

Amazon Redshift utilizza una varietà di innovazioni per ottenere prestazioni fino a 10 volte migliori rispetto ai database tradizionali per i carichi di lavoro di data warehouse e analisi, tra cui un'efficiente archiviazione dei dati compressi in colonne ottimizzati per la lettura con cluster di elaborazione parallela su larga scala (MPP) che si dimensionano linearmente fino a centinaia di nodi. Invece di memorizzare i dati come una serie di righe, Amazon Redshift li organizza per colonne. Quando carica i dati in una tabella vuota, Amazon Redshift campiona automaticamente i dati, selezionando lo schema di compressione più indicato.

Redshift Spectrum ti consente di eseguire query su exabyte di dati in Amazon S3. Non sono richiesti caricamento o estrazione, trasformazione e caricamento (ETL). Anche se i dati non sono memorizzati in Amazon Redshift, con Redshift Spectrum è possibile interrogare set di dati di enormi dimensioni in Amazon S3. Le viste materializzate forniscono prestazioni di query notevolmente più veloci per carichi di lavoro analitici ripetuti e prevedibili, quali la creazione di pannelli di controllo, l'esecuzione di query da strumenti di business intelligence (BI) e l'elaborazione di dati ETL. Attraverso le viste materializzate, puoi archiviare i risultati pre-calcolati delle query e conservarli efficientemente elaborando in modo incrementale le ultime modifiche apportate alle tabelle di origine. Le query successive che fanno riferimento alle viste materializzate utilizzano i risultati pre-calcolati per funzionare molto più velocemente, e le funzionalità di aggiornamento automatico e di riscrittura delle query per semplificare e automatizzare l'uso delle viste materializzate. Amazon Redshift crea anche le viste materializzate automaticamente, fornendo gli stessi vantaggi di una vista creata dall'utente.

La capacità di calcolo e archiviazione dei data warehouse on-premise è limitata dai vincoli dell'hardware on-premise. Amazon Redshift ti dà la possibilità di dimensionare indipendentemente i sistemi di calcolo e archiviazione in base alle necessità per assecondare i cambiamenti nei carichi di lavoro. Con l'archiviazione gestita id Redshift (RMS), ora puoi dimensionare la tua archiviazione fino a petabyte utilizzando l'archiviazione di Amazon S3.

Ottimizzazione Automatica di Tabelle (ATO) è una funzione di auto-ottimizzazione che ti aiuta a raggiungere i vantaggi prestazionali di creare chiavi di ordinamento e distribuzione ottimali senza interventi manuali. ATO osserva come le query interagiscono con le tabelle e utilizza il machine learning (ML) per selezionare le migliori chiavi di ordinamento e distribuzione per ottimizzare le prestazioni per il carico di lavoro del cluster. Le ottimizzazioni ATO hanno dimostrato di aumentare le prestazioni dei cluster del 24% e del 34% utilizzando il benchmark TPC-DS da 3TB e 30TB, rispettivamente, rispetto a un cluster senza ATO. Le caratteristiche aggiuntive come Eliminazione Vacuum Automatica, Ordinamento Automatico delle Tabelle e Analisi Automatica eliminano la necessità di manutenzione manuale e di messa a punto dei cluster Redshift per ottenere le migliori prestazioni per i nuovi cluster e i carichi di lavoro di produzione.

La gestione del carico di lavoro permette di instradare le query a un insieme di code definite per gestire la concorrenza e l'utilizzo delle risorse del cluster. Oggi Amazon Redshift dispone sia tipi di configurazione automatica che manuale. Con le configurazioni manuali di gestione del carico di lavoro (WLM), hai la responsabilità di definire la quantità di memoria assegnata a ciascuna coda e il numero massimo di query, ciascuna delle quali ottiene una frazione di quella memoria, che possono essere eseguite in ciascuna delle loro code. Le configurazioni manuali di gestione del carico di lavoro (WLM) non si adattano ai cambiamenti del tuo carico di lavoro e richiedono una conoscenza intima dell'utilizzo delle risorse delle tue query per essere corrette. La gestione del carico di lavoro automatica di Amazon Redshift non richiede di definire l'utilizzo della memoria o la concorrenza per le code. Invece, regola dinamicamente la concorrenza per ottimizzare la velocità effettiva. Facoltativamente, puoi definire le priorità della coda per fornire alle query un'allocazione preferenziale delle risorse in base alle tue priorità aziendali. La gestione del carico di lavoro automatica offre anche strumenti potenti per permetterti di gestire il tuo carico di lavoro. Le priorità delle query consentono di definire le priorità per i carichi di lavoro in modo che possano ottenere un trattamento preferenziale in Amazon Redshift, tra cui più risorse durante i periodi di attività per prestazioni costanti delle query e le regole di monitoraggio delle query offrono modi per gestire situazioni impreviste come il rilevamento e la prevenzione di query in fuga o costose che consumano le risorse di sistema. Le seguenti sono aree chiave di gestione del carico di lavoro automatica con miglioramenti delle prestazioni di concorrenza adattiva: corretta allocazione della memoria, eliminazione del flusso di partizione statico della memoria tra le code e velocità effettiva migliorata.

Amazon Redshift Advisor sviluppa suggerimenti personalizzati per aumentare le prestazioni e ottimizzare i costi analizzando il carico di lavoro e i parametri di utilizzo del cluster. Accedi alla console Amazon Redshift per visualizzare i suggerimenti di Advisor. Per ulteriori informazioni, consulta Operare con i suggerimenti di Amazon Redshift Advisor.

D: Come si inizia a utilizzare Amazon Redshift?

Per iniziare a eseguire query sui dati, bastano pochi passaggi nella Console di gestione AWS. Puoi sfruttare i set di dati campione precaricati, inclusi i set di dati di benchmark TPC-H, TPC-DS e altre query campione per avviare immediatamente le analisi dei dati. Puoi creare database, schemi, tabelle e caricare i dati da Amazon S3, condivisioni di dati Amazon Redshift, o eseguire ripristini da uno snapshot di cluster esistente con provisioning di Amazon Redshift. Puoi anche eseguire direttamente query sui dati in formati aperti, come Parquet oppure ORC in data lake Amazon S3, o interrogare i dati in database operativi, come Amazon Aurora, Amazon RDS PostgreSQL e MySQL.

Per iniziare a usare Amazon Redshift Serverless, scegli "Try Amazon Redshift Serverless" (Prova Amazon Redshift Serverless) e inizia a eseguire query sui dati. Amazon Redshift Serverless si dimensiona automaticamente per soddisfare qualsiasi aumento dei carichi di lavoro.

D: Posso ricevere assistenza per avere ulteriori informazioni ed effettuare l'onboarding su Amazon Redshift?

R: Sì, gli specialisti di Amazon Redshift sono disponibili a rispondere a domande e fornire assistenza. Contattaci e ti ricontatteremo entro un giorno lavorativo per parlare di come AWS può aiutare la tua organizzazione.

D: Che cos'è Advanced Query Accelerator (AQUA) per Amazon Redshift?

Advanced Query Accelerator (AQUA) è una cache di nuova distribuzione e con accelerazione hardware che consente ad Amazon Redshift di funzionare con una velocità 10 volte maggiore di qualsiasi altro data warehouse cloud aziendale perché potenzia automaticamente determinate operazioni. AQUA è disponibile con i nodi RA3.16xlarge, RA3.4xlarge o RA3.xlplus senza costi aggiuntivi e senza modifiche al codice.

D: Come si attiva/disattiva AQUA per il data warehouse di Redshift?

Per i cluster di Redshift in esecuzione sui nodi RA3, puoi attivare o disattivare AQUA a livello di cluster utilizzando la console, l'interfaccia a riga di comando AWS (CLI) o l'API di Redshift. Per i cluster di Redshift in esecuzione sui nodi DC, DS o delle generazioni precedenti, devi innanzitutto eseguire l'upgrade ai nodi RA3, quindi attivare o disattivare AQUA.

D: Quali tipi di query sono accelerate da AQUA?

AQUA accelera le query di analisi dei dati perché esegue attività con uso intensivo di dati, quali scansioni, filtri e aggregazioni più vicine al livello di archiviazione. Registrerai un miglioramento evidente delle prestazioni nelle query che richiedono grandi scansioni, soprattutto quelle con predicati LIKE e SIMILAR_TO. Nel tempo, i tipi di query accelerati da AQUA aumenteranno.

D: Come è possibile capire quali query del cluster di Redshift sono accelerate da AQUA?

Per vedere le query accelerate da AQUA, è possibile eseguire le query delle tabelle del sistema.

D: Cos'è l'archiviazione gestita di Amazon Redshift?

L'archiviazione gestita di Amazon Redshift è disponibile con tipi di nodo serverless e RA3 e consente di dimensionare e pagare per i sistemi di calcolo e archiviazione in modo indipendente, così da poter dimensionare il cluster unicamente in base alle esigenze di calcolo. Utilizza automaticamente l'archiviazione in locale basata su SSD ad alte prestazioni come cache di livello 1 e sfrutta le ottimizzazioni come la temperatura del blocco di dati, l'età del blocco di dati e i modelli di carico di lavoro per offrire prestazioni elevate scalando automaticamente l'archiviazione su Amazon S3, laddove necessario, senza richiedere alcuna operazione.

D: Come posso utilizzare l'archiviazione gestita di Amazon Redshift?

Se stai già usando Amazon Redshift Dense Storage o nodi Dense Compute, puoi usare Elastic Resize per aggiornare i cluster esistenti alla nuova istanza di calcolo RA3. Amazon Redshift Serverless e i cluster che utilizzano l'istanza RA3 utilizzano automaticamente l'archiviazione gestita da Redshift per archiviare i dati. Per utilizzare questa capacità non è richiesta nessuna altra operazione al di fuori dell'utilizzo di istanze Amazon Redshift Serverless o RA3.

D: Cos'è Amazon Redshift Spectrum?

Amazon Redshift Spectrum è una caratteristica di Amazon Redshift che ti permette di eseguire query sul tuo data lake in Amazon S3, senza bisogno di caricare i dati o ETL. Quando viene inoltrata, la query SQL raggiunge l'endpoint di Amazon Redshift, il quale genera e ottimizza un piano di query. Amazon Redshift determinerà quindi quali dati si trovano in locale e quali in S3, genererà un piano per ridurre al minimo i dati che è necessario leggere in Amazon S3 e richiederà a dipendenti di Amazon Redshift Spectrum di un pool di risorse condivise di leggere ed elaborare i dati da S3.

D: Quando è consigliato usare le istanze RA3?

Considera la scelta dei tipi di nodo RA3 in questi casi:

  • Hai bisogno di flessibilità per dimensionare e pagare il calcolo separatamente dall'archiviazione.
  • Esegui una query su una frazione dei tuoi dati totali.
  • Il tuo volume di dati cresce rapidamente o prevedi che cresca rapidamente.
  • Vuoi flessibilità per dimensionare il cluster solo in base alle tue necessità di prestazioni.

Mentre il livello dei dati continua a crescere, raggiungendo i petabyte, anche la quantità di dati che ingerisci nel tuo data warehouse Amazon Redshift cresce. Potresti essere alla ricerca di modi per analizzare tutti i tuoi dati in modo economico.

Con le nuove istanze RA3 di Amazon Redshift con archiviazione gestita, puoi scegliere il numero di nodi in base alle tue esigenze di prestazioni e pagare solo per l'archiviazione gestita che usi. Questo ti offre la flessibilità di dimensionare il tuo cluster RA3 in base alla quantità di dati che elabori quotidianamente senza aumentare i tuoi costi di archiviazione. Basate sul sistema AWS Nitro, le istanze RA3 con archiviazione gestita utilizzano SSD ad alte prestazioni per i dati caldi e Amazon S3 per i dati ad accesso frequente, offrendo facilità d'uso, archiviazione economica e prestazioni di query veloci.

D: In quali casi è preferibile usare Amazon Redshift anziché Amazon RDS? 

Sia Amazon Redshift, sia Amazon Relational Database Service (RDS) consentono di eseguire nel cloud un database relazionale tradizionale alleggerendo allo stesso tempo il carico di lavoro dedicato all'amministrazione del database. I clienti utilizzando i database di Amazon RDS principalmente per carichi di lavoro di elaborazione di transazioni online (OLTP), mentre Amazon Redshift viene utilizzato soprattutto per i carichi di lavoro di reportistica e analisi. I carichi di lavoro OLTP richiedono una esecuzione rapida di query per informazioni specifiche e il supporto per transazioni come l'inserimento, l'aggiornamento e l'eliminazione e sono gestiti al meglio da Amazon RDS. Amazon Redshift controlla le dimensioni e le risorse di più nodi e utilizza una serie di ottimizzazioni per offrire miglioramenti di ordini di grandezza rispetto ai database tradizionali in relazione ai carichi di lavoro di analisi e preparazione di report che coinvolgono set di dati di dimensioni molto grandi. Amazon Redshift offre un'eccellente opzione di espansione di scala al crescere del volume di dati e della complessità delle query quando si desidera evitare che l'elaborazione per le analisi o la preparazione di report interferisca con le prestazioni di evasione del carico di lavoro OLTP. Al momento, con la nuova funzionalità per query federate, è possibile eseguire query in modo semplice su tutti i dati archiviati in database Amazon RDS o Aurora tramite Amazon Redshift.

D: In quali casi è preferibile usare Amazon Redshift o Redshift Spectrum anziché Amazon EMR?

È consigliabile usare Amazon EMR con un codice personalizzato creato per elaborare e analizzare set di dati di grandissime dimensioni con framework di elaborazione dei Big Data come Apache, Spark, Hadoop, Presto e Hbase. Amazon EMR offre il controllo completo sulla configurazione dei cluster e sul software installato su di essi.

I servizi di data warehousing come Amazon Redshift sono progettati per un genere differente di analisi. I data warehouse sono ideali per raccogliere dati provenienti da molte origini diverse, ad esempio inventari, applicazioni finanziarie e sistemi di vendita al dettaglio. Per assicurare una creazione di report coerente in tutta un'organizzazione, i data warehouse memorizzano i dati in modo altamente strutturato. Tale struttura crea regole di coerenza dei dati in tabelle di database. Amazon Redshift è il miglior servizio disponibile quando si tratta di ottenere prestazioni elevate con query complesse su grandi volumi di dati strutturati e semi-strutturati.

La funzionalità Redshift Spectrum è un'ottima soluzione per eseguire query su dati in Amazon Redshift e S3, ma non è adatto per i casi d'uso che in genere richiedono le grandi aziende da framework di elaborazione come Amazon EMR. Amazon EMR offre molto di più rispetto alla semplice esecuzione di query SQL. Amazon EMR è un servizio gestito che consente di elaborare e analizzare enormi volumi di set di dati in cluster completamente personalizzabili, utilizzando le versioni più recenti dei più noti framework di elaborazione per Big Data quali Spark, Hadoop e Presto. Con Amazon EMR è possibile eseguire un'ampia gamma di attività di elaborazione dei dati in scalabilità orizzontale per applicazioni qualiil machine learning, analisi di grafi, trasformazione dei dati, streaming dei dati e, praticamente, tutto ciò che può essere scritto sotto forma di codice.

Inoltre, è possibile utilizzare Redshift Spectrum con EMR. Redshift Spectrum impiega lo stesso approccio di Amazon EMR per la memorizzazione di definizioni di tabella. Redshift Spectrum supporta Apache Hive Metastore, lo stesso servizio impiegato da Amazon EMR per individuare definizioni di tabelle e dati. Se usi Amazon EMR e disponi già di un'istanza Hive Metastore, per utilizzarla sarà sufficiente configurare il cluster di Amazon Redshift. Potrai quindi iniziare immediatamente a interrogare i dati con Amazon EMR. Quindi, se usi già EMR per l'elaborazione di un datastore di grandi dimensioni, puoi impiegare Redshift Spectrum per interrogare i dati nello stesso momento, senza interferire con i processi di Amazon EMR.

I servizi di query, il data warehouse e i complessi framework di elaborazione dei dati seguono percorsi diversi e vanno utilizzati in ambiti differenti. È solo necessario scegliere lo strumento adatto per il tipo di lavoro.

D: Quando è preferibile usare Amazon Athena anziché Amazon Redshift Spectrum?

Amazon Athena è un servizio di query interattivo che semplifica l'analisi dei dati in Amazon S3 con SQL standard. Athena è facile da usare. Basta indicare al servizio i dati salvati in S3, definire lo schema e iniziare a eseguire query utilizzando SQL standard.

Redshift Spectrum è una caratteristica di Amazon Redshift. Se hai bisogno di analizzare i dati ad accesso frequente con le più alte prestazioni e un rigoroso accordo sul livello di servizio (SLA), dovresti usare Amazon Redshift. Puoi usare Redshift Spectrum per estendere le tue query Amazon Redshift ai dati ad accesso meno frequente nel tuo data lake di Amazon S3. Il servizio offre la libertà di memorizzare i dati dove è più conveniente e nel formato desiderato senza sacrificare le possibilità di elaborazione.

D: Quale convenienza ho nell'utilizzare Amazon Redshift anziché eseguire un mio cluster di data warehouse MPP su Amazon EC2?

Amazon Redshift gestisce automaticamente molte delle attività dispendiose a livello di tempo associate alla gestione dei propri data warehouse, fra cui:
  • Configurazione: con Amazon Redshift è sufficiente creare un cluster di data warehouse, definire lo schema desiderato e iniziare a caricare e sottoporre a query i dati. Non è necessario gestire il provisioning, la configurazione o l’applicazione di patch.
  • Durata dei dati: Amazon Redshift replica i tuoi dati all’interno del tuo cluster di data warehouse e crea continuamente backup dei tuoi dati in Amazon S3, progettato per garantire una durata a undici nove. Amazon Redshift crea immagini speculari dei dati di ciascuna unità su altri nodi del tuo cluster. In caso di guasto di un’unità, l’elaborazione delle query prosegue con un leggero aumento della latenza mentre Redshift ricrea l’unità partendo dalle repliche. In caso di guasto di uno o più nodi, Amazon Redshift effettua automaticamente il provisioning di uno o più nuovi nodi e inizia a ripristinare i dati partendo da altre unità del cluster o da Amazon S3. Assegna la priorità al ripristino dei dati oggetto di query con maggiore frequenza, in modo da ripristinare rapidamente le prestazioni relative alle query di uso più frequente.
  • Dimensionamento: Mano a mano che le tue esigenze di capacità e prestazioni si evolvono, puoi aggiungere o rimuovere nodi del tuo cluster di data warehouse Amazon Redshift con una singola chiamata API o con pochi clic nella Console di gestione AWS. Inoltre, è possibile programmare le tue operazioni di dimensionamento utilizzando la capacità del pianificatore all'interno di Amazon Redshift.
  • Aggiornamenti e patch automatici: Amazon Redshift applica automaticamente aggiornamenti e patch al tuo data warehouse, consentendoti di concentrarti sulla tua applicazione anziché sulla sua amministrazione.
  • Funzionalità di query su exabyte di dati: Amazon Redshift Spectrum consente di eseguire query su exabyte di dati in Amazon S3. Non è necessario estrarre, trasferire o caricare i dati. Anche se i dati non sono memorizzati in Amazon Redshift, con Redshift Spectrum è possibile interrogare set di dati di enormi dimensioni in Amazon S3.

D: Come si crea e si accede a un cluster di data warehouse Amazon Redshift?

Puoi creare facilmente un cluster di data warehouse Amazon Redshift utilizzando la Console di gestione AWS o le API di Amazon Redshift. Puoi iniziare con un data warehouse da 160 GB formato da un singolo nodo ed espanderlo fino a più petabyte con pochi clic nella Console AWS o una singola chiamata API.

La configurazione con un singolo nodo, che è più adatta per carichi di lavoro di valutazione o sviluppo/test, ti permette di iniziare a usare Amazon Redshift in modo rapido ed economico e di passare a una configurazione a più nodi in base alla crescita delle tue esigenze. Un cluster di data warehouse Redshift può contenere da 1 a 128 nodi di calcolo, a seconda della loro tipologia. Per il tipo di nodo di ultima generazione, RA3, il numero minimo di nodi è due. Per informazioni, consulta la documentazione.

La configurazione a più nodi necessita di un nodo leader che gestisca i collegamenti del client e riceva le query, nonché di due nodi di calcolo che memorizzino i dati ed eseguano query e calcoli. Il provisioning del nodo leader, che ha le stesse dimensioni del nodo di calcolo, viene effettuato automaticamente e gratuitamente.

Specifica semplicemente la zona di disponibilità (opzionale) che preferisci, il numero di nodi, i tipi di nodi, un nome e una password primari, i gruppi di sicurezza, le preferenze di retention dei backup e altre impostazioni di sistema. Una volta selezionata la configurazione desiderata, Amazon Redshift effettua il provisioning delle risorse necessarie e configura il tuo cluster di data warehouse.

Quando il cluster di data warehouse è disponibile, puoi recuperare i relativi endpoint e la stringa di collegamento JDBC e ODBC tramite la Console di gestione AWS oppure utilizzando le API Redshift. Puoi quindi utilizzare tale stringa di collegamento con lo strumento di database, il linguaggio di programmazione o lo strumento di Business Intelligence (BI) che preferisci. Dovrai autorizzare le richieste di rete al tuo cluster di data warehouse in esecuzione. Per una spiegazione dettagliata, consulta la nostra Guida alle operazioni di base.

D: Perché dovrei usare Amazon Redshift Spatial?

Amazon Redshift Spatial offre un'analisi dei dati basata sulla posizione per ottenere informazioni dettagliate approfondite dei tuoi dati. Integra perfettamente i dati spaziali e aziendali per offrire analisi per il processo decisionale. Amazon Redshift ha lanciato il supporto nativo per l'elaborazione dei dati spaziali a novembre 2019, con un tipo di dati polimorfo GEOMETRY e diverse funzioni spaziali SQL chiave. Ora supportiamo il tipo di dati GEOGRAPHY e la nostra libreria di funzioni spaziali SQL è cresciuta fino a 80. Supportiamo tutti i tipi di dati spaziali comuni e gli standard, inclusi Shapefiles, GeoJSON, WKT, WKB, eWKT ed eWKB. Per saperne di più, visita la pagina della documentazione o la pagina del tutorial di Amazon Redshift Spatial.

D: Cos'è il miglioramento delle prestazioni delle query a freddo e cosa fa Amazon Redshift per migliorare le prestazioni delle query a freddo?

Amazon Redshift può elaborare le query fino a 2 volte più velocemente quando devono essere compilate. Questa ottimizzazione ti offre migliori prestazioni delle query quando crei un nuovo cluster Redshift, quando effettui l'onboarding di un nuovo carico di lavoro su un cluster preesistente o dopo un aggiornamento software di un cluster preesistente. Questi miglioramenti delle prestazioni delle query sono disponibili senza costi aggiuntivi e per abilitarli nei cluster non è necessaria alcuna operazione.

Grazie al miglioramento delle prestazioni delle query a freddo, le compilazioni delle query vengono dimensionate in un servizio di compilazione serverless oltre le risorse di calcolo del nodo principale del cluster. Amazon Redshift supporta una cache illimitata per l'archiviazione degli oggetti compilati, per aumentare gli accessi alla cache passando dal 99,60% al 99,95%, quando le query mission-critical vengono inviate ad Amazon Redshift.

Quando le query vengono inviate ad Amazon Redshift, il motore di esecuzione della query compila la query nel codice macchina e la distribuisce ai nodi del cluster. Il codice compilato viene eseguito più rapidamente perché elimina il sovraccarico dovuto all'uso di un interprete. Per un nuovo cluster senza cache del codice o dopo che un cluster preesistente viene aggiornato all'ultima versione, la cache del codice viene svuotata e le query devono essere sottoposte a compilazione di query. Ne consegue che la latenza della query può variare e ciò potrebbe non soddisfare i requisiti di alcuni carichi di lavoro. Grazie a questo aggiornamento, la cache illimitata riduce al minimo la necessità di compilare il codice e, quando è necessaria la compilazione, una farm di compilazione scalabile lo compila in parallelo per accelerare i carichi di lavoro. L'entità dell'aumento della velocità dipende dalla complessità e simultaneità del carico di lavoro. Per ulteriori informazioni sulla compilazione del codice, fai riferimento all'elaborazione delle query nella Guida per gli sviluppatori del database.

Serverless

D: Cos'è Amazon Redshift Serverless (anteprima)?

Amazon Redshift Serverless (anteprima) è un'opzione serverless di Amazon Redshift che facilita l'esecuzione e il dimensionamento delle analisi dei dati in pochi secondi senza la necessità di impostare e gestire l'infrastruttura del data warehouse. Con Redshift Serverless, qualsiasi utente, compresi gli analisti di dati, gli sviluppatori, i professionisti aziendali e i data scientist, può ottenere informazioni dettagliate dai dati semplicemente caricando e interrogando i dati nel data warehouse.

D: Come si inizia a utilizzare Amazon Redshift Serverless (anteprima)?

Con pochi clic nella Console di gestione AWS, puoi scegliere "configure Amazon Redshift Serverless" (configura Amazon Redshift Serverless) e iniziare a eseguire query sui dati. Puoi sfruttare i set di dati campione precaricati, come i dati meteorologici, i dati del censimento e i set di dati di riferimento, insieme alle query campione per avviare immediatamente le analisi. Puoi creare database, schemi, tabelle e caricare i dati da Amazon S3, condivisioni di dati Amazon Redshift, o eseguire ripristini da uno snapshot di cluster esistente con provisioning di Redshift. Puoi anche eseguire direttamente query sui dati in formati aperti (come Parquet oppure ORC) nei data lake Amazon S3, o interrogare i dati in database operativi, come Amazon Aurora, Amazon RDS PostgreSQL e MySQL.

D: Quali capacità offre Amazon Redshift Serverless (anteprima)?

Amazon Redshift Serverless offre numerosi vantaggi, tra cui:

  • La capacità di ottenere rapidamente informazioni dettagliate senza effettuare il provisioning e la gestione dei cluster.
  • Scalabilità intelligente e automatica in base alle richieste del carico di lavoro senza investire preventivamente in risorse in eccesso.
  • Disponibilità continua del servizio per il dimensionamento e gli aggiornamenti di versione.
  • Prestazioni di query veloci e immediate sia per i dati caricati nel data warehouse, sia per i formati aperti nel data lake Amazon S3, sia per i dati nei database operativi senza richiedere la regolazione del database.
  • Ricca analisi dei dati SQL, durabilità e garanzie transazionali di Amazon Redshift.
  • Efficienza dei costi pagando solo la capacità utilizzata e riduzione della complessità del data warehouse.

D: Quali vantaggi offre l'utilizzo di Amazon Redshift Serverless (anteprima)? 

Se non hai esperienza nella gestione del data warehouse, non devi preoccuparti di impostare, configurare, gestire i cluster o regolare il warehouse. Puoi concentrarti sul ricavare informazioni dettagliate significative dai tuoi dati o sul fornire i risultati del tuo core business attraverso i dati. Paghi solo ciò che usi, mantenendo i costi gestibili. Continua a beneficiare di tutte le prestazioni di prim'ordine di Amazon Redshift, delle ricche caratteristiche di SQL, dell'integrazione senza soluzione di continuità con i datalake e i data warehouse operativi e delle capacità integrate di analisi predittiva e condivisione dei dati. Se hai bisogno di un controllo granulare del tuo data warehouse, puoi effettuare il provisioning dei cluster Redshift.

D: Come funziona Amazon Redshift Serverless (anteprima) con altri servizi AWS?

Puoi continuare a utilizzare tutte le ricche funzionalità di analisi dei dati di Amazon Redshift, come giunzioni complesse, query dirette ai dati nel data lake Amazon S3 e nei database operativi, viste materializzate, procedure archiviate, supporto di dati semi-strutturati e ML, così come alte prestazioni su larga scala. Tutti i servizi correlati con cui Amazon Redshift si integra (come Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation e AWS Glue) continuano a funzionare con Amazon Redshift Serverless.

D: Quali casi d'uso posso gestire con Amazon Redshift Serverless (anteprima)?

Puoi continuare a gestire tutti i casi d'uso di analisi dei dati. Con un semplice flusso di lavoro di attività iniziali, la scalabilità automatica e la possibilità di pagare in base all'uso, l'esperienza Amazon Redshift Serverless ora rende ancora più facile e più conveniente eseguire ambienti di sviluppo e test che devono essere avviati rapidamente, analisi aziendali ad-hoc, carichi di lavoro con esigenze di calcolo variabili e imprevedibili e carichi di lavoro intermittenti o sporadici.

D: In cosa Amazon Athena è diverso da Amazon Redshift Serverless?

Amazon Athena e Amazon Redshift rispondono a esigenze e casi d'uso diversi, pur essendo entrambi servizi serverless. Un data warehouse come Amazon Redshift è la scelta migliore se hai bisogno del miglior rapporto tra prezzo e prestazioni per complessi carichi di lavoro di BI e analisi che richiedono prestazioni elevate su qualsiasi scala. Amazon Redshift offre anche la funzionalità di effettuare query sui dati archiviati in Amazon S3 e combinarli con i dati archiviati nel data warehouse. In confronto, Athena è più adatto per l'analisi interattiva su qualsiasi archivio dati senza preoccuparsi di acquisire e formattare i dati. L'analisi di Athena è disaccoppiata dall'archiviazione, quindi offre la flessibilità di utilizzare altri strumenti e servizi come Spark, Flink e Kafka per arricchire ulteriormente l'analisi e l'elaborazione dei dati rispetto agli stessi dati analizzati da Athena.

Condivisione dati

D: Cos'è la condivisione di dati di Amazon Redshift?

La condivisione dei dati di Amazon Redshift consente di condividere i dati live in Amazon Redshift per condividere in modo sicuro e facile i dati per scopi di lettura con altri cluster Redshift all'interno e tra gli account AWS e con i servizi di analisi di AWS che utilizzano il data lake. Con la condivisione dei dati, puoi eseguire istantaneamente query sui dati live da qualsiasi cluster Redshift, purché abbiano le autorizzazioni di accesso, senza la complessità e i ritardi associati alle copie e allo spostamento dei dati. Amazon Redshift consente di condividere ed eseguire query sui dati live attraverso l'organizzazione, gli account e persino le regioni.

D: Quali sono i casi d'uso per la condivisione dei dati?

I casi d'uso principali sono:

  • Un cluster ETL centrale che condivide i dati con molti cluster di BI/analisi per offrire l'isolamento del carico di lavoro in lettura e la capacità di carico opzionale.
  • Un fornitore di dati che condivide i dati con consumatori esterni.
  • Condivisione di insiemi di dati comuni come clienti e prodotti attraverso diversi gruppi aziendali e collaborazione per un'ampia analisi e data science.
  • Decentralizzazione di un data warehouse per semplificare la gestione.
  • Condivisione di dati tra ambienti di sviluppo, test e produzione.
  • Accesso ai dati Redshift da altri servizi di analisi AWS.

D: Cosa sono le query cross-database in Amazon Redshift?

Con le query cross-database puoi interrogare e unire i dati di qualsiasi database Redshift a cui hai accesso senza soluzione di continuità, indipendentemente dal database a cui sei collegato. Questo può includere database locali sul cluster e anche set di dati condivisi resi disponibili da cluster remoti. Le query cross-database offrono la flessibilità di organizzare i dati come database separati per supportare configurazioni multi-tenant.

D: Cos'è AWS Data Exchange per Amazon Redshift?

AWS Data Exchange per Amazon Redshift ti permette di individuare e sottoscrivere dati di terze parti in AWS Data Exchange su cui puoi eseguire query in un data warehouse Redshift in pochi minuti. Puoi anche facilmente concedere in licenza i tuoi dati in Amazon Redshift attraverso AWS Data Exchange. L'accesso viene concesso automaticamente quando un cliente si abbona ai tuoi dati e viene revocato automaticamente al termine del suo abbonamento, quando vengono generate automaticamente le fatture e i pagamenti vengono automaticamente raccolti ed erogati tramite AWS. Questa caratteristica ti permette di eseguire query, analizzare e sviluppare rapidamente applicazioni con dati di terze parti.

D: Chi sono gli utenti principali di AWS Data Exchange?

AWS Data Exchange facilita lo scambio e l'utilizzo sicuro di dati di terze parti in AWS per i clienti di AWS. Analisti di dati, product manager, portfolio manager, data scientist, quantistici, tecnici di studi clinici e sviluppatori in quasi tutti i settori vorrebbero avere accesso a più dati per orientare l'analisi, addestrare modelli di ML e prendere decisioni basate sui dati. Ma non esiste un unico posto dove trovare i dati da più fornitori e non vi è coerenza nel modo in cui i fornitori offrono i dati, lasciando questi utenti a gestire un mix di supporti fisici spediti, credenziali FTP e chiamate API su misura. Al contrario, molte organizzazioni vorrebbero rendere i loro dati disponibili per la ricerca o per scopi commerciali, ma è troppo difficile e costoso sviluppare e mantenere la tecnologia di distribuzione, assegnazione dei diritti e fatturazione dei dati, il che riduce ulteriormente l'offerta di dati preziosi.

D: In quali regioni AWS è disponibile AWS Data Exchange?

AWS Data Exchange ha un unico catalogo di prodotti disponibile a livello globale offerto dai fornitori. Puoi vedere lo stesso catalogo indipendentemente dalla Regione in cui ti trovi. Le risorse sottostanti il prodotto (set di dati, revisioni e risorse) sono risorse regionali che si gestiscono programmaticamente o attraverso la console AWS Data Exchange in specifiche regioni AWS. Per visionare un elenco delle regioni AWS in cui è disponibile AWS Data Exchange, consulta la tabella della disponibilità per regione AWS.

D: Qual è la differenza tra AWS Data Exchange e il Registry of Open Data on AWS?

Ci sono cinque differenze chiave tra AWS Data Exchange e il Registry of Open Data on AWS:

  • In primo luogo, AWS Data Exchange supporta sia prodotti di dati gratuiti che commerciali, con qualsiasi tariffa commerciale applicabile applicata alla tua fattura AWS. Il Registry of Open Data on AWS ti dà accesso a una lista curata di set di dati liberi e aperti. 
  • In secondo luogo, AWS Data Exchange richiede di accettare esplicitamente il Data Subscription Agreement che delinea i termini stabiliti dal fornitore di dati quando ha pubblicato il suo prodotto. I dati sul Registry of Open Data on AWS non hanno termini di utilizzo. 
  • In terzo luogo, è necessario utilizzare l'API di AWS Data Exchange per copiare i dati da AWS Data Exchange alla posizione Amazon S3 desiderata. I set di dati del Registry of Open Data on AWS sono accessibili tramite API S3. 
  • In quarto luogo, AWS Data Exchange offre ai fornitori di dati l'accesso a report giornalieri, settimanali e mensili che dettagliano l'attività di registrazione. Con il Registry of Open Data on AWS, i fornitori di dati devono analizzare i propri log per tracciare l'utilizzo dei dati. 
  • Infine, per diventare un fornitore di dati su AWS Data Exchange, i clienti qualificati devono registrarsi come fornitore di dati su AWS Marketplace per poter elencare sia prodotti gratuiti che commerciali. Tuttavia, qualsiasi cliente può aggiungere dati gratuiti al Registry of Open Data on AWS attraverso GitHub e può fare domanda per partecipare al programma di AWS Public Dataset affinché AWS sponsorizzi i costi di archiviazione e di larghezza di banda per alcuni set di dati aperti.

D: Cos'è Amazon Redshift Query Editor V2?

Amazon Redshift Query Editor v2 è un'applicazione client SQL basata sul Web che puoi usare per creare ed eseguire query sul tuo data warehouse Redshift. Puoi visualizzare i risultati delle query con grafici e collaborare condividendo le query con i membri del tuo team. Query Editor v2 offre diverse funzionalità, come la possibilità di navigare ed esplorare più database, tabelle esterne, viste, procedure archiviate e funzioni definite dall'utente. Offre procedure guidate per creare schemi, tabelle e funzioni definite dall'utente. Puoi anche caricare i dati in Amazon Redshift da Amazon S3 utilizzando una procedura guidata visiva. Semplifica la gestione e la collaborazione delle query salvate. Puoi anche ottenere informazioni dettagliate più veloci visualizzando i risultati con un solo clic. Con l'ultima versione in anteprima, gli analisti di dati possono condividere le loro query e collaborare attraverso un'interfaccia comune chiamata Query Doc che permette loro di incorporare codice/query SQL, annotazioni, risultati e visualizzazioni.

D: Perché dovrei usare Query Editor V2?

Se sei un analista di dati, un data scientist o un ingegnere dei dati, ora puoi usare Query Editor V2 per navigare, creare schemi e tabelle, caricare dati e creare query SQL, stored procedure e UDF attraverso un'interfaccia basata sul Web. Puoi anche eseguire un'analisi visiva dei dati sul posto senza dover lasciare lo strumento. Puoi anche programmare le tue query con tempi di elaborazione particolarmente lunghi o le query per un semplice scopo di creazione di report come la creazione di report giornalieri.

D: Quali sono le caratteristiche incluse in Query Editor v2?

Query Editor v2 permette di:

  • Creare visivamente schemi, tabelle e caricare dati da Amazon S3.
  • Creare query e ottenere informazioni dettagliate più veloci con un editor intuitivo per la creazione di query SQL.
  • Eseguire l'analisi dei risultati e scaricare i risultati nei formati JSON/CSV sul tuo desktop.
  • Gestire automaticamente diverse versioni di query.
  • Collaborare con altri utenti per condividere query, analisi e risultati.
  • Eseguire le query in background anche se il browser è chiuso.

Scalabilità e concorrenza

D: Come si dimensionano le dimensioni e le prestazioni di un cluster di data warehouse Amazon Redshift?

Per migliorare le prestazioni di query o rispondere a un sovraccarico della CPU, della memoria o degli I/O, puoi aumentare il numero dei nodi del tuo cluster di data warehouse utilizzando la funzionalità di dimensionamento elastico tramite la Console di gestione AWS o l'API ModifyCluster. Le modifiche richieste del cluster di data warehouse vengono introdotte immediatamente. I parametri relativi all'utilizzo di calcolo, all'impiego dell'archiviazione e al traffico di lettura/scrittura dei cluster di data warehouse Redshift sono disponibili gratuitamente tramite la Console di gestione AWS o le API di Amazon CloudWatch. È inoltre possibile aggiungere parametri definiti dall’utente tramite le funzionalità di personalizzazione dei parametri di Amazon CloudWatch.

Con la caratteristica di dimensionamento della concorrenza, è possibile supportare un numero virtualmente illimitato di utenti e query in parallelo con prestazioni rapide e omogenee. Quando il dimensionamento della concorrenza è abilitato, Amazon Redshift aggiunge automaticamente capacità al cluster quando il tuo cluster sperimenta un aumento della coda delle query.

Con Amazon Redshift Spectrum, è possibile eseguire diversi cluster Redshift e accedere agli stessi dati in Amazon S3. Diversi casi d'uso possono richiedere cluster differenti. Ad esempio, è possibile utilizzare un cluster per la creazione di report standard e uno per le query di analisi scientifica dei dati. Il team di marketing, inoltre, potrà utilizzare cluster diversi da quelli utilizzati dal team operativo. Redshift Spectrum distribuirà automaticamente le attività di elaborazione della query tra le risorse condivise di un pool per la lettura e l'elaborazione dei dati da Amazon S3 e inoltrerà i risultati nel cluster Redshift per eventuali ulteriori operazioni di elaborazione.

D: Il mio cluster di data warehouse rimane disponibile durante il dimensionamento?

Dipende. Quando utilizzi la funzionalità di dimensionamento della concorrenza, il cluster è completamente disponibile per le operazioni di lettura e scrittura durante il ridimensionamento delle azioni in parallelo. Con la funzionalità di dimensionamento elastico, il cluster non è disponibile per il lasso di tempo in cui il ridimensionamento ha luogo, dai 4 agli 8 minuti. Grazie all'elasticità dell'archiviazione gestita delle istanze RA3 di Redshift, il cluster è completamente disponibile e i dati vengono spostati automaticamente tra l'archiviazione gestita stessa e i nodi di calcolo.

D: Quando dovrei utilizzare il dimensionamento della concorrenza e quando dovrei utilizzare la condivisione dei dati?

La condivisione dei dati e il dimensionamento della concorrenza sono caratteristiche complementari. Con il dimensionamento della concorrenza, Amazon Redshift consente di scalare automaticamente uno o più carichi di lavoro in un unico cluster per gestire picchi elevati di concorrenza e di query. Amazon Redshift calcola la capacità in modo elastico e automatico in pochi secondi per gestire i picchi dell'attività dell'utente e la riduce quando l'attività diminuisce. Le applicazioni continuano a interagire con Amazon Redshift utilizzando un unico endpoint dell'applicazione. La condivisione dei dati consente di dimensionare su diversi carichi di lavoro con implementazioni multi-cluster e multi-account. Ciò consente l'isolamento del carico di lavoro e la capacità di carico, la collaborazione tra gruppi in ambienti decentralizzati e la capacità di offrire i dati come servizio agli stakeholder interni ed esterni. Puoi abilitare il dimensionamento della concorrenza sia sui cluster di produttori che sui cluster di consumatori di condivisione dei dati.

D: Come si gestiscono le risorse in modo da garantire che il cluster Amazon Redshift possa offrire prestazioni veloci e costanti durante i periodi di concorrenza elevata?

Un tipico data warehouse presenta, nel corso di una giornata, una varianza significativa nell'utilizzo di query in contemporanea. È più conveniente aggiungere risorse solo quando sia necessario, piuttosto che eseguire il provisioning per far fronte al picco della domanda. Amazon Redshift si occupa di questo al posto tuo e in modo automatico.

Il dimensionamento della concorrenza è una funzionalità di Amazon Redshift che offre prestazioni delle query rapide e costanti anche con migliaia di utenti e query in contemporanea. Con questa funzione, Amazon Redshift aggiunge, in modo automatico, la capacità transitoria necessaria per la gestione di una forte domanda. Amazon Redshift indirizza automaticamente le query ai cluster di ridimensionamento che sono assegnati in pochi secondi e che iniziano immediatamente a elaborare le query.

Questa funzione è gratuita per la maggior parte dei clienti. Ciascun cluster Amazon Redshift accumula fino ad un’ora di crediti gratuiti di dimensionamento della concorrenza al giorno. Questo consente di prevedere i costi mensili anche durante i periodi di domanda analitica fluttuante.

D: Cos’è il ridimensionamento elastico e in che cosa si distingue dal dimensionamento della concorrenza?

In pochi minuti, Elastic Resize aggiunge o rimuove i nodi da un singolo cluster Redshift per gestire la velocità effettiva della query. Ad esempio, il completamento di un carico di lavoro ETL di determinate ore nell'arco di un giorno o la creazione di un report di fine mese potrebbe richiedere risorse aggiuntive di Amazon Redshift. Questa funzione procede all'aggiunta di risorse di cluster per aumentare la concorrenza complessiva della query.

D: È possibile accedere in modo diretto ai cluster di dimensionamento della concorrenza?

No. Il dimensionamento della concorrenza è un pool di risorse Amazon Redshift ad elevata scalabilità a cui i clienti non hanno accesso diretto.

Integrazione e caricamento di dati

D: Come faccio a caricare i dati nel mio data warehouse Amazon Redshift?

Puoi caricare i dati in Amazon Redshift da una serie di fonti di dati fra cui Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline qualunque host compatibile con SSH su Amazon EC2 o in locale. Amazon Redshift tenta di caricare i tuoi dati in parallelo in ciascun nodo di calcolo, per aumentare al massimo la velocità alla quale puoi inglobare i dati nel tuo cluster di data warehouse. I client possono collegarsi ad Amazon Redshift utilizzando ODBC o JDBC e inviare comandi 'insert' di SQL per inserire i dati. Tale metodo, tuttavia, è più lento rispetto all’uso di S3 o DynamoDB, in quanto questi ultimi caricano i dati in parallelo su ciascun nodo di calcolo, mentre le istruzioni Insert di SQL li caricano attraverso l’unico nodo leader. Per maggiori dettagli sul caricamento dei dati in Amazon Redshift, consulta la nostra Guida alle operazioni di base.

D: Come carico in Amazon Redshift i dati provenienti dalle mie fonti di dati Amazon RDS, Amazon EMR, Amazon DynamoDB e Amazon EC2 esistenti?

Puoi usare il comando COPY per caricare direttamente in Amazon Redshift, in parallelo, dati provenienti da Amazon EMR, Amazon DynamoDB o da qualsiasi host compatibile con SSH. Amazon Redshift Spectrum consente inoltre di caricare i dati da Amazon S3 nel cluster con un semplice comando INSERT INTO. Con questo comando è possibile caricare sul cluster dati da formati differenti, ad esempio Parquet e ORC. Questo approccio, tuttavia, peserà sui costi di Redshift Spectrum a causa della scansione dei dati da Amazon S3. 

AWS Data Pipeline fornisce una soluzione ad alte prestazioni, affidabile e con tolleranza ai guasti per caricare i dati da una serie di fonti AWS come Amazon RDS o Redshift. Puoi utilizzare AWS Data Pipeline per specificare la fonte e le trasformazioni desiderate dei dati, quindi caricare i dati in Amazon Redshift eseguendo uno script di importazione scritto preventivamente. Inoltre, AWS Glue è un servizio di estrazione, trasferimento e caricamento (ETL) che semplifica la preparazione e il caricamento dei dati in strumenti di analisi. Per avviare un processo ETL con AWS Glue sono sufficienti pochi clic nella Console di gestione AWS. Inoltre, molte aziende ETL hanno inoltre certificato Amazon Redshift per l'uso con i loro strumenti, e un certo numero offre prove gratuite come aiuto per iniziare a caricare i dati. Alcune di queste caratteristiche hanno anche implementato un'integrazione più profonda con la console Redshift per una più facile individuazione e monitoraggio delle pipeline di dati in Amazon Redshift da una grande varietà di fonti di terze parti.

D: Devo eseguire il caricamento iniziale di molti dati in Amazon Redshift. Il trasferimento tramite Internet richiederebbe molto tempo. Come posso fare?

Puoi trasferire i dati ad Amazon S3 utilizzando AWS Snowball e opportuni dispositivi di storage portatili. Puoi inoltre utilizzare AWS Direct Connect per creare un collegamento di rete privato fra la tua rete o il data center e AWS. Per il trasferimento dei dati, puoi scegliere la porta di collegamento a 1 Gbit/sec o a 10 Gbit/sec.

Sicurezza

D: In che modo Amazon Redshift protegge i miei dati?

Amazon Redshift supporta misure di sicurezza leader del settore come l’integrazione di AWS IAM, la federazione delle identità per il single sign-on (SSO), l’autenticazione a più fattori, il controllo degli accessi a livello di colonna, la sicurezza a livello di riga, il cloud privato virtuale Amazon (Amazon VPC) e l’integrazione di AWS KMS incorporata per proteggere i tuoi dati quando sono inattivi e in transito. Amazon Redshift crittografa e protegge i tuoi dati in transito e inattivi utilizzando tecniche di crittografia standard del settore. Per mantenere protetti i dati in transito, Amazon Redshift supporta i collegamenti compatibili con SSL fra le applicazioni client e il cluster di data warehouse Redshift. Per mantenere protetti i dati inattivi, Amazon Redshift crittografa ciascun blocco utilizzando un protocollo AES-256 con accelerazione hardware durante la scrittura su disco. Tale processo avviene a un livello basso nel sottosistema di I/O, che crittografa tutto ciò che viene scritto su disco, compresi i risultati intermedi delle query. Il backup dei blocchi avviene nella condizione in cui si trovano, vale a dire crittografati. Per impostazione predefinita, Amazon Redshift provvede alla gestione delle chiavi, ma puoi decidere di gestire le tue chiavi utilizzando AWS Key Management Service. Tutte le funzionalità di sicurezza di Amazon Redshift sono incluse, senza costi aggiuntivi. Redshift Spectrum supporta l'opzione di crittografia lato server (SSE, Server Side Encryption) di Amazon S3, tramite la chiave gestita predefinita dell'account utilizzata da AWS Key Management Service (KMS).

D: Redshift supporta controlli granulari degli accessi come la sicurezza a livello di colonna?

Sì, Amazon Redshift offre il supporto per il controllo degli accessi in base al ruolo. Il controllo degli accessi a livello di riga ti consentono di assegnare uno o più ruoli a un utente, oltre ad assegnare i privilegi di sistema e di oggetto in base al ruolo. Puoi utilizzare i ruoli di sistema pronti all'uso come utente root, DBA, operatore e amministratore di sicurezza oppure creare i tuoi.

D: Amazon Redshift supporta il mascheramento dei dati o la tokenizzazione dei dati?

Le funzioni definite dall'utente (UDF) di AWS consentono di utilizzare una funzione AWS Lambda come funzione definita dall'utente in Amazon Redshift e di invocarla dalle query SQL Redshift. Questa funzionalità consente di scrivere estensioni personalizzate per la query SQL per ottenere una più stretta integrazione con altri servizi o prodotti di terze parti. Puoi scrivere funzioni definite dall'utente Lambda per abilitare la tokenizzazione esterna, il mascheramento dei dati, l'identificazione o la de-identificazione dei dati mediante l'integrazione con fornitori come Protegrity, e proteggere o non proteggere i dati sensibili sulla base dei permessi e dei gruppi di un utente, in fase di query.

D: Amazon Redshift supporta il single sign-on?

Sì. I clienti che desiderano utilizzare i loro provider di identità aziendale come Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate o altri provider di identità conformi a SAML possono configurare Amazon Redshift per fornire il single sign-on.

D: Qual è il supporto offerto da Amazon Redshift per il single sign-on con Microsoft Azure Active Directory?

Puoi registrarti nel cluster Amazon Redshift con le identità di Microsoft Azure Active Directory(AD). Ciò consente di poterti registrare su Redshift senza duplicarvi le identità Azure Active Directory.

D: Amazon Redshift supporta l’autenticazione a più fattori (multi-factor authentication, MFA)?

Sì. In fase di autenticazione al cluster Amazon Redshift, ora puoi utilizzare la multi-factor authentication (MFA) per una sicurezza aggiuntiva.

D: È possibile usare Amazon Redshift in Amazon Virtual Private Cloud (Amazon VPC)?

Sì. Puoi utilizzare Amazon Redshift nell'ambito della tua configurazione VPC. Con Amazon VPC è possibile definire una topologia di rete virtuale molto simile a una rete tradizionale come quella che potrebbe essere gestita nel tuo data center. Questa soluzione ti offre un controllo completo sugli utenti che possono accedere al tuo cluster di data warehouse Redshift. Redshift Spectrum può essere utilizzato con un cluster Redshift all'interno di un Amazon VPC.

Amazon Redshift supporta endpoint VPC gestiti (con tecnologia AWS PrivateLink) per connettersi al tuo cluster Redshift in un VPC. Con un endpoint gestito da Amazon Redshift, puoi accedere privatamente al tuo data warehouse Redshift all'interno del tuo VPC dalle tue applicazioni client in un altro VPC all'interno dello stesso o di un altro account AWS e in esecuzione on-premise senza utilizzare IP pubblici o richiedere che il traffico passi attraverso Internet.

D: Posso accedere direttamente ai miei nodi di calcolo Amazon Redshift?

No. I nodi di calcolo Amazon Redshift si trovano in uno spazio di rete privato e sono accessibili soltanto dal nodo leader del cluster di data warehouse. Ciò garantisce un livello di sicurezza aggiuntivo per i dati.

D: Redshift supporta il controllo degli accessi in base al ruolo nel database? (Pre-annuncio)

Amazon Redshift offrirà presto supporto per il controllo degli accessi in base al ruolo.

Disponibilità e durabilità

D: Che cosa succede alla disponibilità del mio cluster di data warehouse e alla durata dei miei dati in caso di guasto di un'unità di uno dei miei nodi?

In questi casi Amazon Redshift rileverà un guasto al disco o al nodo e sostituirà automaticamente il nodo del cluster. Sui cluster Dense Compute (DC) e Dense Storage (DS2), i dati sono archiviati sui nodi di calcolo per garantire un'elevata durabilità dei dati. Quando un nodo viene sostituito, i dati vengono aggiornati dalla copia mirror sull'altro nodo.

I cluster RA3 e Redshift serverless non sono interessati allo stesso modo, poiché i dati sono archiviati in Amazon S3 e l'unità locale viene utilizzata solo come cache dei dati. In caso di sostituzione di un nodo, i dati vengono recuperati da Amazon S3. Amazon S3 offre una garanzia di durata dei dati del 99,9999%. In caso di guasto di più nodi o di un cluster completo, una copia aggiornata dei dati è disponibile in S3 e il cluster può essere recuperato nella stessa AZ o in un'altra AZ senza alcuna perdita di dati.

Il cluster di data warehouse non è disponibile per query e aggiornamenti fino a quando non è terminato il provisioning del nodo sostitutivo e il medesimo non è stato aggiunto al database. Amazon Redshift rende immediatamente disponibile il nodo sostitutivo e carica i dati ad accesso più frequente da Amazon S3 su RA3 e serverless, e dal mirror su DS2 e Amazon Dense Compute (DC2). I cluster a nodo singolo DC2 e DS2 non supportano la replica dei dati. In caso di guasto di un'unità, occorre ripristinare il cluster partendo da uno snapshot su S3. I cluster RA3.XLPLUS a nodo singolo possono essere ricreati senza alcuna perdita di dati utilizzando i dati archiviati in S3 con l'assistenza di AWS Support. Per la produzione si consiglia di utilizzare almeno due nodi per ottimizzare la disponibilità.

D: Che cosa succede alla disponibilità del mio cluster di data warehouse e alla durata dei miei dati in caso di guasto di un singolo nodo?

Amazon Redshift rileva automaticamente la presenza di un nodo guasto nel tuo cluster di data warehouse e lo sostituisce. Il cluster di data warehouse non è disponibile per query e aggiornamenti fino a quando non è terminato il provisioning del nodo sostitutivo e il medesimo non è stato aggiunto al DB. Amazon Redshift mette immediatamente a disposizione il nodo sostitutivo e carica per primi da S3 i dati con la massima frequenza di accesso, in modo da consentirti di riprendere le attività di query nel più breve tempo possibile. I cluster a nodo singolo non supportano la replica dei dati. In caso di guasto di un’unità, occorre ripristinare il cluster partendo da uno snapshot su S3. Per la produzione si consiglia di utilizzare almeno due nodi.

D: Che cosa succede alla disponibilità del mio cluster di data warehouse e alla durata dei miei dati nel caso di un'interruzione di corrente nella zona di disponibilità (AZ) del cluster stesso?

Se la zona di disponibilità del tuo cluster di data warehouse Amazon Redshift diventa non disponibile, Amazon Redshift sposterà automaticamente il tuo cluster in un'altra zona di disponibilità (AZ) AWS senza alcuna perdita di dati o modifiche dell'applicazione. Per attivare questa funzione, è necessario abilitare la funzionalità di riposizionamento nelle impostazioni di configurazione del cluster.

D: Amazon Redshift supporta le implementazioni Multi-AZ?

Al momento Amazon Redshift supporta soltanto le implementazioni in una singola regione. Per impostare una configurazione di ripristino di emergenza (DR), è possibile abilitare la copia di snapshot tra regioni sul tuo cluster. Questo replicherà tutte le istantanee dal tuo cluster in un'altra regione AWS. In caso di un evento DR, gli snapshot nella regione di replica possono essere ripristinati per creare un nuovo cluster. Amazon Redshift supporta anche la condivisione dei dati tra più regioni, dove un cluster del consumatore può accedere ai dati dal vivo in un cluster del produttore in un'altra regione. Ciò è supportato solo con Amazon Redshift Serverless e RA3.

Query e analisi dei dati

D: Amazon Redshift è compatibile con il mio pacchetto software preferito di strumenti di Business Intelligence ed ETL?

Sì, Amazon Redshift utilizza SQL standard del settore ed è accessibile utilizzando i normali driver JDBC e ODBC. Puoi scaricare i driver JDBC e ODBC personalizzati per Amazon Redshift dalla scheda Connect Client della nostra Console Redshift. Abbiamo convalidato l’integrazione con vari fornitori di BI ed ETL di uso comune, un certo numero dei quali offre prove gratuite per aiutarti a iniziare a caricare e utilizzare i tuoi dati. Puoi inoltre accedere ad AWS Marketplace per implementare e configurare in pochi minuti soluzioni studiate per lavorare con Amazon Redshift.

Amazon Redshift Spectrum tutti gli strumenti client di Amazon Redshift. Tali strumenti si collegheranno all'endpoint cluster Amazon Redshift tramite connessioni ODBC o JDBC. Non è necessario apportare alcuna modifica.

La sintassi delle query da applicare a tabelle in Redshift Spectrum è la stessa utilizzata per le tabelle nello storage locale del cluster Redshift; lo stesso vale per le funzionalità di query. Il riferimento alle tabelle esterne è contenuto nel nome di schema definito nel comando CREATE EXTERNAL SCHEMA con cui sono state registrate.

D: Quali formati di dati e di compressione supporta Amazon Redshift Spectrum?

Amazon Redshift Spectrum al momento supporta diversi formati di dati open source, tra cui Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text e TSV.

Al momento, Amazon Redshift Spectrum supporta compressione Gzip e Snappy.

D: Cosa accade se una tabella nell'archiviazione locale ha lo stesso nome di una tabella esterna?

Analogamente a quanto accade nelle tabelle locali, è possibile utilizzare il nome dello schema per indicare esattamente la tabella in questione utilizzando schema_name.table_name nella query.

D: Per memorizzare i metadati di un data lake S3 viene utilizzato Hive Metastore. È possibile utilizzare Redshift Spectrum?

Sì. Il comando CREATE EXTERNAL SCHEMA supporta Hive Metastore. Al momento non sono supportati DDL su Hive Metastore.

D: In che modo è possibile ottenere un elenco di tutte le tabelle di database esterne create nel cluster?

Per ottenere questa informazione, inoltra una query alla tabella di sistema SVV_EXTERNAL_TABLES.

D: Redshift supporta la possibilità di utilizzare il machine learning con SQL?

Sì, la caratteristica di ML di Amazon Redshift rende facile per gli utenti SQL creare, addestrare e implementare modelli di machine learning (ML) utilizzando i comandi SQL noti. Amazon Redshift ML consente di sfruttare i tuoi dati in Amazon Redshift con Amazon SageMaker, un servizio di ML completamente gestito. Amazon Redshift supporta sia l'apprendimento non supervisionato (K-Means) che l'apprendimento supervisionato (algoritmi Autopilot, XGBoost, MLP). È anche possibile utilizzare i servizi IA di AWS Language per tradurre, redigere e analizzare campi di testo nelle query SQL con funzioni Lambda UDF integrati: consulta l'articolo di blog.

D: Amazon Redshift offre un'API per eseguire query sui dati?

Amazon Redshift offre un'API di dati che puoi usare per accedere senza problemi ai dati da Amazon Redshift con tutti i tipi di applicazioni tradizionali, native per il cloud e containerizzate basate su servizi web serverless e le applicazioni basate sugli eventi. L'API di dati semplifica l'accesso ad Amazon Redshift perché elimina la necessità di configurare i driver e di gestire le connessioni al database. Invece, è possibile eseguire comandi SQL su un cluster Amazon Redshift in modo semplice richiamando un endpoint API sicuro fornito dall'API di dati. L'API di dati si occupa della gestione delle connessioni al database e del caricamento dei dati. L'API di dati è asincrona, così puoi recuperare i risultati in un secondo momento. I risultati delle query vengono archiviati per 24 ore.

D: Quali tipi di credenziali posso utilizzare con l'API di dati di Amazon Redshift?

L'API di dati supporta sia le credenziali IAM che l'utilizzo di una chiave segreta di AWS Secrets Manager. Le API di dati creano federazioni di credenziali di AWS Identity and Access Management (IAM) così puoi utilizzare fornitori di identità come Okta o Azure Active Directory o le credenziali del database archiviate in Secrets Manager senza passare le credenziali del database nelle chiamate API.

D: Posso usare l'API di dati di Amazon Redshift Data dell'interfaccia a riga di comando (CLI) di AWS?

Sì, puoi usare l'API di dati di Amazon Redshift Data dell'interfaccia a riga di comando (CLI) di AWS usando la nuova opzione della riga di comando aws redshift-data.

D: L'API di dati di Redshift è integrata con altri servizi AWS?

Puoi utilizzare l'API di dati di altri servizi come AWS Lambda, AWS Cloud9, AWS AppSync e Amazon EventBridge.

D: Devo pagare a parte per l'utilizzo dell'API di dati di Amazon Redshift?

No, non vengono addebitati costi separati per l'utilizzo dell'API di dati.

Backup e ripristino

D: In che modo Amazon Redshift effettua il backup dei miei dati? Come si ripristina il cluster da un backup?

I cluster Amazon Redshift RA3 e Amazon Redshift Serverless utilizzano l'archiviazione gestita di Redshift, che dispone sempre dell'ultima copia dei dati disponibile. I cluster DS2 e DC2 eseguono il mirroring dei dati sul cluster per garantire che l'ultima copia sia disponibile in caso di guasto. I backup vengono creati automaticamente su tutti i tipi di cluster Redshift e conservati per 24 ore e su serverless vengono forniti punti di ripristino per le ultime 24 ore.

Puoi anche creare backup che possono essere conservati a tempo indeterminato. Questi backup possono essere creati in qualsiasi momento e i backup automatici di Amazon Redshift o i punti di recupero di Amazon Redshift Serverless possono essere convertiti in un backup utente per una conservazione più lunga.

Amazon Redshift è anche in grado di replicare gli snapshot o punti di ripristino in modo asincrono su Amazon S3 in una regione differente, a scopo di ripristino di emergenza.

Su un cluster DS2 o DC2, l'archiviazione di backup gratuito è limitata alle dimensioni complessive di archiviazione sui nodi del cluster di data warehouse e si applica soltanto ai cluster di data warehouse attivi.

Per un data warehouse con un'archiviazione totale di 8 TB, forniamo ad esempio fino a 8 TB di archiviazione di backup senza costi aggiuntivi. Per estendere il tempo di conservazione dei backup oltre un giorno è possibile utilizzare la Console di gestione AWS o le API Amazon Redshift. Per ulteriori informazioni sugli snapshot automatici, consulta la Guida alla gestione di Amazon Redshift.

Amazon Redshift esegue il backup soltanto dei dati che sono cambiati, quindi la maggior parte degli snapshot occupa soltanto uno spazio modesto nell'archiviazione di backup gratuita. Quando è necessario ripristinare un backup, è possibile accedere a tutti i backup automatici all'interno della finestra di conservazione del backup. Quando avrai scelto il backup dal quale effettuare il ripristino, provvederemo a effettuare il provisioning di un nuovo cluster di data warehouse e a ripristinare i tuoi dati al suo interno.

D: Come si gestisce la retention dei backup e degli snapshot automatici?

È possibile utilizzare la Console di gestione AWS o l’API ModifyCluster per gestire il periodo di retention dei backup automatici, modificando il parametro RetentionPeriod. Se desideri disattivare i backup automatici, è sufficiente impostare il periodo di retention su 0 (opzione non consigliata).

D: Cosa succede ai miei backup se elimino il mio cluster di data warehouse?

Quando elimini un cluster di data warehouse, puoi specificare se creare uno snapshot finale al momento dell’eliminazione. Tale snapshot permette di ripristinare in un momento successivo il cluster di data warehouse eliminato. Tutti gli snapshot del tuo cluster di data warehouse creati manualmente in precedenza vengono conservati e fatturati alle tariffe standard Amazon S3, a meno che tu non decida di eliminarli.

Monitoraggio e manutenzione

D: Come si monitorano le prestazioni di un cluster di data warehouse Amazon Redshift?

I parametri relativi all'utilizzo di calcolo, all'impiego dello storage e al traffico di lettura/scrittura dei cluster di data warehouse Amazon Redshift sono disponibili gratuitamente tramite la Console di gestione AWS o le API di Amazon CloudWatch. È inoltre possibile aggiungere ulteriori parametri definiti dall'utente tramite le funzionalità di personalizzazione dei parametri di Amazon CloudWatch. La Console di gestione AWS fornisce un dashboard di monitoraggio che permette di monitorare lo stato e le prestazioni di tutti i cluster in uso. Amazon Redshift fornisce informazioni sulle prestazioni di query e cluster anche tramite la Console di gestione AWS. Tali informazioni consentono di vedere quali utenti e query assorbono la massima frazione di risorse del sistema per diagnosticare i problemi di prestazioni visualizzando le pianificazioni delle query e le statistiche di esecuzione. È inoltre possibile osservare l'uso delle risorse di ciascun nodo di calcolo per garantire un buon equilibrio di dati e query su tutti i nodi.

D: Che cos'è una finestra di manutenzione? I cluster di data warehouse sono disponibili durante la manutenzione del software?

Amazon Redshift effettua periodicamente la manutenzione per applicare correzioni, miglioramenti e nuove funzionalità al tuo cluster. Puoi cambiare le finestre di manutenzione programmata modificando il cluster, in modo programmatico o utilizzando la Console Redshift. Durante queste finestre di manutenzione, il tuo cluster Amazon Redshift non è disponibile per le normali operazioni. Per ulteriori informazioni sulle finestre di manutenzione e i programmi per regione, consulta la sezione Finestre di manutenzione nella Guida alla gestione di Amazon Redshift.

Ulteriori informazioni sui prezzi di Amazon Redshift

Visita la pagina dei prezzi
Ti senti pronto?
Nozioni di base su Amazon Redshift
Hai altre domande?
Contattaci