Un database a colonne è ottimizzato per la lettura e la scrittura di colonne di dati (invece che di righe di dati). Lo storage a colonne per tabelle di database è un fattore molto importante quando si tratta di prestazioni di query analitiche, perché è in grado di ridurre drasticamente i requisiti generali di I/O di un disco, nonché di diminuire la quantità di dati da caricare da disco.

Analogamente ad altri database NoSQL, i database a colonne sono stati creati per offrire scalabilità orizzontale utilizzando cluster distribuiti di hardware a basso costo per potenziare il throughput, rendendoli ideali per data warehousing ed elaborazione di Big Data.

Inizia a usare AWS gratis

Crea un account gratuito

Il piano gratuito di AWS offre 25 GB di storage, fino a 200 milioni di richieste al mese con Amazon DynamoDB.

Visualizza i dettagli del piano gratuito di AWS »

Amazon Web Services (AWS) offre agli sviluppatori diverse opzioni di database a colonne. È possibile gestire un datastore non relazionale a colonne all'interno del cloud in Amazon EC2 e Amazon EBS, collaborare con i provider di soluzioni AWS oppure avvalersi dei servizi di database a colonne interamente gestiti.

Amazon Redshift è una soluzione di data warehousing a colonne, completamente gestita e scalabile a livello di petabyte, in grado analizzare i dati in modo semplice e a basso costo senza rivoluzionare gli strumenti di business intelligence già in uso. Amazon Redshift garantisce massima efficienza di storage e prestazioni ottimizzate per le query grazie a una combinazione di elaborazione parallela di massa, storage di dati a colonne e schemi mirati ed estremamente efficienti per la codifica della compressione dei dati. Ulteriori informazioni su Amazon Redshift »


Gli sviluppatori potranno decidere di installare database a colonne in Amazon EC2 e Amazon EMR, pertanto non dovranno sottoporsi al provisioning di un'infrastruttura per poter sfruttare la gamma di motori di database a colonne standard.

Cassandra è un database open source a colonne progettato per gestire grandi quantità di dati su più server di largo consumo. A differenza di quanto accade nelle tabelle di un database relazionale, righe diverse nella stessa tabella (ovvero famiglia di colonne) non devono necessariamente condividere lo stesso set di colonne.

Per visionare una configurazione multi-regione di Cassandra, consulta il post del blog riguardante l'intelligenza artificiale distribuita in tutto il mondo e a bassa latenza di Vidora.

Con carichi di lavoro di Cassandra consigliamo l'utilizzo di EBS (scopri come CrowdStrike esegue cluster Cassandra densi a costo ridotto con EBS). Per ulteriori informazioni su Cassandra e su come usarlo in AWS, leggi il whitepaper Apache Cassandra on AWS whitepaper e visita AWS Marketplace » 

Cassandra Topology in AWS
59:36
Best practice per l'esecuzione di Apache Cassandra in AWS

Apache HBase è un database NoSQL open source distribuito e a colonne. Viene eseguito nel framework Apache Hadoop. HBase fornisce un modo efficiente e con tolleranza ai guasti di memorizzare grandi quantità di dati a bassa densità utilizzando storage e compressione a colonne.

È possibile distribuire HBase in Amazon Elastic Compute Cloud (Amazon EC2) e procedere alla gestione manuale, oppure sfruttare Apache HBase come servizio gestito in Amazon Elastic MapReduce (Amazon EMR).  Per ulteriori informazioni, consulta il documento EMR Developer Guide e questo post sul blog di AWS sui Big Data »