关系数据库针对存储数据行进行了优化,通常用于事务性应用程序,而列式数据库针对快速检索数据列进行了优化,通常用于分析应用程序。适用于数据库表的列式存储是分析查询性能的一个重要组成部分,因为它极大地降低了整体磁盘 I/O 要求,并减少了您需要从磁盘载入的数据量。

与其他 NoSQL 数据库一样,列式数据库旨在利用低成本硬件的分布式群集进行横向扩展,进而提高吞吐量,从而使其适用于数据仓库大数据处理。

开始免费使用 AWS

创建免费账户

AWS 免费套餐提供 25GB 的存储量,每月通过 Amazon DynamoDB 最多提供 2 亿次请求。

查看 AWS 免费套餐详细信息 »

Amazon Web Services (AWS) 向开发人员提供了大量列式数据库选项。您可以在 Amazon EC2Amazon EBS 的云中运行自己的非关系列式数据存储、与 AWS 解决方案提供商展开合作,或是利用完全托管的列式数据库服务。

Amazon Redshift 是一种列式、完全托管的 PB 级数据仓库服务,它使得用现有商业智能工具对您的所有数据进行分析变得简单而实惠。Amazon Redshift 通过大规模并行处理、列式数据存储和非常高效且具有针对性的数据压缩编码方案的组合,实现高效存储和最优查询性能。了解有关 Amazon Redshift 的更多信息 »


开发人员可以自己选择在 Amazon EC2Amazon EMR 上安装列式数据库,这意味着开发人员在能够访问各种标准列式数据库引擎的同时,还能避免基础设施配置冲突。

Cassandra 是一种开源列式数据库,专门处理多个商用服务器之间的大量数据。与关系数据库中的表不同的是,同一表中的不同行 (列系列) 不必共享相同的列集合。

请参阅 a look inside Vidora’s globally distributed, low-latency A.I. 中的“Multi-region Cassandra configuration”

运行 Cassandra 工作负载时应考虑 EBS(了解 CrowdStrike 如何利用 EBS 运行高密度、低成本的集群)。有关在 AWS 上使用 Cassandra 和运行 Cassandra 的更多信息,请参阅 AWS 白皮书中的 Apache Cassandra,并访问 AWS Marketplace » 

Cassandra Topology in AWS
59:36
在 AWS 上运行 Apache Cassandra 的最佳实践

Apache HBase 是一种开源、列式、分布式 NoSQL 数据库。HBase 在 Apache Hadoop 框架中运行。HBase 为您提供了一种用列式压缩和存储方式来存储大量稀疏数据的高效容错方法。

您可以在 Amazon Elastic Cloud Compute (Amazon EC2) 上部署 HBase 并可以自行管理或在 Amazon Elastic MapReduce (Amazon EMR) 上将 Apache HBase 用作托管服务。有关更多信息,请阅读 EMR 开发人员指南AWS 大数据博客上发布的此文章 »