列指向データベースは、データ行ではなく、データ列の読み書きに最適化されています。データベーステーブルの列指向ストレージは、総ディスク I/O の要件が大幅に緩和され、ディスクからロードする必要のあるデータ量が減少することから、分析クエリのパフォーマンスにおいて重要な要因になります。

列指向データベースは、他の NoSQL データベースと同様に、低コストなハードウェアの分散クラスターを使用してスケール "アウト" することでスループットを向上させることができ、データウェアハウスビッグデータ処理に最適です。

AWS を無料でお試しください

まずは無料で始める

AWS 無料利用枠は、Amazon DynamoDB を使用した 25 GB のストレージ、毎月最大 2 億リクエストを提供しています。

AWS 無料利用枠の詳細はこちら »

開発者は、アマゾン ウェブ サービス (AWS) で列指向データベースのさまざまなオプションを利用できます。Amazon EC2Amazon EBS を使用してクラウド内で自社の非リレーショナルな列指向データストアを運用すること、AWS ソリューションプロバイダーと連携すること、完全マネージド型の列指向データベースサービスを活用することができます。

Amazon Redshift はペタバイト規模で完全マネージド型の列指向データウェアハウスです。既存のビジネスインテリジェンスツールを使用して、すべてのデータをシンプルかつコスト効果の高い方法で分析できます。Amazon Redshift では、超並列処理、列指向データストレージ、および非常に効率的で対象を限定したデータ圧縮エンコードスキームの組み合わせによって、効率的なストレージと最適なクエリパフォーマンスを実現できます。Amazon Redshift の詳細 »


開発者は、任意の列指向データベースを Amazon EC2Amazon EMR にインストールできます。これにより、開発者は、インフラストラクチャをプロビジョニングする手間を省くことができると同時に、各種の標準的な列指向データベースエンジンを利用できるようになります。

Cassandra はオープンソースの列指向データベースで、多くのコモディティサーバーにわたる大規模なデータを処理できます。リレーショナルデータベースのテーブルとは異なり、同じテーブルの異なる行 (列ファミリー) が同じ列セットを共有する必要はありません。

Cassandra の複数リージョンでの構成については、A look inside Vidora's globally distributed, low-latency A.I. を参照してください。

Cassandra ワークロードの実行時には、EBS を検討してください (CrowdStrike が EBS を使って高密度の Cassandra クラスターを安価に運用した方法の詳細)。Cassandra および AWS で Cassandra を運用する方法の詳細については、Apache Cassandra on AWS ホワイトペーパーを参照し、AWS Marketplace にアクセスしてください。 

Cassandra Topology in AWS
59:36
Best Practices for Running Apache Cassandra on AWS

Apache HBase は、オープンソースで列指向の分散型 NoSQL データベースです。HBase は Apache Hadoop フレームワークで実行されます。HBase では、列ベースの圧縮と保存を使用することにより、耐障害性に優れた効率的な方法で大量の疎データを保存できます。

Amazon Elastic Cloud Compute (Amazon EC2) に HBase をデプロイして自分で管理することも、Amazon Elastic MapReduce (Amazon EMR) で Apache HBase をマネージド型サービスとして活用することもできます。詳細については、EMR 開発者ガイドAWS ビッグデータブログのこの投稿を参照してください。