Реляционные базы данных оптимизированы для хранения строк данных и применяются, как правило, для транзакционных приложений. Столбчатые базы данных оптимизированы для быстрого извлечения столбцов данных и применяются, как правило, в аналитических приложениях. Использование столбчатых таблиц баз данных для хранения оказывает большое влияние на производительность аналитических запросов, поскольку значительно снижает общие требования к операциям дискового ввода-вывода и сокращает объем данных, которые требуется загружать с диска.

Как и другие базы данных NoSQL, столбчатые базы данных предназначены для горизонтального масштабирования с использованием распределенных кластеров недорогого оборудования для увеличения пропускной способности, что делает их идеальным решением для хранения данных и обработки больших данных.

Начните работать с AWS бесплатно

Создать бесплатный аккаунт

Уровень бесплатного пользования AWS – это 25 ГБ хранилища и до 200 миллионов запросов в месяц для Amazon DynamoDB.

Сведения об уровне бесплатного пользования AWS »

Amazon Web Services (AWS) предлагает разработчикам различные варианты столбчатых баз данных. Вы можете управлять собственным столбчатым хранилищем данных в облаке на базе сервисов Amazon EC2 и Amazon EBS, работать с поставщиками решений Amazon или пользоваться преимуществами полностью управляемых сервисов столбчатых баз данных.

Amazon Redshift – это полностью управляемое, масштабируемое до петабайтов столбчатое хранилище данных, которое упрощает анализ данных с помощью имеющихся инструментов бизнес-аналитики и снижает стоимость такого решения. Amazon Redshift обеспечивает эффективное хранение и оптимальную производительность запросов благодаря сочетанию массивно-параллельной обработки, столбчатого хранилища данных и очень эффективных специальных схем кодирования, применяемых для сжатия данных. Подробнее об Amazon Redshift »


Разработчики могут устанавливать нужные столбчатые базы данных в Amazon EC2 и Amazon EMR. Это помогает избежать проблем при выделении инфраструктуры и получить доступ к разнообразным ядрам стандартных столбчатых баз данных.

Cassandra – это столбчатая база данных с открытым исходным кодом, созданная для работы с большим количеством данных, хранящихся на множестве стандартных серверов. В отличие от таблицы реляционной базы данных, в таблице столбчатой базы данных в разных строках одной и той же таблицы (семейства столбцов) не обязательно должен использоваться один и тот же набор столбцов.

См. конфигурацию развертывания Cassandra в нескольких регионах в публикации в блоге A look inside Vidora’s globally distributed, low-latency A.I.

Подумайте об использовании EBS при запуске рабочих нагрузок Cassandra (узнайте, как компания CrowdStrike запускает компактные и более дешевые кластеры Cassandra с помощью EBS). Подробнее о работе с Cassandra и запуске Cassandra на AWS можно узнать в техническом описании «Apache Cassandra on AWS» или посетив AWS Marketplace » 

Cassandra Topology in AWS
59:36
Best Practices for Running Apache Cassandra on AWS

Apache HBase – это распределенная столбчатая база данных NoSQL с открытым исходным кодом. HBase работает на платформе Apache Hadoop. HBase обеспечивает эффективное отказоустойчивое хранение большого количества разреженных данных за счет сжатия и хранения по столбцам.

Развертывание HBase можно выполнить в Amazon Elastic Cloud Compute (Amazon EC2) и управлять им самостоятельно. Кроме того, можно использовать Apache HBase в качестве управляемого сервиса в Amazon Elastic MapReduce (Amazon EMR).  Подробнее читайте в Руководстве для разработчиков по EMR и в этой публикации в блоге AWS Big Data »