什么是数据集市？- 数据集市简介

什么是数据集市？

数据集市是一种数据存储系统，其中包含特定于组织业务部门的信息。它包含公司存储在更大存储系统中的一小部分选定数据。公司使用数据集市更高效地分析特定于部门的信息。它可提供汇总数据，关键利益相关者可以使用这些数据快速制定明智决策。

例如，某公司可能会在其数据仓库或数据湖中存储来自各种来源的数据，如供应商信息、订单、传感器数据、员工信息和财务记录。但该公司将与营销部门相关的信息（如社交媒体评论和客户记录）存储在数据集市中。

数据集市与其他类型的数据存储系统相比如何？

很多公司使用几种不同类型的数据存储系统进行数据管理和分析。让我们来看一些常见的数据存储类型，以了解公司使用数据集市的环境。

数据库

数据库是计算机系统用来存储、搜索、检索和分析信息的有组织的存储。数据库有多种类型，如关系数据库。关系数据库将信息存储在由行和列组成的表中。不同表中的数据通过称为键的唯一标识符进行连接。键是特定列中的非重复值。

数据集市与数据库的对比

数据集市充当部门数据的前置元素。您可以使用数据集市来检索和分析信息。而数据库则可收集、管理和存储信息。然后，您可以使用工具对存储的信息进行处理、格式化并将其传输到数据集市。

数据仓库

数据仓库是一个庞大的数据库系统，用于存储整个企业的信息。它从各种来源（如商业软件和社交媒体源）收集原始信息，并将其处理为以表格格式存储的结构化数据。企业可以将企业数据仓库连接到商业智能工具，以制定更明智的决策。

数据集市与数据仓库的对比

数据集市与数据仓库具有很多共同特质。它们的不同之处在于，数据仓库包含有关各种主题的企业范围的数据。而数据集市则存储与特定主题密切相关的信息。例如，数据仓库可能存储营销、人力资源、采购和客户支持部门的信息。而数据集市可能只存储与单一部门相关的事务数据。建立数据集市的吸引力在于，管理数据集市的部门可以完全控制其数据的加载和管理。

很多组织目前使用诸如数据共享之类的技术将其数据集市发布到中央数据仓库。通过这样做，他们可以通过分配所有权和隔离工作负载来提高敏捷性。同样，数据共享允许部门数据集市使用从数据仓库或其他数据集市共享的数据。

数据湖

数据湖是保存原始和非结构化信息的数据存储。它不会将信息存储在文件和文件夹中。相反，它将未经处理的信息存储在海量存储上的扁平层次结构中。数据湖存储不同类型的原始信息，包括文本文档、图像、视频和音频。

数据分析师使用数据湖对非结构化数据进行预测分析。例如，数据湖可能会存储来自社交媒体评论的文本，企业可以将其用于情绪分析。数据分析师可以使用情绪分析来检测针对某家公司的负面意见趋势。

数据集市与数据湖的对比

由于数据湖存储未经处理的数据，因此某些信息可能是重复的，或者可能对公司没有意义。而数据集市则存储满足特定需求的经过处理的数据。数据湖可以是数据集市的源。企业通过查看数据集市中的历史数据来确定数据趋势，但它们使用数据湖来深入分析存储的信息。

OLAP

在线分析处理 (OLAP) 是以多维度表示数据的方法。例如，数据分析师使用 OLAP 多维数据集同时显示基于月份、城市和产品的销售收入。OLAP 数据结构范围很广，包含分类为事实或维度的字段，从而导致数据重复。这与传统的关系数据库形成鲜明对比，后者倾向于范围较窄的结构，因此数据重复很少。

数据集市与OLAP 多维数据集的对比

OLAP 是一种特定的信息存储策略，它将数据非规范化为范围广泛的表。OLAP 可以简化多维数据的复杂表示方法。一些数据集市可能使用 OLAP 来结构化其信息，但其他数据集市则使用传统的规范化结构。业务分析师可以从 OLAP 结构中受益，使来自数据集市的信息可视化。

运营数据存储

运营数据存储 (ODS) 是充当数据来源与数据仓库之间的中介的信息存储。数据分析师可以使用 ODS 提供有关事务数据的准实时报告。ODS 支持简单查询，并且仅提供有限数量的信息。例如，ODS 可能只存储过去 12 小时的销售记录。

数据集市与ODS 的对比

数据集市从数据仓库中提取面向主题的信息，而 ODS 则将信息发送到数据仓库中进行处理。数据集市提供可供您分析的历史信息，而 ODS 则提供当前运营的最新视图。例如，您可以使用数据集市来确定上个季度的销售模式，但可以接收来自 ODS 的每小时销售数字更新。

为什么数据集市非常重要？

以下是公司可能使用数据集市的一些充分理由。

更高效地检索数据

通过使用数据集市，公司可以更高效地访问特定信息。与数据仓库相比，数据集市包含部门经常访问的相关和详细信息。因此，业务经理无需搜索整个数据仓库即可生成绩效报告或图形。

简化决策

公司可以使用数据集市为数据仓库中的数据创建子集。然后，部门内的员工可以分析数据，并根据同一组信息制定决策。

更有效地控制信息

数据集市可为员工提供高度精细的访问权限。这意味着公司可以授权特定人选查看或检索特定数据。它可以帮助公司改善数据治理并强制实施信息访问策略。例如，您可以使用数据集市为员工提供针对数据仓库中特定信息的用户访问权限。

灵活地管理数据

与数据仓库相比，数据集市更小，包含的表更少。这意味着数据工程师可以管理和更改数据集市中的信息，而不会导致重大的数据库更改。

数据集市的工作原理是什么？

数据集市会将原始信息转化为结构化、有意义的内容，供特定业务部门使用。为了实现这一目标，数据工程师需要建立一个数据集市，以便从数据仓库或直接从外部数据来源接收信息。

在将数据集市连接到数据仓库时，数据集市将检索与业务部门相关的精选信息。通常，这些信息包含汇总数据，但不包括不必要或详细的数据。

ETL

提取、转换、加载 (ETL) 是将来自各种数据来源的信息集成和传输到单一物理数据库中的过程。当信息不是来自数据仓库时，数据集市将使用 ETL 从外部来源检索信息。该过程包括以下步骤。

提取：从各种来源收集原始信息
转换：将信息结构化为通用格式
加载：将处理后的数据传输到数据库

ETL 工具从外部来源（如电子表格、应用程序和文本文档）复制信息。然后，数据集市以结构化形式处理、组织和存储这些信息。

分析

业务分析师使用软件工具检索、分析和表示数据集市中的数据。例如，他们将存储在数据集市中的信息用于商业智能分析、报告控制面板和云应用程序。

每个数据集市为少量用户提供服务。例如，营销经理和高级营销人员有权访问数据集市，因此生成报告和图表或执行预测分析所需的时间更少。

数据集市有哪些类型？

以下是不同类型的数据集市。

依赖型数据集市

依赖型数据集市使用来自集中式数据仓库中的信息的子集填充其存储。数据仓库从多种数据来源收集所有信息。然后，数据集市从数据仓库中查询和检索特定于主题的信息。

优点和缺点

大部分数据管理工作都是在数据仓库中执行的。这意味着业务分析师不需要精通数据库管理即可使用来自数据集市的信息。尽管依赖型数据集市使检索信息变得更加容易，但它们存在单点故障。如果数据仓库发生故障，所有连接的数据集市也将发生故障。

独立型数据集市

独立型数据集市不依赖中央数据仓库或任何其他数据集市。每个数据集市都从其来源收集信息，而不是从数据仓库中收集信息。独立型数据集市适用于规模较小但只有特定部门需要访问和分析信息的公司。

优点和缺点

公司可以相对轻松地建立独立型数据集市。但管理它们可能比较困难。这是因为业务分析师需要在每个数据集市执行数据库管理工作。使用数据共享等策略在不同的数据集市之间共享数据非常简单；多个部门可以读取另一个部门的数据，甚至可以用它们自己的数据对另一个部门的数据进行扩充。但是，必须制定强有力的数据编录策略，以确保每个部门都知道自己在查看什么。

混合型数据集市

混合型数据集市从数据仓库和外部来源收集信息。这使众多公司能在将数据定向到数据仓库之前，灵活地测试独立数据来源。

例如，假设您推出了一种新产品，并想分析其初始销售数据。数据集市使用直接来自电子商务软件的销售信息，并从数据集市中检索其他产品的销售记录。在该产品成为您店铺中的永久固定商品后，您即可将交易详细信息传送到数据仓库。

数据集市的结构是什么？

数据集市使用以下结构来存储和表示信息。

星型

星型结构的中心有一个事实表，并分支到多个维度表。这样会产生星形连接。事实表是一个数据表，其中包含可用于分析目的的汇总数据。而维度表则将描述性信息保存在事实表中。每个维度表都使用外键链接到事实表。外键是一种唯一标识符，如产品 ID 或供应商 ID。

例如，销售交易的事实表包含以下列：

销售 ID
产品 ID
供应商 ID
销售金额

产品的维度表存储以下信息：

产品 ID
产品名称
产品成本

供应商维度表包含以下列：

供应商 ID
供应商名称
城市

优势

在星形结构中，维度表是非规范化的，不会扩展到其他表中。这意味着维度表可能包含冗余数据，但能提高搜索和检索速度。它为了存储维度表而占用的空间更少。

业务分析师可以使用星形结构的数据集市来简化复杂查询。当他们搜索特定销售记录时，数据管理系统会搜索整个事实表。当数据集市系统查找正确的记录时，它将使用产品 ID 和供应商 ID 从相应的维度表中查询数据。

非规范化型

非规范化型结构会将所有相关数据存储在单个表中。它在事实表和维度表之间没有复杂的联合。数据分析师使用非规范化型数据集市的原因在于它可以提高查询速度。例如，在单个非规范化型表中搜索销售记录如下所示：

销售 ID
产品
产品名称
产品成本
型号名称
重量
大小
供应商
供应商名称
城市
销售金额

非规范化型数据集市由于采用单表方法，因此适用于实时报告。但是，数据集市的非规范化会导致数据冗余。例如，同一产品名称可能会出现在多个记录中。这会导致额外的存储空间和昂贵的实施成本。

实施数据集市的步骤有哪些？

云数据工程师通过执行以下操作来建立数据集市：

启动云数据工程师的云原生数据平台。
用业务数据填充数据集市。确保数据具有正确格式，并与业务用户相关。
设置数据集市，以便多个用户可以从中访问数据。例如，他们在数据集市中安装了一个报告控制面板。
在数据集市运行时，继续监控、优化和解决问题。

如何在 AWS 上实施数据集市？

很多公司需要处理不断增加的数据量，从而将传统的数据集市存储扩展到极限。安装在本地服务器上的数据集市很难扩展。云架构为数据集市提供了更便宜、可扩展性更强、更易于管理的企业级集成。

Amazon Redshift 是一种数据仓库解决方案，可用于在云中实施数据集市。对跨运营数据库、数据湖、数据仓库和数千个第三方数据集的复杂和规模化数据进行实时分析和预测性分析后，您可获得综合简介。您可以轻松地自动创建、训练和部署机器学习 (ML) 模型。您可以在 Amazon Redshift 上创建数据集市，并使用它们制定更明智的决策。

Amazon Redshift 具有一些关键功能，使其成为适用于数据集市的绝佳解决方案：

借助 Amazon Redshift Serverless，可以为您处理集群的大小和规模方面的注意事项。
由于本机数据共享，数据集市中的数据可以访问数据仓库中的数据，或者可以共享到数据仓库。

立即创建 AWS 账户，开始使用数据集市。

什么是数据集市？