什么是数据虚拟化?
数据虚拟化是指从底层数据存储中抽象数据操作的过程。现代组织以多种格式存储数据,从传统表格到实时消息和文件,这些数据分布在各种系统和平台之上。将这些数据物理迁移到单一中央系统,可能并非总是可行或具有成本效益。
数据虚拟化利用元数据(关于数据的数据)创建用于数据操作的虚拟层。最终用户可在虚拟层内以集成方式读取和修改数据,而无需了解底层技术细节。虚拟层并非与最终用户交互,而是与底层存储层进行交互,以根据需要推送或检索数据。
为什么数据虚拟化如此重要?
当今组织常面临数据分散于不同数据来源的困境,这些数据来源包括本地系统、云服务及其他孤岛式系统。由于以下挑战,物理数据合并能力受到限制:
- 跨多个平台手动管理源数据既耗时又容易出错。
- 由于强制性数据治理要求,对多个独立数据来源实施访问控制可能较为复杂。
- 当新增数据来源或用户时,维持数据来源之间的直接连接可能面临挑战。
其他传统的数据集成方法需要将数据迁移到数据仓库或数据湖。这种方法确实能实现集中化管理,但需要保持多个副本的同步,这反过来可能影响实时报告功能。
与其他方法相比,数据虚拟化系统具有多个关键优势。
抽象
查询是从实际数据来源中抽象而出,因此您可以处理复杂数据集,而无需用户或开发人员理解其背后的所有技术细节。
统一治理
由于数据虚拟化使用元数据进行运行,因此您可以在虚拟化层实现集中治理。构建和迭代数据模型也变得轻而易举,这些模型能够快速投入使用,并可重复用于未来的项目。
实时访问
数据虚拟化使您能够实时查询多个数据来源。您无需等待计划好的同步操作。您的业务用户可以与单一应用程序进行交互,而无需分别连接每个系统。
单一事实来源
您可消除因与另一系统同步延迟导致的过时数据在单一系统中造成的冗余和混乱。您还可以通过避免将数据复制到集中式数据仓库或数据湖以降低存储成本。
数据虚拟化的使用案例有哪些?
通过简化实时数据访问,虚拟化可以支持多项重要功能。
分析和商业智能
内部报告或合规监管等分析项目通常需要整合组织内部多个来源的数据。借助虚拟化数据访问,分析师和商业智能团队可轻松探索数据和优化查询,而不会对生产数据来源产生负面影响。
云迁移支持
将大型系统迁移到云可能是个缓慢且充满错误的过程。数据虚拟化是制定有效迁移计划的强大工具。您的团队可以在不影响实时系统的情况下,测试割接方案并验证数据集成流程。
简化主要系统升级
为重大项目(如企业资源规划(ERP)系统升级)构建测试环境可能耗时费力,且需要多个团队之间进行大量协调工作。借助数据虚拟化技术,团队可以快速生成复杂的数据结构,从而实现高效工作。这有助于降低基础设施成本并缩短部署时间。
生产系统支持
在生产系统中排查复杂问题时,有时需要重建完整的数据服务以进行测试。借助数据虚拟化技术,您的 IT 团队可以快速构建和测试环境,而无需复制数据。这将使他们能够验证修复方案并识别意料之外的副作用。
DevOps 工作流程
开发人员和测试人员在准备应用程序发布时,可使用完整的虚拟数据环境进行协作。它们无需复制大型数据集,即可模拟软件在现实世界中的运行方式。
数据虚拟化层有哪些功能?
数据虚拟化软件可以提供多种关键功能,以简化数据管理。
语义建模
具有实质意义的业务概念(如“客户”或“产品线”)可通过分散在多个系统中的虚拟数据进行表示。虚拟化层使您可以更轻松地利用数据在多个来源之间定义有意义的概念。
通用连接
通过虚拟化层访问组织内部的数据来源,您能够更轻松地打破数据孤岛,为每个团队提供对统一数据集的实时访问权限。
高性能查询
数据虚拟化软件可以利用智能性能优化技术,将复杂查询优化为单个高效语句。它不会向不同的系统发出冗余查询。
数据目录
虚拟化使您能够在同一系统内存储元数据,即关于您数据的信息。您可以利用这些数据以跟踪现有数据集的信息,并构建支持数据可发现性的数据目录。
数据虚拟化如何工作?
数据虚拟化是数据集成的一种类型。数据虚拟化服务不是直接处理数据,而是仅对元数据进行操作,例如数据存储位置、分类方式以及与其他数据的连接方式等信息。
用户查询
假设您的企业具备客户关系管理(CRM)数据库和用于管理产品的独立库存系统。但您想查询名为“Smith”的客户在过去两个月下过的所有订单,该请求涉及两个系统。您将查询输入到数据虚拟化服务中。
数据集成
虚拟化服务将查询分解为更小的组件。该服务通过其元数据,识别查询的每个组件在您各种数据来源中的数据位置。它会生成子查询,从您的 CRM 中检索客户信息,并从库存系统中检索订单信息。
数据演示
当来源返回数据时,数据虚拟化服务会在工作内存中对数据来源进行转换,并根据需要调整格式和命名。它会过滤掉元数据识别出的冗余内容。随后,当转换完成后,该服务将向您的应用程序交付集成结果。
云中的数据虚拟化方法有哪些?
在云中实施数据虚拟化主要有三种方法:定制解决方案、商业工具或云原生解决方法。
定制数据虚拟化
您的首选方案是利用云基础设施自定义构建专属的数据虚拟化解决方案。虽然它可以提供对设计和功能的更多控制权,但也需要大量开发和维护工作。
商业数据虚拟化工具
另一种选择是使用供应商提供的预构建数据虚拟化平台。这些工具通常提供预构建的连接器,可连接多种数据来源,并具备性能优化功能。它们还可能支持与现有企业元数据标准的集成。
云原生数据虚拟化
这种方法利用云供应商(如 Amazon Web Services(AWS))提供的托管服务,以简化部署和持续运营。它使已采用云或正在向云过渡的组织能够采用数据虚拟化,而无需具备深厚的技术专业知识。
AWS 如何支持您的数据虚拟化需求?
AWS 提供原生功能,这些功能与商业数据虚拟化服务所提供的多数功能相契合。这些原生功能可能支持各种数据虚拟化使用案例。
Amazon Redshift 为大规模现代数据分析提供强大支持。无论您持续增长的数据存储在运营数据存储、数据湖、流服务还是第三方数据集之中,Amazon Redshift 都可以帮助您以最少的移动或复制量,安全地访问、组合和共享数据。
Amazon Athena 是一项交互式分析服务,可直接处理存储在 Amazon S3 中的数据。这是无服务器式服务,因此您无需设置或管理基础设施即可马上开始分析数据。
AWS Glue 是一项无服务器数据集成服务,可简化数据发现、准备和合并的过程。Amazon Athena 和 Amazon Redshift 与 AWS Glue Data Catalog(支持虚拟化功能的中央元数据存储库)原生集成。
AWS Lake Formation 便于集中管理、保护和在全球范围内共享用于分析和机器学习(ML)的数据。您可以使用 AWS Glue Data Catalog 集中管理数据安全和管控,以借助熟悉的数据库式功能在一个位置管理元数据和数据权限。它还提供精细的数据访问控制。
立即创建免费账户,开始在 AWS 上使用数据虚拟化。