什么是数据迁移框架？— 数据迁移框架详解

什么是数据迁移框架？

数据迁移是指将数据从一个存储系统或计算环境移动到另一个存储系统或计算环境。任何数据迁移计划都旨在高效移动数据，同时考虑网络资源、数据安全、时间和传输方式等因素。云数据迁移明确专注于将数据迁移至云。

该过程不仅涉及重新放置数据，还涉及在不同存储环境之间精确映射数据。可采取多种形式。例如，您可能需要定期批量上传数据文件、从传感器流式传输数据，或将现有的存档数据从本地数据存储系统进行一次性迁移。

目标

每个云数据迁移项目都需要明确的业务案例，以确定最佳结果。然而，大部分数据迁移都存在一些共同目标：

提高效率，例如延长系统正常运行时间、采用远程优先的基础设施或进行系统整合。
减少硬件维护、服务器机房运营以及全天候驻场系统管理员方面的资源支出。
基础数据平台，用于开展分析、执行人工智能和构建企业应用程序。

其他目标可能包括确保系统在其自然生命周期结束时仍可正常运行、实现所有基础设施的虚拟化，以及与现有云系统的数据进行集成。

挑战

成功的云迁移远不止于文件传输。它要求：

权限、访问控制及其他元数据保持完整。
用户在上传过程中可以不间断地访问关键数据。
即使发生任何网络中断，数据一致性仍得以维持

传输大量数据既耗时又常常需要大量人工干预。投资于专门的迁移工具可能导致在过渡完成后产生沉没成本。

因此，云迁移需要周密的规划、合理的调度以及合适的工具，以控制运营开销并降低成本费用。否则，数据迁移过程可能会延迟，甚至需要从头开始重新启动。

数据迁移计划的关键注意事项有哪些？

参与数据迁移的领导层和团队必须考虑以下事项：

数据迁移所需的时间
任何现有的源与目标的不兼容性
迁移期间的安全注意事项
迁移工具或流程的成本
计划注意事项
迁移类型 — 批量、流式处理、一次性
对网络资源的影响。

规划步骤包括：

评测数据来源

在迁移数据之前，您必须评测当前的数据配置。当前的数据、存储和访问方法类型将影响您的迁移选项。

例如，存储在本地 MySQL 服务器上的关系数据库，可通过相对简单的流程和一对一的数据库管理系统迁移到 Amazon Relational Database Service（RDS）。然而，ERP 的本地遗留系统可能更难进行迁移，尤其是当数字化转型需求涉及软件变更时。

识别并记录用于云迁移的所有数据来源的详细信息，例如：

数据库
应用程序数据
存储
数据模型
云到云

设计您的迁移

这涉及组织和配置符合现有安全标准的迁移工具。您还必须确定数据迁移操作的顺序，并提前安排好计划。例如，您可以选择以下选项：

实时复制，以实现自动、异步的对象复制，直至两个系统之间的数据同步完成。
快照迁移，一次性交付完整的系统状态，随后通过小规模传输进行更新，以追赶当前状态并与之保持一致。
分阶段迁移，一次迁移一个较小的数据集。

此外，还需规划如何在最终阶段评测迁移的准确性和质量。

关键利益相关者简介

迁移可能对企业员工、客户和合作伙伴造成干扰。确保关键利益相关者了解数据迁移流程、计划、时间表以及迁移期间可能出现的访问中断情况。可能还需要进行训练，以确保管理员了解如何配置，用户了解如何在迁移后访问数据和云服务。

在迁移过程中规划并安排频繁的更新，以保持积极的情绪。

构建和测试解决方案

每次数据迁移都需要不同的策略。某些类型的数据迁移需要快速、一次性传输少量数据，而其他类型则可能需要在较长时间内持续接收海量数据。如何构建和测试迁移取决于所涉及的策略和工具。通常情况下，您将继续使用旧版系统，直到完成对新系统的全面测试，以确保迁移过程完整且正确。

什么是数据迁移策略？

使用 AWS 云数据迁移服务将数据上传至 AWS 云时，可借助多种不同的策略和方法。

直接网络连接

直接网络连接是指您的路由器与基于云的路由器之间建立的专用有线连接。基于云的路由器位于云提供商专用网络的边缘，可直接访问其提供的各类服务。

AWS Direct Connect 允许您使用以太网光纤电缆在您的组织与 AWS 之间建立第 3 层网络连接，从而安全地将数据从您的网络传输至 AWS 服务。AWS Direct Connect 服务点遍布全球各地，您可在此部署设备以进行数据迁移。

开始使用的步骤：

步骤 1 — 选择您的 Direct Connect 站点

选择 AWS Direct Connect 站点，确定所需的连接，然后选择端口规格。可使用多个端口，以提高带宽或冗余度。

步骤 2 — 选择连接类型

选择专用连接或托管连接。专用连接提供专属访问权限及多个虚拟接口，而托管连接共享交叉连接且仅提供单个虚拟接口。

步骤 3 — 设置虚拟接口

通过连接配置一个或多个逻辑虚拟接口（VIF）。Transit VIF 连接到 AWS Transit Gateways，公有 VIF 通过公有 IP 访问 AWS 公共服务，私有 VIF 使用私有 IP 连接到 Amazon VPC。

基于设备的数据传输

在将数据移动至设备并物理运输至数据中心时，大规模数据迁移可提高效率。AWS Snowball 是一项提供安全、耐用设备的服务，可用于将数据安全上传至云端。步骤如下：

1. AWS 将 Snowball 设备运送到您指定的位置。

2. 将设备连接到您的网络，并使用 AWS Snowball 客户端或 AWS OpsHub 以解锁和配置设备。

3. 将数据复制到设备上；内置加密功能可确保传输过程中的安全性。

4. 使用预付费运输标签，将设备寄回 AWS。

5. 到达后，AWS 会自动将数据传输至指定的 S3 存储桶，并安全擦除 Snowball 设备。

6. 该过程完成后，您将收到通知。

上传传感器数据流

从物联网或工业设备及传感器网络收集的流式处理数据可实时传输至云端，而非在本地捕获和进行批量处理。Amazon Data Firehose 允许您使用数据来源设置数据流，根据需要转换数据，然后将其存储在 AWS 上的各种目标存储服务中。

步骤如下

步骤 1 — 创建 Firehose 流

Firehose 流是 Amazon Data Firehose 的核心实体。您可以在 AWS 管理控制台中进行创建，并将其配置为直接接收数据或从现有的 Amazon Kinesis 数据流接收数据。

步骤 2 — 向 Firehose 流发送数据

数据流创建器将大小不超过 1,000 KB 的记录发送至 Firehose 流。数据创建器可以是应用程序、服务器或其他 AWS 服务。

步骤 3 — 配置缓冲和数据处理

Amazon Data Firehose 会先缓冲传入数据，然后再将其交付至目标。您可以配置缓冲区大小（单位：MB）和缓冲区间隔（单位：秒）。

步骤 4 — 选择目标并了解数据流

Amazon Data Firehose 将流式处理数据传输至不同目标

Amazon S3 数据存储在 S3 存储桶中，可选择性备份转换后的数据。
Amazon Redshift 数据首先传输至 S3 存储桶，随后通过 COPY 命令加载至 Redshift。
Amazon OpenSearch Service，可选择性备份到 S3。

数据库迁移

数据库迁移是指迁移关系数据库、数据仓库、NoSQL 数据库以及其他以数据库形式存储的数据类型。迁移服务可发现数据库类型和架构，并直接复制到相同的基础设施中，或转换为新的目标引擎。

AWS Database Migration Service 使用自动化数据迁移流程，以发现、评测、转换数据库和分析工作负载并将其迁移到 AWS。它具有高可用性和最短停机时间。

如果上方未列出您的数据迁移用例，您还可以尝试：

AWS Transfer Family，这是一套安全文件传输服务，例如 SFTP
AWS Storage Gateway，这是一套混合式本地和云存储解决方案
AWS Glue，这是一套服务组合，用于发现、准备、移动和集成各种来源的数据

数据迁移最佳实践有哪些？

以下是云数据迁移中的一些最佳实践。

务必进行数据备份

无论您计划迁移数据还是仅进行日常操作，都请务必进行数据备份。在确保云配置经过全面测试且运行符合预期之前，请勿删除原始数据及其备份。

确保所有依赖项均已进行映射和迁移

数据通常与各种其他依赖项相关联，缺少这些依赖项将无法正常运行。为确保平稳过渡，请确保所有依赖项均已映射且已随原始数据一同迁移。用户权限和访问控制的级别应与迁移前的相同，并尽可能重新评估以提高安全性。

仔细核查安全性与合规性义务及配置

在迁移前、迁移期间和迁移后，必须审查安全性与合规性策略和程序，以确定适用于迁移活动的正确流程和控制措施。

包括旧设备报废处理的规划

即使已删除文件和磁盘空间，旧硬件中仍可能包含可恢复的数据。为确保彻底删除所有数据，请确保停用旧设备，例如遵循 NIST 800-88 媒体消磁指南。

AWS 如何支持您的数据迁移需求？

在 AWS，我们开发出一套数据迁移工具和服务，使数据导入和导出变得简单、安全且经济高效。在整个数据迁移过程的每个阶段，您都能获得帮助。访问 AWS 云迁移，使用 AWS 实现迁移与现代化，或立即申请免费的 AWS 优化与许可评测。

什么是数据迁移框架？