云数据迁移

将本地数据移到 AWS 以进行迁移或完成持续工作流

数据是应用程序部署、分析工作流和机器学习创新成功的基石。将数据移到云中时,您需要了解针对不同使用案例的数据移动位置、所移动数据的类型以及可用的网络资源等因素。AWS 提供各种服务和合作伙伴工具来帮助您迁移数据集,无论数据集是文件、数据库、系统映像、块卷还是磁带备份。

使用 AWS Storage Gateway 在几分钟内进行云存储 (6:38)

AWS 云数据迁移服务

AWS 提供数据传输服务组合,从而为任何数据迁移项目提供适当解决方案。连接水平是数据迁移的重大影响因素,AWS 提供可解决您的混合云存储、在线数据传输和离线数据传输需求的产品。

混合云存储

许多客户希望充分利用云存储的优势,但其应用程序是在本地运行,需要低延迟访问数据或者需要将数据快速传输到云。AWS 混合云存储架构可以将您的本地应用程序和系统连接到云存储,从而帮助您降低成本,最小化管理负担,以及利用数据实现创新。

AWS Storage Gateway

AWS Storage Gateway 简化了 AWS 存储的本地采用。Storage Gateway 让您可以将本地应用程序无缝连接并扩展到 AWS 存储。客户使用 Storage Gateway 将磁带库无缝替代为云存储,提供云存储支持的文件共享,或创建低延迟缓存来访问 AWS 中本地应用程序的数据。该服务提供三种不同类型的网关:文件网关、磁带网关和卷网关。

  • 文件网关文件数据使用 Amazon S3 文件网关存储在 Amazon S3 中作为持久对象,或者使用 Amazon FSx 文件网关存储到完全托管的文件共享中。
  • 磁带网关虚拟磁带库 (VTL) 配置与您现有的备份软件无缝集成,可在 Amazon S3 中实现经济高效的磁带替换,并在 S3 Glacier 和 S3 Glacier Deep Archive 中进行长期存档。
  • 卷网关在本地存储或缓存块卷,并将时间点备份用作 EBS 快照。这些快照可以在云中恢复。

AWS Direct Connect

客户可选择一个 Direct Connect 专用物理连接来加速其数据中心与 AWS 数据中心之间的网络传输。

AWS Direct Connect 让您可以在您的网络与任何一个安装了 AWS Direct Connect 的地点之间建立一个专用网络连接。此专用连接使用业内规定的 802.1q VLAN 标准,分割成多个虚拟接口。这样您既可通过同一个连接访问使用公有 IP 地址空间的公有资源(如存储在 Amazon S3 中的对象)和使用私有 IP 空间的私有资源(如在 Amazon Virtual Private Cloud (VPC) 中运行的 Amazon EC2 实例),同时又能在公有和私有环境之间保持网络隔离。您可随时重新配置虚拟接口,满足不断变化的需求。

了解可帮助您将本地技术扩展到云的 AWS Direct Connect 合作伙伴服务包。 

在线数据传输

这些服务使您能够通过在线方式简单、轻松地在 AWS 中传入和传出数据。

AWS DataSync

AWS DataSync 是一种数据传输服务,使您能够轻松在本地存储和 Amazon S3、Amazon Elastic File System (Amazon EFS) 或 Amazon FSx for Windows File Server 之间自动迁移数据。DataSync 会自动处理可能会降低迁移速度或增加 IT 操作负担的许多数据传输相关任务,包括运行您自己的实例、处理加密、管理脚本、网络优化和数据完整性验证等。您可以使用 AWS DataSync 传输数据,速度最高可比开源工具快 10 倍之多。您可以使用 DataSync 将数据通过 AWS Direct Connect 或互联网链路复制到 AWS,满足一次性数据迁移、经常性数据处理工作流的要求,以及进行自动化复制以满足数据保护和恢复要求。

AWS Transfer 系列

AWS Transfer 系列提供完全托管支持,可将文件直接传入和传出 Amazon S3。AWS Transfer 系列使用安全文件传输协议 (SFTP)、SSL 的文件传输协议 (FTPS) 和文件传输协议 (FTP),可通过集成现有身份验证系统并提供与 Amazon Route 53 的 DNS 路由,帮助您将文件传输工作流程无缝迁移到 AWS,而对于客户和合作伙伴及其应用而言则没有任何变化。 通过 Amazon S3 中的数据,您可以配合 AWS 服务完成数据处理、分析、机器学习和存档。AWS Transfer 系列部署非常简单,无需购买和设置任何基础设施。

Amazon S3 Transfer Acceleration

Amazon S3 Transfer Acceleration 加快了通过公共 Internet 向 Amazon S3 传输数据的速度。不管距离多远或 Internet 状况如何,您都可以最大限度地利用带宽,并且无需提供特殊的客户端或专有网络协议。您只需更改与 S3 存储桶搭配使用的终端节点,即可自动实现加速。

这非常适用于在全球各地处理的重复任务(例如,媒体上传、备份以及定期发送到中央位置的本地数据处理任务)。

AWS Snowcone

AWS Snowcone 是 AWS Snow 系列边缘计算和数据传输设备中尺寸最小的成员。Snowcone 便携、耐用且安全。您可以使用 Snowcone 收集、处理数据,并通过 AWS DataSync 将数据在线移动到 AWS。在断开连接的环境中和连接的边缘站点中运行应用程序可能很有挑战性,因为这些位置经常缺少数据中心 IT 设备所需的空间、电力和冷却装置。AWS Snowcone 将数据安全地存储在边缘站点,可以运行使用 AWS IoT Greengrass 或 Amazon EC2 实例的边缘计算工作负载。Snowcone 设备非常小巧,仅重 4.5 lb(2.1 kg),因此您可以在背包中携带一台,或在 IoT、车载甚至是无人机使用案例中将其安装到狭小空间内。

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose 是将流数据加载到 AWS 的最简单方式。它可以捕获流数据并将其自动加载到 Amazon S3 和 Amazon Redshift,借助当前正在使用的现有商业智能工具和控制面板实现近乎实时的分析。这是一项完全托管的服务,可以自动扩展以匹配数据吞吐量,并且无需持续管理。它还可以在加载数据前对其进行批处理、压缩和加密,从而最大程度地减少目的地使用的存储量,同时提高安全性。您可以从 AWS 管理控制台轻松创建 Firehose 传输流、通过点击几下对其进行配置,以及开始将数据从成千上万个要不断加载到 AWS 的数据源发送到数据流中 – 所有这些操作只需几分钟即可完成。

APN 合作伙伴产品

AWS 已经就缩小传统备份和云之间差距的物理网关设备与很多行业供应商开展了合作。将现有的本地数据链接至 Amazon 的云,可以在不影响性能且不保存现有备份目录的情况下迁移数据。

  • 无缝集成至现有基础设施
  • 可提供重复数据删除、压缩、加密或 WAN 加速功能
  • 在本地缓存最近的备份,通过文件库将所有数据移至 AWS 云

离线数据传输

AWS Snow 系列使您能够通过离线方式轻松在 AWS 中传入和传出数据。

AWS Snowcone

AWS Snowcone 是 AWS Snow 系列边缘计算和数据传输设备中尺寸最小的成员。Snowcone 便携、耐用且安全。您可以使用 Snowcone 收集、处理数据,并通过运送设备的离线方式将数据移动到 AWS。在断开连接的环境中和连接的边缘站点中运行应用程序可能很有挑战性,因为这些位置经常缺少数据中心 IT 设备所需的空间、电力和冷却装置。AWS Snowcone 将数据安全地存储在边缘站点,可以运行使用 AWS IoT Greengrass 或 Amazon EC2 实例的边缘计算工作负载。Snowcone 设备非常小巧,仅重 4.5 lb(2.1 kg),因此您可以在背包中携带一台,或在 IoT、车载甚至是无人机使用案例中将其安装到狭小空间内。

AWS Snowball

AWS Snowball 是一种具有板载存储和计算功能的 PB 级数据传输和边缘计算服务,提供有两个选项。Snowball Edge Storage Optimized 设备同时提供数据块存储和兼容 Amazon S3 的对象存储以及 40 个 vCPU。它非常适合本地存储和大型数据传输。Snowball Edge Compute Optimized 设备提供了 52 个 vCPU、数据块和对象存储,及适用于断开连接的环境中的高级机器学习和完全动态视频分析等使用案例的可选 GPU。您可使用这些设备在连接时断时续的环境(例如制造业、工业和运输)或在极其偏远的位置(例如军事或海事作业)进行数据收集、机器学习、处理和存储,然后再将其运送回 AWS。这些设备也可以安装在机架上并通过集群化一起使用,以构建更大型的临时安装设施。

非托管云数据迁移工具

AWS 还提供简单的脚本或 CLI 工具,便于您将数据从站点移到 AWS 云存储中。

rsync

客户可使用 rsync 这种开源工具以及第三方文件系统工具,将数据直接复制到 S3 存储桶中。

S3 命令行界面

客户可以使用 Amazon S3 CLI 编写命令,以将数据直接移至 S3 存储桶中。

S3 Glacier 命令行界面

客户可以使用 Amazon S3 Glacier CLI 将数据移至 S3 Glacier 文件库中。

云数据迁移的常见挑战

大部分项目都面临数据传输的严酷现状。如何在最大限度减少中断、成本和所用时间的情况下,轻松地从当前位置移至新的云环境? 要移动 GB、TB 或 PB 量级的数据,最明智的方法是什么?

潜在的根本问题是:可以迁移多少数据?迁移速度和迁移距离是多少? 使用以下公式可得出最理想情况下的结果:

天数 =(总字节数)/(每秒兆位数 * 125 * 1000 * 网络使用率 * 60 秒钟 * 60 分钟 * 24 小时)

例如,如果您要使用 T1 连接 (1.544Mbps) 将 1TB(1024 * 1024 * 1024 * 1024 字节)数据移入或移出 AWS,那么从理论上讲,通过您的网络连接(80% 网络使用率)加载该数据所需的时间为至少 82 天。

别紧张,我们对此驾轻就熟。我们发现客户通常会采用两种方法完成这一过程:使用非常基础的非托管迁移工具来迁移数据,或者选择上面提到的一种 AWS 服务套件。

一般而言,为了获得最佳结果,我们建议采用以下方法:

连接 数据规模 方式
小于 10Mbps 小于 500GB 非托管
大于 10Mbps 大于 500GB 托管服务