云数据迁移

将本地数据移到 AWS 以进行迁移或完成持续工作流

数据是应用程序部署、分析工作流和机器学习创新成功的基石。将数据移到云中时,您需要了解针对不同用例的数据移动位置、移动数据的类型以及可用的网络资源等因素。AWS 提供各种服务和合作伙伴工具来帮助您迁移数据集,无论数据集是文件、数据库、系统映像、块卷还是磁带备份。

将数据迁移到 AWS 的最佳实践 (50:07)

AWS 云数据迁移服务

AWS 创建的数据传输服务套件包含许多可帮助您更有效地迁移数据的方法。您可以将它们分为两类:在线数据传输和混合云存储以及通过离线方式将数据迁移到 Amazon S3

在线数据传输和混合云存储

通过这些方法,可以轻松创建指向 VPC 的网络链接,将数据传输到 AWS,或将 S3 用于包含现有本地应用程序的混合云存储。这些服务可以帮助您一次性迁移大型数据集,并将现有处理流程(如备份和恢复或持续的数据流)直接与云存储集成。

AWS Direct Connect

客户可选择一个 Direct Connect 专用物理连接来加速其数据中心与我们的数据中心之间的网络传输。

AWS Direct Connect 让您可以在您的网络与任何一个安装了 AWS Direct Connect 的地点之间建立一个专用网络连接。使用 802.1q VLAN 行业标准,可将此专用连接分割成多个虚拟接口。这样您既可通过同一个连接访问使用公有 IP 地址空间的公有资源(如存储在 Amazon S3 中的对象)和使用私有 IP 空间的私有资源(如在 Amazon Virtual Private Cloud (VPC) 中运行的 Amazon EC2 实例),同时又能在公有和私有环境之间保持网络隔离。您可随时重新配置虚拟接口,满足不断变化的需求。

了解可帮助您将本地技术扩展到云的 AWS Direct Connect 合作伙伴服务包。 

AWS DataSync

AWS DataSync 是一种数据传输服务,使您能够轻松在本地存储和 Amazon S3 或 Amazon Elastic File System (Amazon EFS) 之间自动迁移数据。DataSync 会自动处理可能会降低迁移速度或增加 IT 操作负担的许多数据传输相关任务,包括运行您自己的实例、处理加密、管理脚本、网络优化和数据完整性验证等。您可以使用 AWS DataSync 传输数据,速度最高可比开源工具快 10 倍之多。您可以使用 DataSync 将数据通过 AWS Direct Connect 或互联网链路复制到 AWS,满足一次性数据迁移、经常性数据处理工作流的要求,以及进行自动化复制以满足数据保护和恢复要求。

AWS Storage Gateway

The AWS Storage Gateway 服务简化了 AWS 存储的本地采用。您现有的应用程序可通过行业标准的数据块和磁带存储协议连接到本地网关,以在 Amazon S3 和 Amazon Glacier 中存储数据。数据将在压缩后安全传输至 AWS。

  • 文件网关为本地应用程序提供 SMB 或 NFS 文件共享,从而将文件存储为 S3 对象,并使用传统文件接口访问它们。
  • 磁带网关虚拟磁带库 (VTL) 配置与您现有的备份软件无缝集成,可在 Amazon S3 中实现经济高效的磁带替换,并在 S3 Glacier 和 S3 Glacier Deep Archive 中进行长期存档。
  • 卷网关在本地存储或缓存块卷,并将时间点备份用作 EBS 快照。这些快照可以在云中恢复。

Amazon S3 Transfer Acceleration

Amazon S3 Transfer Acceleration 加快了通过公共互联网向 Amazon S3 传输数据的速度。不管距离多远或 Internet 状况如何,您都可以最大限度地利用带宽,并且无需提供特殊的客户端或专有网络协议。您只需更改与 S3 存储桶搭配使用的终端节点,即可自动实现加速。

这非常适用于在全球各地处理的重复任务(例如,媒体上传、备份以及定期发送到中央位置的本地数据处理任务)。

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose 是将流数据加载到 AWS 的最简单方式。它可以捕获流数据并自动将其加载到 Amazon S3Amazon Redshift 中,从而可以借助当前在使用的现有商业智能工具和仪表板进行近乎实时的分析。这是一项完全托管的服务,可以自动扩展以匹配数据吞吐量,并且无需持续管理。它还可以在加载数据前对其进行批处理、压缩和加密,从而最大程度地减少目的地使用的存储量,同时提高安全性。您可以从 AWS 管理控制台轻松创建 Firehose 传输流,只需几次点击即可完成配置,并开始将数据从成千上万个要不断加载到 AWS 的数据源发送到数据流中 – 所有这些操作只需几分钟即可完成。

APN 合作伙伴产品

AWS 已经就缩小传统备份和云之间差距的物理网关设备与很多行业供应商开展了合作。将现有的本地数据链接至 Amazon 的云,可以在不影响性能且不保存现有备份目录的情况下迁移数据。

  • 无缝集成至现有基础设施
  • 可提供重复数据删除、压缩、加密或 WAN 加速功能
  • 在本地缓存最近的备份,通过文件库将所有数据移至 AWS 云

通过离线方式将数据迁移到 Amazon S3

永远不要低估满载 100PB 硬盘的半挂卡车或 100TB 手提箱式设备的带宽。这些离线数据迁移服务使用适合运输的加固设备,非常适合移动大型存档、数据湖,或者无法在所需的时间范围内通过网络传输带宽和数据量的情况。

AWS Snowball

AWS Snowball 是一种 PB 级数据传输解决方案,使用安全设备与 AWS 之间进行大量数据的传输。使用 Snowball 可以解决进行大规模数据传输时遇到的常见难题,包括网络带宽有限、传输时间长和安全问题。使用 Snowball 传输数据简单、快速且安全。

AWS Snowball Edge

AWS Snowball Edge 是一种具有板载存储和计算功能的 PB 级数据传输服务。您可以使用 Snowball Edge 将大量数据移入和移出 AWS、将其用作大型本地数据集的临时存储层,或者在远程或离线位置支持本地工作负载。

AWS Snowmobile

AWS Snowmobile 是一个 EB 级数据传输解决方案,就像使用安全的 40 英尺集装箱半挂车,将大量数据传入和传出 AWS。使用 Snowmobile 可以解决进行大规模数据传输时会遇到的常见难题,包括网络费用高、传输时间长和安全问题。利用 Snowmobile 传输数据可通过定制合作实现,快速安全,且成本仅为高速互联网的五分之一。

非托管云数据迁移工具

AWS 还提供简单的脚本或 CLI 工具,便于您将数据从站点移到 Amazon 的云存储中。

rsync

客户可使用 rsync 这种开源工具以及第三方文件系统工具,将数据直接复制到 S3 存储桶中。

S3 命令行界面

客户可以使用 Amazon S3 CLI 编写命令,以将数据直接移至 S3 存储桶中。

S3 Glacier 命令行界面

客户可以使用 Amazon Glacier CLI 将数据移至 Glacier 文件库中。

云数据迁移的常见挑战

大部分项目都面临数据传输的严酷现状。如何在最大限度减少中断、成本和所用时间的情况下,轻松地从当前位置移至新的云环境? 要移动 GB、TB 或 PB 量级的数据,最明智的方法是什么?

潜在的根本问题是:可以迁移多少数据?迁移速度和迁移距离是多少? 使用以下公式可得出最理想情况下的结果:

天数 =(总字节数)/(每秒兆位数 * 125 * 1000 * 网络使用率 * 60 秒钟 * 60 分钟 * 24 小时)

例如,如果您要使用 T1 连接 (1.544Mbps) 将 1TB(1024 * 1024 * 1024 * 1024 字节)数据移入或移出 AWS,那么从理论上讲,通过您的网络连接(80% 网络使用率)加载该数据所需的时间为至少 82 天。

别紧张,我们对此驾轻就熟。我们发现客户通常会采用两种方法完成这一过程:使用非常基础的非托管迁移工具来迁移数据,或者选择上面提到的一种 Amazon 服务套件。

一般而言,为了获得最佳结果,我们建议采用以下方法:

连接 数据规模 方式
小于 10Mbps 小于 500GB 非托管
大于 10Mbps 大于 500GB 托管服务