一般性问题

问:什么是 AWS DataSync?

答:AWS DataSync 是一项在线数据传输服务,它可简化、自动化和加速通过互联网或 AWS Direct Connect 在存储系统和 AWS 存储服务(例如 Amazon S3 和 Amazon EFS)之间的大量数据的复制。

问:我为什么应该使用 AWS DataSync?

答:AWS DataSync 使您能够移动、复制和同步包含数百万文件的大型数据集,而无需使用开源工具构建自定义解决方案,也无需许可和管理价格高昂的商业网络加速软件。您可以使用 DataSync 实现活动数据的一次性迁移、数据处理工作流的定期分配或业务连续性的持续复制。

问:AWS DataSync 可以为我解决什么问题?

答:DataSync 可降低在线数据传输的复杂性和成本,从而简化本地存储系统和 Amazon S3 或 Amazon Elastic File System (EFS) 之间的数据集传输。DataSync 通过标准存储协议(NFS 或 SMB)连接到现有存储系统和数据源,并使用专门构建的网络协议和扩展架构来加速与 AWS 之间的传输。DataSync 可自动扩展和处理移动数据、监控传输进度、加密和验证数据传输以及通知客户发生任何故障所涉及的所有任务。使用 DataSync 时,您只需为复制的数据量付费,无需最低消费承诺或预付费用。

问:我可以从哪里传入和传出数据?

答:DataSync 可以在 NFS 服务器、SMB 文件共享、Amazon S3 存储桶和 Amazon EFS 文件系统之间复制数据。

问:是否可以使用 AWS DataSync 将数据迁移到 AWS?

答:是。答:您可以使用 DataSync 将数据从本地迁移到 Amazon S3、Amazon EFS 和 Amazon WorkDocs。阅读存储博客“使用 AWS DataSync 迁移存储”以了解有关迁移最佳实践和提示的更多信息。

使用量

问:如何开始使用 AWS DataSync?

答:您可以在 AWS 管理控制台中单击几下或通过 AWS 命令行界面 (CLI),使用 DataSync 传输数据。首先,请部署 DataSync 代理,配置源和目标存储位置,然后开始数据传输任务。

问:如何使用 AWS DataSync?

答:要使用 DataSync,请执行以下 3 个步骤:

1.部署代理 – 部署 DataSync 代理,并通过管理控制台或 API 将其关联到您的 AWS 账户。代理将用于访问您的 NFS 服务器或 SMB 文件共享,以从中读取数据或向其写入数据。

2.创建数据传输任务 – 通过指定您的数据源位置和目标位置以及您要用于配置传输的任何选项(如复制文件元数据)来创建任务。

3.开始传输 – 启动任务并在控制台中或使用 Amazon CloudWatch 监控数据移动。

问:如何部署 AWS DataSync 代理?

答:请将 DataSync 代理部署到 VMware ESXi 虚拟机监控程序或 Amazon EC2 中。要将数据复制到本地文件服务器或从中复制数据,请从 AWS 控制台下载代理虚拟机映像(OVA 文件),并将其部署到本地 VMware ESXi 虚拟机监控程序。要将数据复制到云中的文件服务器或从中复制数据,您可以通过 AWS 控制台提供的代理 AMI 创建 Amazon EC2 实例。在这两种情况下,都必须部署代理,以便其可以使用 NFS 或 SMB 协议访问您的文件服务器。

问:AWS DataSync 代理的资源要求是什么?

答:您可以在此处查找运行代理所需的最少资源。

问:我如何启动 AWS DataSync 数据传输任务?

答:当您通过 AWS 管理控制台AWS Command Line Interface (CLI) 启动任务时,DataSync 将复制数据。每次任务运行时,它都将扫描源是否存在更改,并复制源与目标之间的任何差异。​您可以配置源的哪些特性用于确定更改的内容,定义要包括和排除特定文件或文件夹的筛选条件,以及控制是否应在源发生更改时覆盖目标中的文件或对象,或在源中找不到时删除它们。

问:AWS DataSync 如何确保正确拷贝数据? AWS DataSync 如何执行数据验证?

答:当 DataSync 传输和存储数据时,它将执行完整性检查,以确保写入目标的数据与从源读取的数据相匹配。此外,可以执行可选的验证检查,以通过计算和比较全文件校验和来确保目标中存储的数据与源中存储的数据匹配。您可以检查整个数据集或仅检查DataSync传输的文件或对象。

问:如何监控 AWS DataSync 正在传输的数据的状态?

答:您可以使用 AWS 管理控制台或 CLI 来监控正在传输的数据的状态。利用 Amazon CloudWatch 指标,您可以查看已复制的文件数和数据量。Amazon CloudWatch Logs 可用于获取详细的错误信息。此外,在任务处于传输状态时将触发 CloudWatch Events,从而实现从属工作流的自动化。您可以在 AWS 管理控制台或 CLI 中找到其他信息(如传输进度)。

问:AWS DataSync 如何将文件和文件夹转换为 Amazon S3 中的对象或从中转换文件和文件夹?

答:将文件或文件夹复制到 Amazon S3 时,文件或文件夹与对象之间存在一对一关系。文件和文件夹元数据时间戳和 POSIX 权限,包括用户 ID、组 ID 和权限,均存储在 S3 用户元数据中。存储在 S3 用户元数据中的文件元数据可与文件网关互操作,从而提供对 DataSync 存储在 Amazon S3 中的数据的本地文件访问。

当 DataSync 从 NFS 服务器复制时,源上文件和文件夹的 POSIX 权限将存储在 S3 用户元数据中。从 SMB 文件共享复制时,默认 POSIX 权限存储在 S3 用户元数据中。

当 DataSync 将包含此用户元数据的对象复制回 NFS 服务器时,系统将恢复文件元数据。当复制回 SMB 文件共享时,所有权将根据在 DataSync 中配置以访问该文件共享的用户进行设置,并且分配默认权限。

在我们的文档中了解有关 DataSync 如何存储文件和元数据的更多信息。

问:我能否将我的数据复制到 Amazon S3 Glacier 或其他 S3 存储类别?

答:会。将 S3 存储桶配置为用于 DataSync 时,您可以选择 DataSync 用于存储对象的 S3 存储类别。DataSync 支持将数据直接存储到 S3 标准、S3 智能分层、S3 标准-不经常访问 (S3 Standard-IA)、S3 单区域-不经常访问 (S3 One Zone-IA)、Amazon S3 Glacier (S3 Glacier) 和 Amazon S3 Glacier Deep Archive (S3 Glacier Deep Archive) 中。有关 Amazon S3 存储类别的更多信息,可参见 Amazon Simple Storage Service 开发人员指南。 

比每个对象的最小收费容量小的对象将存储在 S3 标准中。例如,大小为零字节且只保存元数据的文件夹对象将存储在 S3 标准中。在我们的文档中阅读使用 Amazon S3 存储类别的注意事项,有关最低收费容量的更多信息,请参阅 Amazon S3 定价。 

问:将 S3 存储类别与 AWS DataSync 结合使用时,适用哪些 S3 请求和存储费用?

答:有些 S3 存储类别会产生可能会影响您的费用的行为,如数据检索、最低存储容量和最小存储持续时间。DataSync 会通过自动管理数据来解决这些因素,并会提供设置来最大限度减少数据检索。例如,DataSync 仅确认已传输的文件,在 S3 标准中存储较小的对象并对覆盖和删除对象进行控制。在我们的文档中阅读使用 Amazon S3 存储类别的注意事项

问:我能否将 S3 Glacier 和其他存储类别中的数据复制出来?

答:将 S3 用作 DataSync 任务的源位置时,服务将使用 GetObject 从需要复制到目标的存储桶中检索所有对象。检索存档在 S3 Glacier 或 S3 Glacier Deep Archive 存储类别中的对象将导致错误。从其他存储类别中检索对象将会成功,但对于有些存储类别,可能会基于对象大小向您收取检索费用。检索存档对象时发生的任何错误将由 DataSync 记录,并且会导致任务完成失败的状态。在我们的文档中阅读使用 Amazon S3 存储类别的注意事项

问:是否可以通过 AWS DataSync 使用版本控制、生命周期、跨区域复制和 S3 事件通知?

答:是。您的版本控制、生命周期管理、跨区域复制和 S3 事件通知的存储桶策略可直接应用于通过 DataSync 传输到您的存储桶中的对象。

使用版本控制时,请注意,对对象元数据的更改将创建对象的新版本。

您可以使用 S3 生命周期策略来更改对象的存储层、删除旧对象或对象版本。

问:如果 AWS DataSync 任务中断,会发生什么情况?

答:如果任务中断(例如,如果网络连接断开或 DataSync 代理重新启动),则将在下次运行任务时传输缺失的文件,并且数据将在此运行结束时保持完整和一致性。每次启动任务时,它都将执行增量复制,仅向目标传输源中所做的更改。

问:我能否将 AWS DataSync 与 AWS Direct Connect 结合使用?

答:能。您可以将 DataSync 与 Direct Connect 链接结合使用,以访问公共服务终端节点或私有 VPC 终端节点。使用 VPC 终端节点时,在 DataSync 代理和 AWS 服务之间传输的数据不需要遍历公共互联网,也不需要公共 IP 地址,这增加了在网络上复制数据时的安全性。

问:AWS DataSync 是否支持 VPC 终端节点或 AWS PrivateLink?

答:会。您可以使用 VPC 终端节点来确保在本地或云中部署的 DataSync 代理之间传输的数据不会访问公共 Internet 或需要公共 IP 地址。使用 VPC 终端节点在 Amazon Virtual Private Cloud (Amazon VPC) 中保持网络流量,从而提高数据的安全性。 适用于 DataSync 的 VPC 终端节点由高度可用的可扩展技术 AWS PrivateLink 提供支持,允许您将 VPC 私密连接到受支持的 AWS 服务。

问:如何配置 AWS DataSync 来使用 VPC 终端节点?

答:要将 VPC 终端节点与 DataSync 结合使用,您可以在选择的 VPC 中为 DataSync 服务创建一个 AWS PrivateLink 接口 VPC 终端节点,然后在创建 DataSync 代理时选择此终端节点弹性网络接口 (ENI)。您的代理将连接到此 ENI 以激活,随后由该代理传输的所有数据都将保持在您配置的 VPC 中。您可以使用 AWS DataSync 控制台、AWS 命令行界面 (CLI) 或 AWS 开发工具包配置 VPC 终端节点。要了解更多信息,请参阅 在 Virtual Private Cloud 中使用 AWS DataSync

问:AWS DataSync 在传输文件时是否保留源目录结构?

答:会。在传输文件时,DataSync 在目标位置创建与源位置中的结构类似的目录结构。

性能

问:AWS DataSync 将我的文件系统复制到 AWS 有多快?

答:DataSync 复制给定数据集的速率需综合考虑数据量、源和目标存储可达到的 I/O 带宽、可用的网络带宽,以及网络条件。单个 DataSync 代理可占用 10Gbps 的网络链接。

问:我能否控制 AWS DataSync 任务使用的网络带宽量?

答:能。通过配置内置带宽限制,您可以控制 DataSync 将使用的网络带宽量。这有助于最大限度地降低对依赖于同一网络连接的其他用户或应用程序的影响。

问:AWS DataSync 是否会影响我的源文件系统的性能?

答:根据您的本地文件存储的功能,以及要传输文件的数量和大小,DataSync 可能会在访问同一源数据存储时,影响其他客户端的响应时间,因为代理将从该存储系统读取或写入数据。为任务配置带宽限制会减少此影响,因为它限制存储系统的 I/O。

安全性与合规性

问:我的数据在传输和存储过程中是否加密?

答:是的。在源和目标之间传输的所有数据都通过传输层安全性(TLS,它替代了安全套接字层 (SSL))加密。数据从来不保留在 DataSync 中。该服务支持使用 S3 存储桶的默认加密静态数据的 Amazon EFS 文件系统加密

问:AWS DataSync 如何访问我的 NFS 服务器或 SMB 文件共享?

答:DataSync 使用您部署到 IT 环境或 Amazon EC2 的代理,通过 NFS 或 SMB 协议访问您的文件。这些代理连接到 AWS 中的 DataSync 服务终端节点,一旦激活,就可以从 AWS 管理控制台或 CLI 安全地进行管理。将数据复制到本地或从中复制数据时,无需设置 VPN/隧道或允许入站连接,且可将代理配置为使用标准网络端口穿过防火墙。 您还可以使用 VPC 终端节点在您的 Amazon Virtual Private Cloud (Amazon VPC) 中部署 DataSync。使用 VPC 终端节点时,在 DataSync 代理和 AWS 服务之间传输的数据不需要遍历公共互联网,也不需要公共 IP 地址。

问:AWS DataSync 代理如何连接到 AWS?

答:您的 DataSync 代理在您选择的 AWS 区域内连接到服务终端节点。创建代理时,您可以选择让代理连接到面向公众的 Internet 终端节点、经联邦信息处理标准 (FIPS) 验证的终端节点或其中一个 VPC 内的终端节点。要了解更多信息,请参阅选择服务终端节点

问:AWS DataSync 如何访问我的 Amazon S3 存储桶?

答:DataSync 承担了您提供的 IAM 角色。您附加到角色的策略决定改角色可以执行哪些操作。DataSync 可以代表您自动生成该角色,或者您可以手动配置角色

问:AWS DataSync 如何访问我的 Amazon EFS 文件系统?

答:DataSync 使用 NFS 协议访问您的 Amazon EFS 文件系统。它通过 DataSync 服务托管的弹性网络接口 (ENI) 在 VPC 中挂载您的文件系统,实现此操作。DataSync 代表您完全管理这些 ENI 的创建、使用和删除。

问:AWS DataSync 支持哪些合规性计划?

答:AWS 在云中拥有运行时间最长的合规性计划,并致力于帮助客户满足其要求。已对 DataSync 进行了评估,以满足全球和行业安全标准。除了符合 HIPAA 要求以外,它还符合 PCI DSS、ISO 90012700127017 27018,以及 SOC 1、2 和 3。这使您能够更轻松地验证我们的安全性,并履行您自己的义务。有关更多信息和资源,请访问我们的合规性页面。您也可以转到按合规性计划提供的范围内服务页面,以查看服务和认证的完整列表。

问:AWS DataSync PCI 是否合规?

答:是。DataSync 符合 PCI-DSS,这意味着您可以使用它来传输付款信息。您可以在 AWS Artifact 中下载 PCI 合规性文件包,以详细了解如何在 AWS 上实现 PCI 合规性。

问:AWS DataSync 是否符合 HIPAA 要求?

答:能。DataSync 符合 HIPAA 要求,这意味着如果您有适用于 AWS 的 HIPAA BAA,则可以使用 DataSync 来传输受保护的健康信息 (PHI)。

问:如何修补和更新我的 DataSync 代理?

答:一旦代理被激活,服务将管理代理 VM 的更新,同时包括底层操作系统和 DataSync 软件包。当代理处于空闲状态且没有执行数据传输任务时,将以非破坏性的方式应用更新。

何时选择 AWS DataSync

问:AWS DataSync 与使用 rsync 或 S3 sync 等命令行工具有何不同?

答:与围绕命令行工具构建的 DIY 解决方案相比,DataSync 提供自动化、完全托管的数据传输。它使用专用网络协议和扩展架构,以高达 10 倍的速度传输数据。

具体来说,DataSync 实现了数据传输的完全自动化。它具有内置的重试和网络弹性机制,通过 DataSync API 和控制台进行监控;利用 CloudWatch 指标、事件和日志,您可以准确了解传输过程。DataSync 在传输期间和传输结束时都执行数据完整性验证。该服务还支持灵活配置以满足您的特定需求,包括带宽限制、复制源权限和元数据等。

DataSync 提供端到端安全性:源和目标之间传输的所有数据都通过 TLS 加密,并通过内置的 AWS 安全机制(如 IAM 角色)启用对 AWS 存储的访问。

问:如何在 AWS DataSync 和 AWS Snowball Edge 之间进行取舍?

答:AWS Snowball Edge 适合不需要立即使用 AWS 中的数据、受带宽限制或从偏远、断开连接或严峻的环境中传输数据的客户。对于需要在线迁移活动数据集、及时传输持续生成的数据,或复制用以实现业务连续性的客户,DataSync 是理想之选。

问:如何在 AWS DataSync 和 AWS Storage Gateway 之间进行选择?

答:如果您希望在本地和 AWS 存储(如 S3 或 EFS)之间传输数据,请使用 DataSync。DataSync 通常用于存储迁移,或从本地设备(如摄像头和仪器)及时重复传输数据,以便在 AWS 中进行处理。如果您希望从本地以低延迟访问 AWS 中的数据,则使用 AWS Storage Gateway。Storage Gateway 通常用于备份、混合工作负载、对延迟敏感的本地应用程序、跨办公室的内容分发,以及对 S3 中对象基于文件的访问。

结合使用 DataSync 和 Storage Gateway 的文件网关配置,您可以快速将本地存储移动到 AWS,同时保留对延迟敏感的应用程序的本地访问。

问:如何在 AWS DataSync 和 Amazon S3 Transfer Acceleration 之间进行选择?

答:如果您的应用程序已经与 Amazon S3 API 集成,并且您在向 S3 传输大型文件时需要更高的吞吐量,则可以使用 S3 Transfer Acceleration。如果您想要从现有存储系统(例如网络附带的存储)或从无法更改的仪器(例如 DNA 顺序分析仪、摄像机)传输数据,或者如果您想要使用多个目标位置,则可以使用 DataSync。此外,通过提供内置重试和网络弹性机制、数据完整性验证与灵活配置等额外功能,满足您的特定需求,包括带宽限制、复制源权限和元数据等,DataSync 还可以自动化并简化数据传输。

问:如何在 AWS DataSync 和 AWS Transfer for SFTP 之间进行取舍?

答:如果您当前使用 SFTP 与第三方交换数据,则 Transfer for SFTP 提供可直接传入和传出 Amazon S3 的完全托管 SFTP 传输,同时减少您的运营负担。

如果您希望在 NFS 服务器、SMB 文件共享、Amazon S3 和 Amazon EFS 之间进行加速的自动化数据传输,您可以使用 DataSync。对于需要在线迁移活动数据集、及时传输持续生成的数据,或复制用以实现业务连续性的客户,DataSync 是理想之选。 

问:AWS DataSync 是否允许我迁移到 WorkDocs?

答:是。DataSync 属于 WorkDocs 迁移服务。DataSync 使主目录和部门共享迁移到 WorkDocs 变得更加容易和快捷。

详细了解 DataSync 定价
了解有关定价的更多信息

AWS DataSync 具有简单、可预测且基于使用量的定价;只对您所复制的数据量付费。 

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中使用 DataSync
开始在控制台中移动数据

在 AWS 控制台中开始使用 AWS DataSync 进行构建。

登录