一般性问题

问:什么是 AWS DataSync?

答:AWS DataSync 是一项在线数据传输服务,它可简化、自动化和加速通过互联网或 AWS Direct Connect 在存储系统和 AWS 存储服务(例如 Amazon S3 和 Amazon EFS)之间的大量数据的复制。

问:我为什么应该使用 AWS DataSync?

答:AWS DataSync 使您能够移动、复制和同步包含数百万文件的大型数据集,而无需使用开源工具构建自定义解决方案,也无需许可和管理价格高昂的商业网络加速软件。您可以使用 DataSync 实现活动数据的一次性迁移、数据处理工作流的定期分配或业务连续性的持续复制。

问:DataSync 可以为我解决什么问题?

答:DataSync 可降低在线数据传输的复杂性和成本,从而简化本地存储系统和 Amazon S3 或 Amazon Elastic File System (EFS) 之间的数据集传输。DataSync 通过标准存储协议 (NFS) 连接到现有存储系统和数据源,并使用专门构建的网络协议和扩展架构来加速与 AWS 之间的传输。DataSync 可自动扩展和处理移动数据、监控传输进度、加密和验证数据传输以及通知客户发生任何故障所涉及的所有任务。使用 DataSync 时,您只需为复制的数据量付费,无需最低消费承诺或预付费用。

问:我可以从哪里传入和传出数据?

答:DataSync 可以在 NFS 服务器、Amazon S3 存储桶 和 Amazon EFS 文件系统之间复制数据。

设置

问:如何开始使用 DataSync?

答:您可以在 AWS 管理控制台中单击几下或通过 AWS 命令行界面 (CLI),使用 DataSync 传输数据。首先,请部署 DataSync 代理,配置源和目标存储位置,然后开始复制。

问:如何部署 DataSync 代理?

答:请将 DataSync 代理部署到 VMware ESXi 管理程序或 Amazon EC2 中。要将数据复制到 NFS 服务器或从中复制数据,请从 AWS 控制台下载 OVA,并将其部署到本地 VMware ESXi 管理程序中。要将数据复制到云中的 NFS 服务器或从中复制数据,您可以通过提供的 AMI 创建 Amazon EC2 实例。在这两种情况下,都必须部署代理,以便其可以访问您的 NFS 服务器。

问:DataSync 代理的资源要求是什么?

答:您可以在此处查找运行代理所需的最低资源。

使用量

问:如何使用 DataSync?

答:要使用 DataSync,请执行以下 3 个步骤:

1.部署代理 – 部署 DataSync 代理,并通过管理控制台或 API 将其关联到您的 AWS 账户。代理将用于访问您的 NFS 服务器,以从中读取数据或向其写入数据。

2.创建数据传输任务 – 通过指定您的数据源位置和目标位置以及您要用于配置传输的任何选项(如复制文件元数据)来创建任务。

3.开始传输 – 启动任务并在控制台中或使用 Amazon CloudWatch 监控数据移动。

问:我如何启动 DataSync 任务?

答:当您通过 AWS 管理控制台AWS Command Line Interface (CLI) 启动任务时,DataSync 将复制数据。每次任务运行时,它都将扫描源是否存在更改,并复制源与目标之间的任何差异。​您可以配置源的哪些特性用于确定更改的内容,定义要包括和排除特定文件或文件夹的筛选条件,以及控制是否应从目标中删除在源中找不到的文件或对象。

问:DataSync 如何执行数据完整性验证?

答:DataSync 在传输期间和传输结束时执行数据完整性验证(源文件和目标文件之间的校验和比较,以及文件元数据比较)。

问:如何监控 DataSync 正在传输的数据的状态?

答:您可以使用 AWS 管理控制台或 CLI 来监控正在传输的数据的状态。利用 Amazon CloudWatch 指标,您可以查看已复制的文件数和数据量。Amazon CloudWatch Logs 可用于获取详细的错误信息。此外,在任务处于传输状态时将触发 CloudWatch Events,从而实现从属工作流的自动化。您可以在 AWS 管理控制台或 CLI 中找到其他信息(如传输进度)。

问:从 Amazon S3 传入或传出文件时,DataSync 如何在文件和对象之间映射?

问:将文件复制到对象时,在文件和对象之间存在一对一关系。文件系统元数据存储在 S3 用户元数据中。当包含文件系统元数据的对象被复制回文件时,将还原元数据。

问:在传输数据时,DataSync 将保留哪些元数据?

答:DataSync 将保留 POSIX 元数据(如用户 ID、组 ID 和权限),从而确保可将文件还原至相应的原始位置,而不会丢失此元数据。此外,为 S3 中的对象存储文件中的 POSIX 元数据时,元数据可与文件网关互操作。

问:是否可以通过 DataSync 使用版本控制、生命周期、跨区域复制和 S3 事件通知?

答:可以。您的版本控制、生命周期管理、跨区域复制和 S3 事件通知的存储桶策略可直接应用于通过 DataSync 传输到您的存储桶中的对象。

使用版本控制时,请注意,对对象元数据的更改将创建对象的新版本。

您可以使用 S3 生命周期策略来更改对象的存储层,或者删除旧对象或对象版本。

问:如果 DataSync 任务中断,会发生什么情况?

答:如果任务中断(例如,如果网络连接断开或 DataSync 代理重新启动),则将在下次运行任务时传输缺失的文件,并且数据将在此运行结束时保持完整和一致性。每次启动任务时,它都将执行增量复制,仅向目标传输源中所做的更改。

问:我能否将 DataSync 与 AWS Direct Connect 结合使用?

答:可以。您可以将 DataSync 与 Direct Connect 链接结合使用,访问公有互联网终端节点,而无需进行任何特殊配置。

问:DataSync 在传输文件时是否保留源目录结构?

答:是的,在传输文件时,DataSync 在目标位置创建与源位置中的结构类似的目录结构。

性能

问:DataSync 将我的文件系统复制到 AWS 有多快?

答:DataSync 复制给定数据集的速率需综合考虑数据量、源和目标存储可达到的 I/O 带宽、可用的网络带宽,以及网络条件。单个 DataSync 代理可占用 10Gbps 的网络链接。

问:我能否控制 DataSync 任务使用的网络带宽量?

答:能。通过配置内置带宽限制,您可以控制 DataSync 将使用的网络带宽量。这有助于最大限度地降低对依赖于同一网络连接的其他用户或应用程序的影响。

问:DataSync 是否会影响我的源文件系统的性能?

答:根据您的本地文件存储的功能,以及要传输文件的数量和大小,DataSync 可能会在访问同一源数据存储时,影响其他客户端的响应时间,因为代理将从该存储系统读取或写入数据。为任务配置带宽限制会减少此影响,因为它限制存储系统的 I/O。

安全性与合规性

问:我的数据在传输和存储过程中是否加密?

答:是的。在源和目标之间传输的所有数据都通过传输层安全性(TLS,它替代了安全套接字层 (SSL))加密。数据从来不保留在 DataSync 中。该服务支持使用 S3 存储桶的默认加密静态数据的 Amazon EFS 文件系统加密

问:DataSync 如何访问我的 EFS 文件系统?

答:DataSync 使用您部署到 IT 环境或 Amazon EC2 的代理,通过 NFS 协议访问您的文件系统。这些代理连接到 AWS 中的 DataSync 服务终端节点,一旦激活,就可以从 AWS 管理控制台或 CLI 安全地进行管理。将数据复制到本地或从中复制数据时,无需设置 VPN/隧道或允许入站连接,且可将代理配置为使用标准网络端口穿过防火墙。

问:DataSync 如何访问我的 Amazon S3 存储桶?

答:DataSync 使用您配置的 IAM 角色访问您的 Amazon S3 存储桶。

问:DataSync 如何访问我的 Amazon EFS 文件系统?

答:DataSync 使用 NFS 协议访问您的 Amazon EFS 文件系统。它通过 DataSync 服务托管的弹性网络接口 (ENI) 在 VPC 中挂载您的文件系统,实现此操作。DataSync 代表您完全管理这些 ENI 的创建、使用和删除。

问:DataSync 支持哪些合规性计划?

答:AWS 在云中拥有运行时间最长的合规性计划,并致力于帮助客户满足其要求。已对 DataSync 进行了评估,以满足全球和行业安全标准。除了符合 HIPAA 要求以外,它还符合 PCI DSS、ISO 90012700127017 27018,以及 SOC 1、2 和 3。这使您能够更轻松地验证我们的安全性,并履行您自己的义务。有关更多信息和资源,请访问我们的合规性页面。您也可以转到按合规性计划划分的服务范围页面,查看服务和认证的完整列表。

问:DataSync PCI 是否合规?

答:是。DataSync 符合 PCI-DSS,这意味着您可以使用它来传输付款信息。您可以在 AWS Artifact 中下载 PCI 合规性文件包,以详细了解如何针对 AWS 实现 PCI 合规性。

问:DataSync 是否符合 HIPAA 要求?

答:是。DataSync 符合 HIPAA 要求,这意味着如果您有适用于 AWS 的 HIPAA BAA,则可以使用 DataSync 来传输受保护的健康信息 (PHI)。

何时选择 AWS DataSync

问:DataSync 与使用 rsync 或 S3 sync 等命令行工具有何不同?

答:与围绕命令行工具构建的 DIY 解决方案相比,DataSync 提供自动化、完全托管的数据传输。它使用专用网络协议和扩展架构,以高达 10 倍的速度传输数据。

具体来说,DataSync 实现了数据传输的完全自动化。它具有内置的重试和网络弹性机制,通过 DataSync API 和控制台进行监控;利用 CloudWatch 指标、事件和日志,您可以准确了解传输过程。DataSync 在传输期间和传输结束时都执行数据完整性验证。该服务还支持灵活配置以满足您的特定需求,包括带宽限制、复制源权限和元数据等。

DataSync 提供端到端安全性:源和目标之间传输的所有数据都通过 TLS 加密,并通过内置的 AWS 安全机制(如 IAM 角色)启用对 AWS 存储的访问。

问:如何在 AWS DataSync 和 AWS Snowball Edge 之间进行取舍?

答:AWS Snowball Edge 适合不需要立即使用 AWS 中的数据、受带宽限制或从偏远、断开连接或严峻的环境中传输数据的客户。对于需要在线迁移活动数据集、及时传输持续生成的数据,或复制用以实现业务连续性的客户,DataSync 是理想之选。

问:如何在 AWS DataSync 和 AWS Storage Gateway 之间进行选择?

答:如果您希望在本地和 AWS 存储(如 S3 或 EFS)之间传输数据,请使用 DataSync。DataSync 通常用于存储迁移,或从本地设备(如摄像头和仪器)及时重复传输数据,以便在 AWS 中进行处理。如果您希望从本地以低延迟访问 AWS 中的数据,则使用 AWS Storage Gateway。Storage Gateway 通常用于备份、混合工作负载、对延迟敏感的本地应用程序、跨办公室的内容分发,以及对 S3 中对象基于文件的访问。

结合使用 DataSync 和 Storage Gateway 的文件网关配置,您可以快速将本地存储移动到 AWS,同时保留对延迟敏感的应用程序的本地访问。

问:如何在 AWS DataSync 和 Amazon S3 Transfer Acceleration 之间进行取舍?

答:如果您的应用程序已经与 Amazon S3 API 集成,并且您在向 S3 传输大型文件时需要更高的吞吐量,则可以使用 S3 Transfer Acceleration。如果您想要从现有存储系统(例如网络附带的存储)或从无法更改的仪器(例如 DNA 顺序分析仪、摄像机)传输数据,或者如果您想要使用多个目标位置,则可以使用 DataSync。此外,通过提供内置重试和网络弹性机制、数据完整性验证与灵活配置等额外功能,满足您的特定需求,包括带宽限制、复制源权限和元数据等,DataSync 还可以自动化并简化数据传输。

问:如何在 AWS DataSync 和 AWS Transfer for SFTP 之间进行取舍?

答:如果您当前使用 SFTP 与第三方交换数据,则 Transfer for SFTP 提供可直接传入和传出 Amazon S3 的完全托管 SFTP 传输,同时减少您的运营负担。

如果您希望在 NFS、Amazon S3 和 Amazon EFS 之间进行加速的自动化数据传输,则可以使用 DataSync。对于需要在线迁移活动数据集、及时传输持续生成的数据,或复制用以实现业务连续性的客户,DataSync 是理想之选。 

使用 DataSync 进行迁移

问:如何使用 DataSync 进行迁移?

答:您可以使用 DataSync 从本地存储迁移到 Amazon S3、Amazon EFS 和 WorkDocs。您可以在此处了解有关建议迁移流程的更多信息。

问:如何使用 DataSync 迁移到 WorkDocs?

答:DataSync 属于 WorkDocs 迁移服务。DataSync 使主目录和部门共享迁移到 WorkDocs 变得更加容易和快捷。

详细了解 DataSync 定价
了解有关定价的更多信息

AWS DataSync 具有简单、可预测且基于使用量的定价;只对您所复制的数据量付费。 

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中使用 DataSync
开始在控制台中移动数据

在 AWS 控制台中开始使用 AWS DataSync 进行构建。

登录