一般性问题

AWS DataSync 是一项在线数据移动和发现服务,可简化和加速向 AWS 的数据迁移,以及与本地存储、边缘站点、其他云提供商和 AWS 存储之间的数据移动。

AWS DataSync 数据查找服务通过让您了解本地存储性能和利用率,并提供将数据迁移到 AWS 存储服务的建议,帮助您简化迁移规划并加快向 AWS 的数据迁移。DataSync 查找服务使您能够通过自动数据收集和分析更好地了解您的本地存储性能和容量使用情况,从而能够快速识别要迁移的数据,并使用生成的建议来选择符合您的性能和容量需求的 AWS 存储服务。

对于在线数据传输,AWS DataSync 可简化、自动化和加速本地存储、边缘站点、其他云提供商和 AWS 存储服务之间的大量数据复制。DataSync 可以在网络文件系统(NFS)共享、服务器消息块(SMB)共享、Hadoop Distributed File System(HDFS)、自行管理的对象存储、其他云中的对象存储(如 Google Cloud Storage 和 Wasabi Cloud Storage(请参阅支持云的完整列表))、Azure Files、Azure Blob Storage(包括 Azure Data Lake Storage Gen2)、Snow 上的 Amazon S3 兼容存储、Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System(Amazon EFS)文件系统、适用于 Windows File Server 的 Amazon FSx 文件系统、 文件系统 文件系统和适用于 NetApp ONTAP 的 Amazon FSx 文件系统之间复制数据。

AWS DataSync 使您能够安全、快速地发现和移动数据。使用 DataSync Discovery,您可以更好地了解本地存储利用率和接收建议,以告知您的成本估算和迁移到 AWS 的计划。如需数据移动,您可以使用 DataSync 复制包含数百万文件的大型数据集,而无需使用开源工具构建自定义解决方案,也无需许可和管理价格高昂的商业网络加速软件。您可以使用 DataSync 将现用数据集迁移到 AWS,将数据传输到云进行分析和处理,还可以存档数据以释放本地存储容量,或者将数据复制到 AWS 以实现业务连续性。

AWS DataSync 可降低在线数据传输的复杂性和成本,从而简化与本地存储、边缘站点、其他云提供商和 AWS 存储服务之间的数据集传输。DataSync 以 HDFS 客户的身份使用标准存储协议(NFS、SMB)、使用 Amazon S3 API 或使用其他云存储 API 连接现有的存储系统和数据来源。它使用专用网络协议和扩展架构,以加速存储系统与 AWS 服务之间的数据传输。DataSync 可处理以下任务:移动文件和对象、计划数据传输、监控传输进度、加密、验证数据传输并在出现问题时通知您。

AWS DataSync 可降低在线数据传输的复杂性和成本,从而简化与本地存储、边缘站点、其他云提供商和 AWS 存储服务之间的数据集传输。DataSync 以 HDFS 客户的身份使用标准存储协议(NFS、SMB)、使用 Amazon S3 API 或使用其他云存储 API 连接现有的存储系统和数据来源。它使用专用网络协议和扩展架构,以加速存储系统与 AWS 服务之间的数据传输。DataSync 可处理以下任务:移动文件和对象、计划数据传输、监控传输进度、加密、验证数据传输并在出现问题时通知您。

发现

AWS DataSync Discovery 目前支持运行 ONTAP 9.7 或更高版本的 NetApp FAS 和 AFF 系列阵列。随着时间的推移,将增加对其他存储系统的支持。

AWS DataSync Discovery 使用您的存储管理 API 界面来收集有关存储系统的信息以及性能和利用率指标。系统信息包括总存储容量、卷配置、导出/共享名称等属性。存储系统指标包括卷吞吐量和 IOPS 等性能以及已分配和已使用容量等利用率指标。DataSync Discovery 使用收集的系统信息和指标来生成迁移到 AWS 存储的建议。

AWS DataSync Discovery 会分析从本地存储系统收集的数据,并将其与 AWS 存储服务的功能、容量和性能进行匹配。在适当的情况下,DataSync Discovery 将推荐一种或多种 AWS 存储服务供您考虑。

将 AWS DataSync Discovery 用于本地存储系统时,不会对用户和应用程序产生明显影响。

收集的数据将由 DataSync 服务进行存储和管理。可以在 AWS DataSync 控制台中查看数据,也可以使用 AWS CLI 或 AWS 软件开发工具包(SDK)访问数据。

收集的数据和建议将在发现作业结束后保留 60 天。

数据移动

DataSync 支持以下存储位置类型:网络文件系统(NFS)共享、服务器消息块(SMB)共享、Hadoop Distributed File System(HDFS)、自行管理的对象存储、其他云中的对象存储(如 Google Cloud Storage 和 Wasabi Cloud Storage(请参阅支持云的完整列表))、Azure Files、Azure Blob Storage(包括 Azure Data Lake Storage Gen2)、Snow 上的 Amazon S3 兼容存储、Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System(Amazon EFS)文件系统、适用于 Windows File Server 的 Amazon FSx 文件系统、适用于 Lustre 的 Amazon FSx 文件系统、适用于 OpenZFS 的 Amazon FSx 文件系统和适用于 NetApp ONTAP 的 Amazon FSx 文件系统。

您可以使用 AWS DataSync 将位于本地、边缘或其他云中的数据迁移到 Amazon S3、Amazon EFS、适用于 Windows File Server 的 Amazon FSx、适用于 Lustre 的 Amazon FSx、适用于 OpenZFS 的 Amazon FSx 和 适用于 NetApp ONTAP 的 Amazon FSx。配置 DataSync 以生成整个数据集的初始副本,并计划更改数据的后续增量传输,直到完成从本地到 AWS 的最后切换。DataSync 包括加密和完整性验证,有助于确保数据安全到达、完好无损且可随时使用。为了将对依赖于您网络连接的工作负载的影响降到最低,您可以将迁移安排在非工作时间运行,或通过配置内置带宽限制来限制 DataSync 使用的网络带宽量。 DataSync 保留具有相似元数据结构的存储系统之间的元数据,以支持最终用户和应用程序平稳过渡到使用目标 AWS 存储服务。

阅读存储博客“使用 AWS DataSync 迁移存储”,了解有关迁移最佳实践和提示的更多信息。

您可以使用 AWS DataSync 将冷数据直接从本地存储系统移动到持久且安全的长期存储空间,例如 Amazon S3 Glacier Flexible Retrieval(原 S3 Glacier)或 Amazon S3 Glacier Deep Archive。使用 DataSync 的排除筛选条件排除临时文件和文件夹的复制,或使用包含筛选条件清单仅从源位置复制文件的子集。您可以根据需求选择最具成本效益的存储服务:将数据传输到任何 S3 存储类,或组合使用 DataSync 和 EFS 生命周期管理将数据存储在 Amazon EFS 不频繁访问存储类(EFS IA)中。使用内置的任务计划功能定期存档应保留的数据,以满足合规性或审计目的,例如日志、原始影像或电子版医疗记录。 

利用 AWS DataSync,您可以定期将文件复制到 Amazon S3 存储类中,或针对备用文件系统将数据发送到 Amazon EFS、适用于 Windows File Server 的 Amazon FSx、适用于 Lustre 的 Amazon FSx、适用于 OpenZFS 的 Amazon FSx 或 适用于 NetApp ONTAP 的 Amazon FSx。使用内置的任务计划功能,确保对数据集的更改可定期复制到您的目标存储中。阅读这篇 AWS 存储博客,了解有关使用 AWS DataSync 进行数据保护的更多信息

您可以使用 AWS DataSync 将本地系统中的数据持续传入或传出 AWS 以进行处理。DataSync 可以帮助需要将现用文件快速移动到 AWS 的行业加快关键混合云存储工作流程。这包括在生命科学领域的机器学习、媒体和娱乐领域的视频制作、金融服务领域的大数据分析以及石油天然气领域的地震研究。DataSync 有助于实现及时交付以确保不会延迟相关流程。您可以指定包含和排除筛选条件清单,以指定每次任务运行时应传输哪些文件或对象。

符合。借助 AWS DataSync,您可以使用 Amazon S3 API 从 Google Cloud Storage 复制数据、使用 SMB 协议从 Azure Files 复制数据,或者从 Azure Blob Storage(包括 Azure Data Lake Storage Gen 2)复制数据。您还可以从其他云存储中移动数据,例如 Wasabi Cloud Storage、Oracle Cloud Storage、Cloudflare R2 Storage、DigitalOcean Spaces 和 Backblaze B2 Cloud Storage(请参阅支持云的完整列表)。 在您的云环境中或 Amazon EC2 上部署 DataSync 代理,然后创建源和目标位置,即可启动任务以开始复制数据。 详细了解适用于混合和多云环境的 AWS 解决方案。

符合。借助 AWS DataSync,您可以将本地数据集或其他云中的数据自动传输到 Amazon S3,进而轻松构建数据湖。DataSync 支持以 HDFS 客户端的身份使用标准存储协议(NFS 或 SMB)、使用 Amazon S3 API 或使用其他云存储 API 简单快速地传输整个数据集。初始数据集传输完毕之后,可以安排新数据到 AWS 的后续传输。DataSync 包含加密和完整性验证功能,可帮助确保数据安全到达、完好无损且可随时使用。为了将对依赖于您网络连接的工作负载的影响降到最低,您可以将传输任务安排在非工作时间运行,或通过配置内置带宽限制来限制 DataSync 使用的网络带宽量。将数据传输到 Amazon S3 后,您就可以使用原生 AWS 服务运行大数据分析、人工智能 (AI)、机器学习 (ML)、高性能计算 (HPC) 和媒体数据处理应用程序,以便从非结构化数据集中获得洞察信息。 阅读 AWS 湖内数仓存储网页了解有关构建和利用湖内数仓的更多信息。

您可以使用 DataSync 在同一个 AWS 账户内的 Amazon S3、Amazon EFS、适用于 Windows File Server 的 Amazon FSx、适用于 Lustre 的 Amazon FSx、适用于 OpenZFS 的 Amazon FSx 或适用于 NetApp ONTAP 的 Amazon FSx 之间传输文件或对象。您可以在同一个 AWS 区域中的 AWS 服务之间,除中国以外的不同商业 AWS 区域的服务之间或 AWS GovCloud(美国东部和美国西部)区域之间传输数据。此过程不需要部署 DataSync 代理,并且可以使用 AWS DataSync 控制台、AWS 命令行界面 (CLI) 或 AWS 软件开发工具包 (SDK) 进行端到端配置。

符合。AWS DataSync 通过自动执行文件到用于迁移的 Amazon S3 存储桶的上传加快 Amazon WorkDocs 迁移服务的所需步骤。DataSync 使您可以更加轻松快速地将主目录和部门共享内容迁移到 WorkDocs。 要了解有关使用 DataSync 迁移到 WorkDocs 的更多信息,请阅读博客“使用 AWS DataSync 将网络共享文件迁移到 Amazon WorkDocs”。

使用情况

首先将 AWS DataSync 代理部署到本地 VM 环境中。 使用 DataSync 控制台、CLI 或软件开发工具包,将 DataSync Discovery 配置为连接到您的本地存储,然后运行发现作业以收集有关存储系统的数据,包括性能、容量和利用率指标。发现作业运行时,可以从 DataSync 控制台的控制面板中查看有关您的存储系统的信息。发现作业完成后,系统会分析收集的数据以生成有关迁移到 Amazon EFS、Amazon FSx 和 Amazon S3 等 AWS 存储服务的建议。这些建议可用于指导您选择 AWS 存储服务,然后您可以使用 AWS DataSync 迁移数据。

您可以在 AWS 管理控制台中单击几下或通过 AWS 命令行界面(CLI),使用 AWS DataSync 传输数据。要开始使用,请执行下列 3 个步骤:

1.要在本地、边缘或其他云存储系统与 AWS 存储服务之间传输数据,请部署代理。部署 DataSync 代理并通过管理控制台或 API 将该代理与您的 AWS 账户关联。代理将用于访问您的 NFS 服务器、SMB 文件共享、Hadoop 集群或自行管理的或云对象存储,以从中读取数据或向其写入数据。 在同一个 AWS 账户的 AWS 存储服务之间传输数据不需要部署代理。

2.创建数据传输任务 – 通过指定您的数据来源位置和目标位置以及您要用于配置传输的任何选项(例如安排任务和启用任务报告)来创建任务。

3.开始传输 — 启动任务,在控制台或 Amazon CloudWatch 中监控数据移动,并使用任务报告审核传输任务。

您可以将 AWS DataSync 代理部署到本地虚拟机监控程序、公有云环境或 Amazon EC2 中。要将数据复制到本地文件服务器或从中复制数据,请从 AWS 管理控制台或 Snow 上的 Amazon S3 兼容存储下载代理虚拟机镜像,并将其部署到本地 VMware ESXi、Linux 基于内核的虚拟机 (KVM) 或 Microsoft Hyper-V 监控程序中。必须部署代理,以便其可以使用 NFS、SMB 协议访问您的文件服务器,访问您的 Hadoop 集群中的 NameNodes 和 DataNodes,或者使用Amazon S3 API 访问您的对象存储。 要设置您的 S3 on AWS Outposts 存储桶与 AWS 区域中的 S3 存储桶之间的传输,请在 Outpost 上部署代理

在公有云环境和 AWS 存储之间复制数据时,您可以在您的云环境中部署 DataSync 代理,也可以在 Amazon EC2 上部署 DataSync 代理。由于 AWS DataSync 会压缩在 AWS DataSync 代理和 AWS 存储服务之间传输的数据,因此您可以通过在公有云环境中部署 AWS DataSync 代理来降低出站费用。 

在同一个 AWS 账户的 AWS 存储服务之间传输数据不需要部署代理。要将数据复制到自行管理的云内文件服务器或从中复制数据,或在不同 AWS 账户中的 AWS 存储服务之间复制数据,您可以使用 DataSync 代理 AMI 启动 Amazon EC2 实例。

您可以在此处查找运行代理所需的最少资源。

当您通过 AWS 管理控制台AWS 命令行界面(CLI)启动任务时,AWS DataSync 将复制数据。每次任务运行时,它都将扫描源和目标是否存在更改,并复制源与目标之间的任何数据和元数据差异。您可以配置源的哪些特性用于确定更改的内容,定义包含和排除筛选条件清单以传输特定的文件和对象数据,以及控制是否应在源发生更改时覆盖目标中的文件或对象,或在源中找不到时删除它们。

基本模式任务受数据集中文件和对象数量的配额限制。基本模式按顺序准备、传输和验证数据集中的文件和对象,因此对于大多数工作负载来说,它的速度比增强模式慢。使用增强模式,您可以传输包含几乎无限数量的对象的数据集,且性能高于基本模式。增强模式任务通过并行列出、准备、传输和验证数据来优化和简化数据传输过程。您还可以获得增强的指标和报告功能,从而更轻松地跟踪和管理大型数据传输。增强模式目前可用于 Amazon S3 站点之间的传输。基本模式支持目前可用的所有 DataSync 站点类型。有关任务模式之间差异的详细列表,请参阅 DataSync 文档。有关任务模式之间定价的差异,请参阅 DataSync 定价页面

当 AWS DataSync 传输和存储数据时,它将执行完整性检查,以确保写入目标的数据与从源读取的数据相匹配。此外,可以选择性地执行验证检查来在传输结束时对比源和目标。 DataSync 将计算和对比源和目标中存储的数据的完整文件校验和。您可以检查整个数据集或仅检查 DataSync 传输的文件或对象。

您可以使用任务报告,通过验证所有任务执行中的传输操作来审核数据传输过程。通过使用任务报告,您可以获得一份摘要报告,以及每次执行任务时传输、跳过、验证和删除的所有文件的详细报告。任务报告为您提供传输的文件总数和总字节数,并包括诸如大小、路径、时间戳、文件校验和和对象版本 ID(如适用)等文件属性。您还可以利用 AWS Glue、Amazon Athena 和 Amazon QuickSight 自动对任务报告进行分类、查询和可视化,从而获得对数据传输过程的重要见解。

您可以使用 AWS 管理控制台或 CLI 来监控正在传输的数据的状态和进度。利用 Amazon CloudWatch 指标,您可以查看已复制的文件数和数据量。 您还可以将单个文件记录到 CloudWatch Logs,以识别在给定时间传输的内容,以及 DataSync 执行的内容完整性验证结果。

这些解决方案共同简化了审计、监控、报告和故障排除,使您能够及时向利益相关者提供最新信息。

符合。您可以指定排除筛选条件和/或包含筛选条件,以限制每次运行任务时传输的文件、文件夹或对象。或者,可以使用清单来指定应从源位置传输的文件或对象的子集。

包含筛选条件指定在任务运行时应包含的文件和文件夹路径或对象密钥,并限制 DataSync 在源和目标上扫描的范围。排除筛选条件指定应从复制中排除的文件和文件夹路径或对象密钥。  创建或更新任务时,您可以配置排除和包含筛选条件。启动任务时,您可以覆盖和更新在任务上配置的筛选条件。请阅读这篇 AWS 存储博客,详细了解如何将常见筛选器与 DataSync 结合使用。

清单是一个 CSV 格式的文件,它列出了在任务运行时应包含的文件路径或对象密钥,并限制 DataSync 在源和目标上扫描的范围。创建或更新任务时,可以提供包含数百万个源文件或对象的清单文件,DataSync 将仅比较和传输清单中列出的文件。启动任务时,可以覆盖和更新清单文件。从 Amazon S3 复制数据时,还可以指定要传输的每个对象的可选 S3 版本 ID。有关更多详情,请阅读此博客

请注意,筛选条件和清单不能一起使用。

清单是要从源位置传输的文件或对象的显式列表,而包含筛选条件是指定要从源传输的文件和文件夹模式的字符串。仅复制与筛选条件中的模式匹配的文件和文件夹。模式可以是整个文件或文件夹路径,也可以是以通配符(*)字符结尾的前缀,表示应复制与该前缀匹配的所有文件或对象。包含筛选条件非常适合只想复制一小组文件或对象或几个特定文件夹的客户。如果客户有已知的数据集,例如作为自动化工作流程一部分迁移的数据集,则可以使用清单来避免为了确定更改而扫描整个文件或对象存储系统。使用清单文件,客户可以指定要传输的数百万个源文件或对象,而 DataSync 将仅比较清单中列出的文件。客户还可以使用清单从 Amazon S3 存储桶中复制特定版本的对象。

符合。您可以使用 AWS DataSync 控制台或 AWS 命令行界面 (CLI) 来计划任务,而不必编写和运行脚本来管理重复的传输。任务计划会根据您配置的计划按照控制台中直接提供的每小时、每天或每周选项来自动运行任务。这能够帮助您确保您数据集的更改会自动被检测并复制到您的目标存储中。

符合。在传输文件时,AWS DataSync 在目标位置创建与源位置中的结构相同的目录结构。

如果任务中断(例如,如果网络连接断开或 AWS DataSync 代理重新启动),则将在下次运行任务时传输缺失的文件,并且数据将在此运行结束时保持完整性和一致性。每次启动任务时,它都将执行增量复制,仅向目标传输源中所做的更改。

您可以将 AWS DataSync 与 Direct Connect 链接结合使用,以访问公共服务终端节点或私有 VPC 终端节点。使用 VPC 端点时,在 DataSync 代理和 AWS 服务之间传输的数据不需要访问公有互联网,也不需要公有 IP 地址,这增加了在网络上复制数据时的安全性。 DataSync Discovery 目前仅支持公有服务端点。

是的,数据移动用例支持 VPC 端点。您可以使用 VPC 端点来确保在本地或云中部署的 AWS DataSync 代理之间传输的数据不会访问公有互联网或需要公有 IP 地址。使用 VPC 端点在 Amazon Virtual Private Cloud(Amazon VPC)中保持网络流量,从而提高数据的安全性。 适用于 DataSync 的 VPC 端点由高度可用的可扩展技术 AWS PrivateLink 提供支持,允许您将 VPC 私密连接到受支持的 AWS 服务。

要将 VPC 终端节点与 AWS DataSync 结合使用,您可以在选择的 VPC 中为 DataSync 服务创建一个 AWS PrivateLink 接口 VPC 终端节点,然后在创建 DataSync 代理时选择此终端节点弹性网络接口(ENI)。您的代理将连接到此 ENI 以激活,随后由该代理传输的所有数据都将保持在您配置的 VPC 中。您可以使用 AWS DataSync 控制台、AWS 命令行界面 (CLI) 或 AWS 开发工具包配置 VPC 终端节点。要了解更多信息,请参阅 在 Virtual Private Cloud 中使用 AWS DataSync

从 AWS 存储移出或向其移入数据

AWS DataSync 支持将数据移入、移出或在 Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System (Amazon EFS)适用于 Windows File Server 的 Amazon FSx适用于 Lustre 的 Amazon FSx适用于 OpenZFS 的 Amazon FSx适用于 NetApp ONTAP 的 Amazon FSx 之间移动。

符合。将 S3 存储桶配置为用于 AWS DataSync 时,您可以选择 DataSync 用于存储对象的 S3 存储类。DataSync 支持将数据直接存储到 S3 Standard、S3 Intelligent-Tiering、S3 Standard-Infrequent Access(S3 Standard-IA)、S3 One Zone-Infrequent Access(S3 One Zone-IA)、Amazon S3 Glacier Instant Retrieval、Amazon S3 Glacier Flexible Retrieval 和 Amazon S3 Glacier Deep Archive(S3 Glacier Deep Archive)。有关 Amazon S3 存储类的更多信息,请参阅 Amazon Simple Storage Service 开发人员指南

比每个对象的最小收费容量小的对象将存储在 S3 Standard 中。例如,大小为零字节且只保存元数据的文件夹对象将存储在 S3 Standard 中。在我们的文档中阅读有关使用 Amazon S3 存储类的注意事项以及评估使用 DataSync 的 S3 请求成本的内容。有关最低收费容量的更多信息,请参阅 Amazon S3 定价

符合。将 S3 用作 AWS DataSync 任务的源位置时,服务将从需要复制到目标的存储桶中检索所有对象。从 S3 Standard-IA 和 S3 One Zone-IA 存储检索对象将产生检索费用,具体费用取决于对象大小。在我们的文档中阅读使用 Amazon S3 存储类的注意事项

将 S3 用作 AWS DataSync 任务的源位置时,服务将尝试从需要复制到目标的存储桶中检索所有对象。检索在 S3 Glacier Instant Retrieval 存储类中存档的对象时,对象越大,检索费用越高。检索存档在 S3 Glacier Flexible Retrieval 或 S3 Glacier Deep Archive 存储类别中的对象将导致错误。检索存档对象时发生的任何错误将由 DataSync 记录,并且会导致任务完成失败的状态。请在我们的文档中阅读有关使用 Amazon S3 存储类的注意事项以及评估使用 DataSync 的 S3 请求成本的内容。

AWS DataSync 承担了您提供的 IAM 角色。您附加到角色的策略可决定该角色可以执行哪些操作。DataSync 可以代表您自动生成该角色,您也可以手动配置角色

将文件或文件夹复制到 Amazon S3 时,文件或文件夹与对象之间存在一对一关系。文件和文件夹时间戳和 POSIX 权限,包括用户 ID、组 ID 和权限,均存储在 S3 用户元数据中。对于 NFS 共享,存储在 S3 用户元数据中的文件元数据可与文件网关完全互操作,从而提供对 AWS DataSync 存储在 Amazon S3 中的数据的本地文件访问。

当 DataSync 将包含此用户元数据的对象复制回 NFS 服务器时,系统将恢复文件元数据。从 NFS 复制回 S3 时,符号链接和硬链接也会存储。

从 SMB 文件共享复制时,默认 POSIX 权限存储在 S3 用户元数据中。当复制回 SMB 文件共享时,所有权将根据在 DataSync 中配置以访问该文件共享的用户进行设置,并且分配默认权限。

从 HDFS 复制时,文件和文件夹时间戳、用户和组所有权以及 POSIX 权限都存储在 S3 用户元数据中。从 Amazon S3 复制回 HDFS 时,将存储文件和文件夹元数据。
 

在我们的文档中了解有关 DataSync 如何存储文件和元数据的更多信息。

在自行管理的对象存储或 Azure Blob Storage 与 Amazon S3 之间传输对象时,DataSync 会将对象与对象元数据和标签一起复制。

在 Amazon S3 存储桶之间传输对象时,DataSync 会将对象与对象元数据和标签一起复制。DataSync 不会复制其他对象信息,如对象 ACL 或以前的对象版本。

有些 S3 存储类会产生可能会影响您的费用的行为,如数据检索、最低存储容量和最小存储持续时间。DataSync 会通过自动管理数据来解决这些因素,并会提供设置来最大限度减少数据检索。

为避免每个对象的最低容量费用,AWS DataSync 将自动在 S3 Standard 中存储小型对象。为将数据检索费用降到最低,您可以将 DataSync 配置为仅验证由指定任务传输的文件。为避免最低存储持续时间费用,DataSync 可对覆盖和删除对象进行控制。在我们的文档中阅读有关使用 Amazon S3 存储类的成本注意事项以及评估使用 DataSync 的 S3 请求成本的内容。

符合。您可以在 AWS Outposts 上的 Amazon S3 和 AWS 区域中的 Amazon S3 存储桶之间复制对象。AWS DataSync 复制对象以及对象元数据和对象标签。为了使 DataSync 能够访问 Outposts 存储桶上的 Amazon S3,请在 Outpost 上部署 DataSync EC2 代理

将 DataSync 与 Outposts 上的 Amazon S3 结合使用时,仅可从 AWS 区域中的 Amazon S3 存储桶传出或向其中传入数据。您可以在我们的文档中了解有关 DataSync 任务的受支持的来源和目标的更多信息。

AWS DataSync 使用 NFS 协议访问您的 Amazon EFS 文件系统。DataSync 服务通过其托管的弹性网络接口(ENI)在 VPC 中挂载您的文件系统。DataSync 代表您完全管理这些 ENI 的创建、使用和删除。 您可以选择使用挂载目标或 EFS 接入点挂载自己的 EFS 文件系统。

符合。您可以使用 AWS DataSync 将文件复制到 Amazon EFS 中,还可以将 EFS 生命周期管理配置为将一段时期内未访问的文件迁移到不频繁访问(IA)存储类。

您可以同时使用 IAM 身份策略和资源策略,以可扩展且针对云环境优化的方式控制客户端对 Amazon EFS 资源的访问。当您为 EFS 文件系统创建 DataSync 位置时,可以指定访问 EFS 时 DataSync 将代入的 IAM 角色。然后,您可以使用 EFS 文件系统策略配置对该 IAM 角色的访问。由于 DataSync 作为根用户挂载 EFS 文件系统,因此您的 IAM 策略必须允许下列操作:elasticfilesystem:ClientRootAccess。

符合。除了 Amazon EFS 提供的内置复制功能,您还可以使用 AWS DataSync 将您的 Amazon EFS 文件系统定期复制计划到同一个 AWS 账户内的第二个 Amazon EFS 文件系统中。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

AWS DataSync 会复制文件和文件夹时间戳和 POSIX 权限,包括用户 ID、组 ID 和权限。您可以在我们的文档中了解更多信息,并查看已复制元数据的完整列表。

AWS DataSync 会复制文件和文件夹时间戳以及 POSIX 权限,并使用用户 ID 和组 ID 的默认值。您可以在我们的文档中了解更多信息,并查看已复制元数据的完整列表。

AWS DataSync 使用 SMB 协议访问您的适用于 Windows File Server 的 Amazon FSx 文件系统,通过您在 AWS 管理控制台或 CLI 中配置的用户名和密码进行身份验证。DataSync 服务通过其托管的弹性网络接口(ENI)在 VPC 中挂载您的文件系统。DataSync 代表您完全管理这些 ENI 的创建、使用和删除。

AWS DataSync 复制 Windows 元数据,包括文件时间戳、文件拥有者、标准文件属性、NTFS 自由决定访问列表(DACL)和 NTFS 系统权限管控列表(SACL)。 您可以在我们的文档中了解更多信息,并查看已复制元数据的完整列表。

符合。您可以使用 AWS DataSync 将您的 Amazon FSx for Windows File Server 文件系统定期复制计划到同一个 AWS 账户内的第二个文件系统中。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

当您创建 DataSync 任务以向 FSx for Lustre 文件系统进行复制或从中进行复制时,DataSync 服务将在您的文件系统所处的相同 VPC 和子网中创建弹性网络接口(ENI)。  DataSync 使用这些 ENI 在将 Lustre 协议用作根用户的情况下访问您的 FSx for Lustre 文件系统。  当您为 FSx for Lustre 文件系统创建 DataSync 位置资源时,您最多可以指定五个安全组应用于 ENI,并从 DataSync 服务配置出站访问。  必须将安全组配置为允许 FSx for Lustre 所需的网络端口上的出站流量。  FSx for Lustre 文件系统上的安全组应被配置为允许从您分配给 FSx for Lustre 文件系统的 DataSync 位置资源的安全组进行入站访问。

AWS DataSync 会复制文件和文件夹时间戳和 POSIX 权限,包括用户 ID、组 ID 和权限。您可以在我们的文档中了解更多信息,并查看已复制元数据的完整列表。

符合。您可以使用 AWS DataSync 将数据从您的 FSx for Lustre 文件系统复制到同一个 AWS 账户内的另一个文件系统。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

符合。您可以使用 AWS DataSync 将您的 Amazon FSx for Lustre 文件系统定期复制计划到同一个 AWS 账户内的另一个文件系统中。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

否。使用目标文件系统上的文件布局和分段配置写入文件。

当您创建 DataSync 任务以向 FSx for OpenZFS 文件系统进行复制或从中进行复制时,DataSync 服务将在您的文件系统所处的相同 VPC 和子网中创建弹性网络接口(ENI)。  DataSync 使用这些 ENI 在将 OpenZFS 协议用作根用户的情况下访问您的 FSx for OpenZFS 文件系统。  当您为 FSx for OpenZFS 文件系统创建 DataSync 位置资源时,您最多可以指定五个安全组应用于 ENI,并从 DataSync 服务配置出站访问。  必须将安全组配置为允许 FSx for OpenZFS 所需的网络端口上的出站流量。 FSx for OpenZFS 文件系统上的安全组应被配置为允许从您分配给 FSx for OpenZFS 文件系统的 DataSync 位置资源的安全组进行入站访问。

AWS DataSync 会复制文件和文件夹时间戳和 POSIX 权限,包括用户 ID、组 ID 和权限。您可以在我们的文档中了解更多信息,并查看已复制元数据的完整列表。

符合。您可以使用 AWS DataSync 将数据从您的 FSx for OpenZFS 文件系统复制到同一个 AWS 账户内的另一个文件系统。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

符合。您可以使用 AWS DataSync 将您的 Amazon FSx for OpenZFS 文件系统定期复制计划到同一个 AWS 账户内的另一个文件系统中。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

当您创建任务时,DataSync 会在您的适用于 NetApp ONTAP 的 Amazon FSx 文件系统所在相同 VPC 的首选子网中创建弹性网络接口(ENI)。首选子网会在您创建 FSx for ONTAP 文件系统时配置,而 DataSync 会利用它在该子网中创建的 ENI 来访问您的 FSx for ONTAP 文件系统。当您为 FSx for ONTAP 文件系统创建 DataSync 位置资源时,您最多可以指定 5 个安全组应用于 ENI,以便配置 DataSync 服务的出站访问。您应该在 FSx for ONTAP 文件系统上配置安全组,以允许从您分配给 FSx for ONTAP 文件系统的 DataSync 位置资源的安全组进行入站访问。

AWS DataSync 支持使用 NFSv3、SMB 2.1 和 SMB 3。DataSync 目前不支持 NFSv4 或更高版本和 FSx for ONTAP 搭配使用。

会,当使用 NFS 协议时,AWS DataSync 会复制文件和文件夹时间戳和 POSIX 权限,包括用户 ID、组 ID 和权限。而在使用 SMB 协议时,DataSync 则会复制文件和文件夹时间戳、所有权和 ACL。您可以在我们的文档中了解更多信息,并查看已复制元数据的完整列表。

在通过 SMB 协议从为用户提供服务的 Windows 服务器或 NAS 共享迁移时,对您的 FSx for ONTAP 位置使用 DataSync SMB 源位置和 SMB 协议,确保为 NTFS 配置 FSx for ONTAP 卷的安全样式。而在通过 NFS 协议从为用户提供服务的 Unix 或 Linux 服务器或 NAS 共享迁移时,对您的 FSx for ONTAP 位置使用 DataSync NFS 源位置和 NFS 协议,确保为 Unix 配置 FSx for ONTAP 卷的安全样式。针对多协议迁移,您应该查阅博客利用适用于 NetApp ONTAP 的 Amazon FSx 实现多协议工作负载中所讨论的最佳实践,并使用 SMB 协议以最高保真度保留文件系统元数据。如需了解有关为您的 FSx for ONTAP 卷配置安全样式的更多信息,请见管理 FSx for ONTAP 卷文档。

可以,但您将需要为每个协议(NFS 或 SMB)创建独立的 DataSync 位置和任务资源。为避免发生覆盖数据和数据验证问题,我们不建议使用多个 DataSync 任务同时复制到相同的卷路径(无论使用的是相同协议或不同协议)。

不可以,DataSync 仅支持使用 NFS 或 SMB 协议将文件数据复制到 FSx for ONTAP 卷或从中复制出来。

符合。您可以使用 AWS DataSync 将数据从您的 FSx for ONTAP 文件系统复制到同一个 AWS 账户内的另一个文件系统。此功能同时适用于相同区域和跨区域部署,且不需要使用 DataSync 代理。

虽然 DataSync 可被用于在您的文件系统之间复制数据,但我们建议使用 NetApp SnapMirror 在您的 FSx for ONTAP 文件系统之间进行复制。不管文件系统中的文件数量或大小,您都可以通过 SnapMirror 实现低 RPO。

DataSync 将自动排除名为 “.snapshot” 的文件夹。您还可以使用排除筛选条件,以避免复制与您指定的模式匹配的文件和文件夹。

移入和移出 AWS Snow Family 设备

首先在本地环境中部署 DataSync 代理。使用 AWS 管理控制台或 CLI 激活代理,设置 DataSync 任务,在 Amazon S3 兼容存储上的存储桶与 Amazon S3、Amazon EFS 或任何 Amazon FSx 文件系统之间移动数据。

性能

AWS DataSync 复制给定数据集的速率需综合考虑数据量、源和目标存储可达到的 I/O 带宽、可用的网络带宽,以及网络条件。对于本地和 AWS 存储服务之间的数据传输,单个 DataSync 任务能够充分利用 10Gbps 的网络链路。

符合。通过配置内置带宽限制,您可以控制 AWS DataSync 将使用的网络带宽量。 您可以在数据传输任务运行时提高或减少此限制。这使您能够最大限度地降低对依赖于同一网络连接的其他用户或应用程序的影响。

AWS DataSync 可生成 Amazon CloudWatch 指标以提供对传输流程的精细可见性。利用这些指标,您可以查看已复制的文件数和数据量以及文件发现和验证进度。您可以直接在 DataSync 控制台中查看包含这些指标的 CloudWatch 图表

根据您的本地文件存储的容量,以及要传输文件的数量和大小,AWS DataSync 可能会在访问同一源数据存储时,影响其他客户端的响应时间,因为代理将从该存储系统读取或写入数据。为任务配置带宽限制会降低此影响,因为它会限制存储系统的 I/O。

安全性与合规性

AWS DataSync Discovery 使用 DataSync 代理访问存储系统的管理/API 接口。所有访问均为只读。有关用于访问存储的 API 的更多信息,请参阅 DataSync 文档

当您配置 AWS DataSync Discovery 来发现您的存储系统时,需要提供用于访问存储的 API 接口的用户名和密码。然后,AWS DataSync Discovery 将自动在 AWS Secrets Manager 中创建密钥来存储凭证。DataSync Discovery 运行发现作业时,它会从密钥中检索密码,对其进行重新加密,然后将加密的密码发送到用于您的作业的代理。该密码仅在作业期间保留在代理的内存中,并且密码在任何时候都不会保留在内存之外。

符合。在源和目标之间传输的所有数据都通过传输层安全性 (TLS) 加密,它替代了安全套接字层 (SSL)。数据从来不会保留在 AWS DataSync 中。该服务支持使用 S3 存储桶的默认加密静态数据的 Amazon EFS 文件系统加密Amazon FSx 的静态和传输中加密

AWS DataSync 使用您部署到 IT 环境或 Amazon EC2 的代理,通过 NFS 或 SMB 协议访问您的文件。此代理连接到 AWS 中的 DataSync 服务端点,并从 AWS 管理控制台或 CLI 安全地进行管理。

AWS DataSync 使用您部署到 IT 环境或 Amazon EC2 的代理,以访问您的 Hadoop 集群。DataSync 代理充当 HDFS 客户并与您的集群中的 NameNode 和 DataNode 通信。当您启动任务时,DataSync 会查询主 NameNode 以确定文件和文件夹在集群上的位置。然后,DataSync 会与集群中的 DataNode 通信,将文件和文件夹复制到 HDFS 或从 HDFS 复制。

AWS DataSync 使用您部署到数据中心、公有云环境或 Amazon EC2 的代理,以使用 Amazon S3 API 访问您的对象。此代理连接到 AWS 中的 DataSync 服务端点,并从 AWS 管理控制台或 CLI 安全地进行管理。

AWS DataSync 使用您部署到 Azure 环境或 Amazon EC2 中的代理来访问 Azure Blob Storage 容器中的对象。该代理连接到 AWS 中的 DataSync 服务端点,并从 AWS 管理控制台或 CLI 安全地进行管理。代理使用您在创建 DataSync Azure Blob 站点时指定的 SAS 令牌对您的 Azure 容器进行身份验证。

不需要,向本地或从本地复制数据时,无需设置 VPN/隧道或允许入站连接。可以将您的 AWS DataSync 代理配置为使用标准网络端口来路由通过防火墙。您还可以使用 VPC 终端节点在您的 Amazon Virtual Private Cloud(Amazon VPC)中部署 DataSync。使用 VPC 终端节点时,在 DataSync 代理和 AWS 服务之间传输的数据不需要遍历公有互联网,也不需要公有 IP 地址。

您的 AWS DataSync 代理在您选择的 AWS 区域内连接到 DataSync 服务终端节点。您可以选择让代理连接到面向公有互联网的终端节点、经联邦信息处理标准 (FIPS) 验证的终端节点或其中一个 VPC 内的终端节点。安全地激活代理可将其与您的 AWS 账户关联。要了解更多信息,请参阅选择服务终端节点激活代理

一旦代理被激活,AWS 将自动应用代理 VM 的更新,同时包括底层操作系统和 AWS DataSync 软件包。当代理处于空闲状态且没有执行数据传输任务时,将以非破坏性的方式应用更新。

AWS 具有在云中运行时间最长的合规性计划。AWS 致力于帮助客户满足他们的要求。AWS DataSync 已经过评估,达到了全球和行业安全标准。除了符合 HIPAA 要求以外,DataSync 还符合 PCI DSS、ISO 90012700127017 27018,以及 SOC 1、2 和 3。 DataSync 还在 AWS 美国东部/西部区域按照 FedRAMP 中等影响进行了授权,在 AWS GovCloud(美国)区域按照 FedRamp 高影响进行了授权。这使您能够更轻松地验证我们的安全性,并履行您自己的义务。有关更多信息和资源,请访问我们的合规性页面。您也可以转到按合规性计划提供的范围内服务页面,以查看服务和认证的完整列表。

符合。AWS DataSync 符合 PCI-DSS,这意味着您可以使用它来传输付款信息。您可以在 AWS Artifact 中下载 PCI 合规性文件包,以详细了解如何在 AWS 上实现 PCI 合规性。

符合。AWS DataSync 符合 HIPAA 要求,这意味着如果您有适用于 AWS 的 HIPAA BAA,则可以使用 DataSync 来传输受保护的健康信息(PHI)。

符合。AWS DataSync 已经在美国东部/西部区域依据联邦风险与授权管理计划 (FedRAMP) 中等影响基线的要求从联合授权委员会 (JAB) 取得了临时操作授权 (ATO)。如果您是联邦或商业客户,您可以在 AWS 美国东部/西部区域的授权边界内将 AWS DataSync 用于中等及更低影响等级的数据。

符合。AWS DataSync 已经在美国 GovCloud 区域依据联邦风险与授权管理计划 (FedRAMP) 高影响基线的要求从联合授权委员会 (JAB) 取得了临时操作授权 (ATO)。如果您是联邦或商业客户,您可以在 AWS GovCloud(美国)区域的授权边界内将 AWS DataSync 用于高影响及更低等级的数据。

何时选择 AWS DataSync

AWS DataSync 可完全自动化并加快向 AWS 移动大型活跃数据集的过程。它与 Amazon S3、Amazon EFS、Amazon FSx、Amazon CloudWatchAWS CloudTrail 原生集成,这可对您的存储服务提供无缝和安全的访问体验,还可对传输进行细致监控。

DataSync 使用专用网络协议和扩展架构来传输数据。 对于本地和 AWS 存储服务之间的数据传输,单个 DataSync 任务能够充分利用 10Gbps 的网络链路。

DataSync 实现了数据传输的完全自动化。它包含重试和网络弹性机制、网络优化、内置任务计划、审核(通过任务报告实现)、监控功能(通过 DataSync API 和控制台实现)、CloudWatch 指标、事件和日志,可提供对传输流程的精细可见性。DataSync 在传输期间和传输结束时都执行数据完整性验证。

DataSync 提供端到端的安全性并直接与 AWS 存储服务集成。源和目标之间传输的所有数据都通过 TLS 加密,并通过内置的 AWS 安全机制(如 IAM 角色)启用对 AWS 存储的访问。启用使用 VPC 终端节点的 DataSync,以确保在组织和 AWS 之间传输的数据不需要遍历公有互联网,这进一步增加了在网络上复制数据的安全性。

AWS 提供多个工具在您的存储桶之间复制对象。

使用 AWS DataSync 进行持续的数据分发、数据管道和湖内数仓提取,以及在多个存储桶之间整合或拆分数据。

使用 S3 复制将数据连续复制到特定目标存储桶。

使用 S3 批量操作对 S3 对象进行大规模批量操作,例如复制对象、设置对象标签或访问控制列表(ACL)、启动从 Amazon S3 Glacier Flexible Retrieval(原 S3 Glacier)的对象恢复、调用 AWS Lambda 函数以使用对象执行自定义操作、管理 S3 对象锁定依法保留或管理 S3 对象锁定保留日期。

AWS DataSync 是在线数据传输的理想工具。您可以使用 DataSync 将现用数据迁移到 AWS,将数据传输到云进行分析和处理,还可以存档数据以释放本地存储容量,或者将数据复制到 AWS 以实现业务连续性。

AWS Snowball Edge 适用于离线数据传输,适合带宽受限或从偏远、断开连接或严峻的环境中传输数据的客户。 

使用 AWS DataSync 将现有数据迁移到 Amazon S3,随后使用 AWS Storage Gateway 的文件网关配置来保留对已迁移数据的访问权限,并从本地基于文件的应用程序进行持续更新。

您可以组合使用 DataSync 和文件网关来尽量缩减本地基础设施,同时将本地应用程序无缝连接到您的云存储。AWS DataSync 使您能够加速向 AWS 存储服务在线传输数据的过程并实现自动化。 使用 AWS DataSync 完成初始数据传输阶段后,文件网关可为您的本地应用程序提供对已迁移数据的低延迟访问。将 DataSync 与 NFS 共享结合使用时,您的源本地存储中的 POSIX 元数据将被保存,且源存储的权限将在使用文件网关访问文件时应用。

如果您的应用程序已经与 Amazon S3 API 集成,并且您在向 S3 传输大型文件时需要更高的吞吐量,则可以使用 S3 Transfer Acceleration。如果您想要从现有存储系统(例如网络附带的存储)或从无法更改的仪器(例如 DNA 顺序分析仪、摄像机)传输数据,或者如果您想要使用多个目标位置,则可以使用 AWS DataSync。此外,通过提供内置重试和网络弹性机制、数据完整性验证与灵活配置等额外功能,DataSync 还可以简化数据传输并实现自动化,以满足您的特定需求,包括带宽限制等。

如果您当前使用 SFTP 与第三方交换数据,则 AWS Transfer Family 提供可直接传入和传出 Amazon S3 的完全托管式 SFTP、FTPS、FTP 和 AS2 传输,同时减轻您的运营负担。

如果您希望在 NFS 服务器、SMB 文件共享、Hadoop 集群、自行管理或云对象存储、AWS Snowcone、Amazon S3、Amazon EFS 和 Amazon FSx 之间进行加速的自动化数据传输,您可以使用 AWS DataSync。对于需要在线迁移现用数据集、及时传输持续生成的数据,或复制用以实现业务连续性的客户,DataSync 是理想之选。