发布于: Nov 22, 2023

适用于 PyTorch 的 Amazon S3 连接器可为访问和存储 Amazon S3 中数据的 PyTorch 训练任务提供高吞吐量。PyTorch 是一个开源机器学习框架,AWS 客户广泛将其用于构建和训练机器学习模型。适用于 PyTorch 的 Amazon S3 连接器会自动优化 S3 读取和列出请求,以改善训练工作负载的数据加载和检查点性能。使用适用于 PyTorch 的 Amazon S3 连接器保存机器学习训练模型检查点的速度比保存到 Amazon EC2 实例存储的速度快高达 40%。

适用于 PyTorch 的 Amazon S3 连接器提供了 PyTorch 数据集基元的新实现,您可以使用它来从 Amazon S3 加载训练数据。它既支持用于随机数据访问模式的地图样式数据集,也支持用于顺序数据访问模式的可迭代样式数据集。适用于 PyTorch 的 Amazon S3 连接器还包括一个检查点接口,用于将检查点直接保存和加载到 Amazon S3,而无需先保存到本地存储,也无需编写自定义代码上传到 Amazon S3。

适用于 PyTorch 的 Amazon S3 连接器是一个开源项目。要开始使用,请访问 GitHub 页面