发布于: Jun 30, 2023

Amazon SageMaker Canvas 现已支持 Apache Parquet 文件格式,为表格、时间序列预测和 NLP 数据集启用其他文件格式。SageMaker Canvas 是一个可视化界面,使业务分析师能够自行生成准确的机器学习预测,而无需任何机器学习经验或编写任何代码。

自即日起,Canvas 支持 Apache Parquet,这是一种列式开源数据文件格式,专为实现高效的数据存储和检索而设计。 借助这项新功能,除了 CSV 文件外,您还可以使用 Parquet 文件格式导入数据来用于表格、时间序列预测和 NLP 使用案例,从而实现更大的灵活性。在 Canvas 中创建数据集时,您可以从本地磁盘或 Amazon S3 桶中选择多个 Parquet 文件。每个 Parquet 文件的大小可达 5GB。凭借高效的压缩和编码方案,Parquet 文件在 Canvas 中最大限度地提高了数据使用效率,以导入数据、构建机器学习模型和生成预测。

对 Apache Parquet 的支持已在目前支持 SageMaker Canvas 的所有 AWS 区域推出。要了解更多信息,请参阅产品文档