发布于: Dec 7, 2022
Amazon SageMaker Feature Store 现在支持在离线商店中以 Apache Iceberg 表格格式创建功能组。离线商店包含历史 ML 功能,这些功能被组织为逻辑功能组,用于模型训练和批量推理。Apache Iceberg 是一种开放表格格式,适用于极大分析数据集,例如离线商店。它以表格形式管理大型文件集合,并支持针对 Amazon S3 而优化的现代分析数据湖操作。
提取数据,尤其是在流式传输时,可能会产生大量小文件,这可能会对查询性能产生负面影响,因为需要进行更多的文件操作。使用 Iceberg,您可以将分区中的小数据文件压缩为较少的大文件,从而显著加快查询速度。此压缩操作是并发的,不会影响正在进行的功能组读取和写入操作。如果您在创建新功能组时选择了 Iceberg 选项,SageMaker Feature Store 将使用 Parquet 文件格式创建 Iceberg 表,并将这些表注册到 AWS Glue Data Catalog。
要了解详情,请点击此处查看文档。要开始使用,请从Amazon SageMaker 控制台前往 SageMaker Studio。