Publicado en: Dec 7, 2022

El almacén de características de Amazon SageMaker ahora permite crear grupos de características en la tienda sin conexión en formato de tabla de Apache Iceberg. La tienda sin conexión contiene características de ML históricas, organizadas en grupos de características lógicas, y se utiliza para el entrenamiento de modelos y la inferencia por lotes. Apache Iceberg es un formato de tabla abierta para conjuntos de datos analíticos muy grandes, como la tienda sin conexión. Administra grandes colecciones de archivos en forma de tablas y admite operaciones analíticas modernas de lagos de datos optimizadas para su uso en Amazon S3.

La ingestión de datos, especialmente durante la transmisión, puede generar una gran cantidad de archivos pequeños, lo que puede afectar negativamente el rendimiento de las consultas debido al mayor número de operaciones con archivos necesarias. Con Iceberg, puede compactar los archivos de datos pequeños en menos archivos grandes en la partición, lo que permite consultas significativamente más rápidas. Esta operación de compactación es simultánea y no afecta las operaciones de lectura y escritura en curso en el grupo de características. Si eligió la opción Iceberg al crear nuevos grupos de características, el almacén de características de SageMaker creará las tablas de Iceberg en formato de archivo Parquet y las registrará en el catálogo de datos de AWS Glue.

Para obtener más información, consulte la documentación aquí. Para empezar, vaya a SageMaker Studio desde la consola de Amazon SageMaker.