Publicado: Dec 7, 2022

O Amazon SageMaker Feature Store agora oferece suporte à capacidade de criar grupos de recursos na loja offline no formato de tabela do Apache Iceberg. A loja offline contém recursos históricos de machine learning, organizados em grupos lógicos de recursos, e é usada para treinamento de modelos e inferência em lote. O Apache Iceberg é um formato de tabela aberta para conjuntos de dados analíticos muito grandes, como a loja offline. Ele gerencia grandes coleções de arquivos, como tabelas, e oferece suporte a operações analíticas modernas de data lake otimizadas para uso no Amazon S3.

A ingestão de dados, especialmente durante o streaming, pode resultar em um grande número de arquivos pequenos, o que pode afetar negativamente o desempenho da consulta devido ao maior número de operações de arquivo necessárias. Com o Iceberg, você pode compactar os pequenos arquivos de dados em menos arquivos grandes na partição, o que resulta em consultas significativamente mais rápidas. Essa operação de compactação é simultânea e não afeta as operações contínuas de leitura e gravação no grupo de recursos. Se você escolher a opção Iceberg ao criar novos grupos de recursos, o SageMaker Feature Store criará as tabelas do Iceberg usando o formato de arquivo do Parquet e registrará as tabelas no Catálogo de Dados do AWS Glue.

Para saber mais, consulte a documentação aqui. Para começar a usar, acesse o SageMaker Studio no console do Amazon SageMaker.