O que é o Amazon SageMaker Feature Store?
Como funciona?

Benefícios do arquivo de atributos do SageMaker
Gerenciamento de recursos
Processamento e ingestão de recursos
Você pode ingerir dados no SageMaker Feature Store de uma variedade de fontes, como logs de aplicações e serviços, clickstream, sensores e dados tabulares do fontes como o Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Usando o processamento de recursos, você pode especificar sua fonte de dados em lote e a função de transformação de recursos (por exemplo, contagem de visualizações de produtos ou agregações de janela de tempo) e o SageMaker Feature Store transforma os dados no momento da ingestão em recursos de ML. Com o Amazon SageMaker Data Wrangler, é possível publicar recursos diretamente no SageMaker Feature Store. Com o conector do Apache Spark, é possível ingerir em lote um alto volume de dados com uma única linha de código.

Loja de recursos, catálogo, pesquisa e reutilização
O SageMaker Feature Store marca e indexa grupos de atributos para que sejam facilmente detectáveis por meio da interface visual do Amazon SageMaker Studio. A navegação no catálogo de recursos permite às equipes descobrir recursos existentes que podem reutilizar com confiança e evitar a duplicação de pipelines. O SageMaker Feature Store usa o Catálogo de dados do AWS Glue por padrão, mas permite usar um catálogo diferente se desejar. Também é possível consultar recursos usando o conhecido SQL com o Amazon Athena ou outra ferramenta de consulta de sua escolha.

Consistência dos recursos
O SageMaker Feature Store é compatível com armazenamento offline para treinamento e armazenamento online para inferência em tempo real. Treinamento e inferência são casos de uso muito diferentes e os requisitos de armazenamento são diferentes para cada um. Durante o treinamento, muitas vezes os modelos usam o conjunto de dados completo e podem levar horas para concluir, enquanto a inferência precisa acontecer em milissegundos e geralmente usa um subconjunto dos dados. Quando usados juntos, o SageMaker Feature Store garante que os conjuntos de dados offline e online permaneçam em sincronia, o que é essencial porque, se eles divergirem, poderão ter um impacto negativo na precisão do modelo.

Viagem no tempo
Os cientistas de dados podem precisar treinar modelos com o conjunto exato de valores de recursos de um tempo específico no passado sem o risco de incluir dados além desse tempo (também denominado vazamento de dados), tais como dados médicos do paciente antes de um diagnóstico. O SageMaker Feature Store Offline API é compatível com consultas de ponto no tempo para recuperar o estado de cada recurso no momento histórico de interesse.
