Publicado: Jan 10, 2022
O Amazon SageMaker Feature Store está anunciando um novo aprimoramento, um conector para Apache Spark que facilita a ingestão de dados em lote para os clientes. O Amazon SageMaker Feature Store é um repositório totalmente gerenciado e desenvolvido para armazenar, atualizar, recuperar e compartilhar recursos do modelo de machine learning (ML). Existem diversas maneiras de ingerir dados no SageMaker Feature Store, incluindo a API do PutRecord, a funcionalidade FeatureGroup.ingest do SageMaker Python SDK e o SageMaker Processing Job.
Para ingestão em lote, os clientes podem ingerir dados de fontes do Spark, como Amazon EMR e Processing Jobs. Isso requer iterar por meio de registros de dataframe do Spark e configurar a API do PutRecord com nomes de grupo de recursos e recursos várias vezes, o que pode ser demorado. Com a nova versão, os clientes podem usar o conector SageMaker Feature Store para Apache Spark, que simplifica e automatiza essas etapas. O conector disponibiliza todas as bibliotecas do Spark, e os clientes podem adicionar chamadas de API simples ao pipeline de engenharia de recursos existente no Amazon EMR para ingerir dados em lote facilmente no SageMaker Feature Store. Além disso, o conector também permite a ingestão direta offline do SageMaker Feature Store para simplificar o processo de preenchimento.
Para saber mais, consulte a documentação. Para iniciar, faça login no console do Amazon SageMaker.