Publicado: Oct 21, 2022
Hoje, temos o prazer de anunciar o recurso de suporte dinâmico a conjuntos de dados diferentes armazenados no S3 usando parâmetros no Amazon SageMaker Data Wrangler. O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Anteriormente, os clientes não contavam com uma maneira fácil de fazer referência dinâmica a conjuntos de dados durante a execução de trabalhos de processamento do Data Wrangler segundo um agendamento. Além disso, os clientes não conseguiam filtrar facilmente os arquivos de um bucket do S3 para uso no processamento. Por fim, não era simples alterar fontes de dados durante a execução de trabalhos de processamento do Data Wrangler a partir do fluxo de trabalho “Criar trabalho” ou de um notebook de processamento do Data Wrangler.
O suporte a conjuntos de dados parametrizados do Data Wrangler permite que você use parâmetros para especificar os conjuntos de dados a serem processados em um fluxo do Data Wrangler. Um parâmetro é uma variável que pode ser salva em um fluxo do Data Wrangler. Você pode especificar parâmetros de data/hora para fazer referência a um intervalo específico de data/hora de conjuntos de dados. Com parâmetros de padrão, você pode especificar uma expressão regular do Python para correspondência de nomes de arquivos com um padrão específico. Parâmetros no formato de string ou número podem ser usados para corresponder nomes de arquivos com um valor correspondente de string ou número. Os parâmetros podem ser acessados no Data Wrangler clicando no menu de nó “+” e selecionando “Editar conjunto de dados”. Realce qualquer parte do caminho do S3 para exibir o menu “Criar parâmetro personalizado”, que permite adicionar facilmente um novo parâmetro. A lista completa de parâmetros pode ser acessada clicando no ícone “{{ }}” ao lado do caminho do S3.
Esse recurso está disponível sem custo adicional em todas as regiões da AWS com suporte do Data Wrangler. Para começar a agendar trabalhos de processamento de dados com o SageMaker Data Wrangler, consulte a documentação da AWS.