Publicado: Oct 17, 2022
Hoje, temos o prazer de anunciar o suporte a transformações de reajuste com o Amazon SageMaker Data Wrangler. Para que os dados possam ser utilizados por algoritmos como XgBoost, os cientistas precisam transformar valores não numéricos em numéricos usando transformações como codificação one-hot. Como essas transformações dependem de dados, são frequentemente mencionadas como transformações ajustadas. Elas precisam ser atualizadas ou reajustadas para levar em conta as alterações dos dados ao longo do tempo. Além disso, quando trabalham em uma amostra de conjunto de dados, as transformações precisam ser atualizadas para levar em conta as alterações entre a amostra e o conjunto de dados inteiro. O uso de transformações como codificação one-hot gera informações adicionais que precisam ser rastreadas e capturadas no pipeline de preparação de dados. Sem o rastreamento, ou com um rastreamento incorreto, essas informações podem levar a erros no processo de preparação de dados. Sem o suporte a transformações de reajuste, muitos cientistas de dados não conseguiam especificar com facilidade quando usar uma versão ajustada de uma transformação ou reajustar a transformação com base em novos dados. Além disso, os cientistas de dados não tinham uma forma fácil de gerar versões atualizadas de pipelines de transformação ao reajustar as transações com base em novos conjuntos de dados.
Agora, o Data Wrangler rastreia transformações ajustadas em fluxos de dados para todas as transformações aplicáveis. Essas transformações ajustadas já podem ser usadas para facilitar a preparação de dados novos conforme a necessidade. Os usuários podem especificar quando desejam reutilizar transformações ou reajustar novas transformações com base nos dados. O recurso de reajuste está disponível na interface visual do Data Wrangler, durante o lançamento de um trabalho de processamento do Data Wrangler, bem como durante a criação do caderno do trabalho. Basta selecionar "Reajustar" em "Parâmetros treinados" no fluxo de trabalho de criação de trabalho para reajustar as transformações no fluxo. Além disso, o Data Wrangler também gera automaticamente um novo arquivo de fluxo com os valores atualizados das transformações de reajuste.
Esse recurso está disponível sem custo adicional em todas as regiões da AWS com suporte do Data Wrangler. Para começar a usar o SageMaker Data Wrangler, consulte a documentação da AWS.