Publicado: Aug 16, 2021
O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma única interface visual. A partir de hoje, você pode usar novos recursos do Amazon SageMaker Data Wrangler que facilitam e agilizam a preparação de dados para ML, incluindo: detecção de multicolinearidade, fácil exportação de resultados para o Amazon S3, suporte para delimitadores de colunas e a capacidade de reutilizar o mesmo fluxo do SageMaker Data Wrangler no conjuntos de dados diferentes de sua escolha.
A multicolinearidade ocorre quando dois ou mais recursos em um conjunto de dados estão altamente correlacionados entre si. Detectar a presença da multicolinearidade em um conjunto de dados é importante, pois ela pode dificultar a performance de um modelo ML. A partir de hoje, você pode usar três novas visualizações de diagnóstico no Amazon SageMaker Data Wrangler para ajudar a detectar a multicolinearidade em um conjunto de dados. A primeira visualização permite plotar fatores de inflação de variância (VIFs) no seu conjunto de dados. VIFs elevados nos seus dados podem indicar a presença de multicolinearidade. A segunda visualização usa Análise de componentes principais (PCA) e a Decomposição de valores singulares (SVD) para calcular valores singulares. Uma distribuição altamente não uniforme de valores singulares no seu conjunto de dados também pode indicar multicolinearidade. Finalmente, uma terceira visualização usa o operador de seleção e encolhimento mínimo absoluto (LASSO), que traça valores de coeficientes de um modelo LASSO treinado nos seus dados. Variáveis com valores de coeficientes próximos de zero podem ser redundantes e podem não contribuir significativamente para a performance de um modelo de ML.
A partir de hoje, você também pode exportar facilmente seus dados preparados com alguns cliques. A nova funcionalidade de exportação do Amazon SageMaker Data Wrangler oferece uma experiência de exportação por botão para exportar seus dados. Você pode simplesmente clicar em “Export Data” (Exportar dados) na guia Prepare (Preparar) e especificar o local do Amazon S3 de onde gostaria que os resultados fossem armazenados. Seus resultados serão exportados diretamente para o S3 para você usar em outras aplicações de ML. Além disso, agora você pode importar dados em uma variedade de formatos delimitados, incluindo formatos de dados separados por vírgula, separados por tabulação, separados por ponto-e-vírgula e separados por dois pontos. Finalmente, agora você pode alterar os conjuntos de dados usados nos fluxos de dados do SageMaker Data Wrangler. Você pode simplesmente clicar em um nó de origem na exibição de dados e selecionar “Edit dataset” (Editar conjunto de dados) para modificar os dados de origem usados em um arquivo de fluxo do SageMaker Data Wrangler.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, você pode abrir o Amazon SageMaker Studio e clicar em File > New > Flow (Arquivo > Novo > Fluxo) no menu ou em “new data flow” (novo fluxo de dados) no launcher do SageMaker Studio. Para saber mais, acesse a página de recursos ou a documentação. Você também pode aprender a fazer upgrade para a versão mais recente aqui.