Publicado: Oct 21, 2022
Hoje, temos o prazer de anunciar o suporte à redução de dimensionalidade usando Principal Component Analysis (PCA – Análise de componentes principais) no Amazon SageMaker Data Wrangler. O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. O PCA é uma técnica popular de análise de grandes conjuntos de dados com um alto número de dimensões por observação. É também uma técnica estatística útil para reduzir a dimensionalidade de conjuntos de dados para uso com algoritmos populares de ML como XgBoost e floresta aleatória. Antes, para realizar PCA em um conjunto de dados, os cientistas de dados precisavam encontrar as bibliotecas adequadas e criar código para reduzir dados altamente dimensionais.
Agora, com o suporte ao PCA do Data Wrangler, você pode reduzir facilmente a dimensionalidade de conjuntos de dados altamente dimensionais com apenas alguns cliques. Para acessar o PCA, selecione “Redução de dimensionalidade” no fluxo de trabalho “Adicionar etapa”. O seletor de colunas incorporado facilita a seleção automática de todas as colunas numéricas e a especificação do número de componentes principais a serem retidos. Opcionalmente, você pode especificar a porcentagem adequada do limite de variância para que o Data Wrangler determine automaticamente o número apropriado de componentes a serem retidos no conjunto de dados transformado.
Esse recurso está disponível sem custo adicional em todas as regiões da AWS com suporte do Data Wrangler. Para começar a agendar trabalhos de processamento de dados com o SageMaker Data Wrangler, consulte a documentação da AWS.