Publicado: Apr 27, 2022
O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Com a ferramenta de seleção de dados do SageMaker Data Wrangler, é possível selecionar rapidamente os dados de várias origens dos dados, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks Delta Lake e Snowflake.
Hoje estamos anunciando a disponibilidade geral de amostragem aleatória de dados ao importar do S3 e novas transformações para criar amostras aleatórias ou estratificadas de seus conjuntos de dados com o Amazon SageMaker Data Wrangler no Amazon SageMaker Studio. Anteriormente, você precisava escrever código para criar amostras aleatórias ou amostras estratificadas de seus dados ao prepará-los para aplicações de ML. Hoje, com a opção de amostragem aleatória na importação, agora você pode criar uma amostra aleatória de seus dados no S3 ao importar seus dados para o Data Wrangler. Além disso, com nossas novas transformações para amostragem aleatória e estratificada, você pode criar os seguintes tipos de amostras para seu conjunto de dados:
- Amostra aleatória. Amostras aleatórias são úteis quando você tem um conjunto de dados muito grande para preparar interativamente. Com a transformação de amostragem aleatória, você pode amostrar aleatoriamente uma proporção de seu conjunto de dados para prepará-lo para o machine learning.
- Amostra estratificada. Amostras estratificadas são úteis quando seus dados contêm um evento raro (como transações fraudulentas com cartão de crédito que ocorrem em muito menos de um por cento de todas as transações com cartão de crédito) e você deseja preservar a proporção do evento raro em seu conjunto de dados amostrado.
- Primeira amostra de K. As primeiras amostras de K criam uma amostra usando as primeiras K linhas de seu conjunto de dados em que K é algum número. Por exemplo, se K for 1.000, uma amostra será criada contendo as primeiras 1.000 linhas de seu conjunto de dados. A primeira amostragem de K é útil quando você precisa apenas do esquema de colunas correto para preparar seus dados. Um benefício adicional da primeira amostra de K é que é uma operação extremamente eficiente em termos de tempo.
Para saber mais sobre como amostrar seus dados com o Amazon SageMaker Data Wrangler, leia o blog.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, é possível abrir o Amazon SageMaker Studio depois de fazer upgrade para a versão mais recente e clicar em File > New > Flow (Arquivo > Novo > Fluxo) no menu ou em “New Data Flow” (Novo Fluxo de Dados) no inicializador do SageMaker Studio. Para saber mais sobre os novos recursos, consulte a documentação.