Publicado: Jun 16, 2022
Hoje, estamos agilizando e facilitando a preparação e visualização de dados usando PySpark e Altair com suporte para snippets de código no Amazon SageMaker Data Wrangler. O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, bem como concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Com a ferramenta de seleção de dados do SageMaker Data Wrangler, é possível selecionar rapidamente dados de várias fontes de dados, como Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks e Snowflake.
A partir de hoje, você pode preparar e visualizar dados em menos tempo usando snippets de código PySpark e Altair no Amazon SageMaker Data Wrangler. O PySpark é uma interface em Python para o Apache Spark. O Altair é uma biblioteca de visualização estatística declarativa para Python baseada em Vega e Vega-Lite. Antes, os cientistas de dados que usavam o Data Wrangler começavam com um editor em branco ou buscavam snippets de código na internet quando queriam preparar e visualizar dados usando código PySpark ou Altair. Agora, cientistas de dados que desejam usar PySpark para criar uma transformação personalizada no SageMaker Data Wrangler podem escolher entre mais de 30 snippets de código PySpark para atender a necessidades de processamento de dados como exclusão de linhas, alteração de nome em massa, transformação e reorganização de colunas e filtragem de colunas de texto para encontrar valores que incluem uma string específica. Além disso, os cientistas de dados que desejam programar em Altair para criar visualizações no SageMaker Data Wrangler podem escolher snippets de código Altair para criar mapas de calor, gráficos de dispersão agrupados e gráficos de degrau preenchidos no SageMaker Data Wrangler.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, você pode abrir o Amazon SageMaker Studio depois de fazer upgrade para a versão mais recente e clicar em File > New > Flow (Arquivo > Novo > Fluxo) no menu ou em “New Data Flow” (Novo fluxo de dados) no inicializador do SageMaker Studio. Para saber mais sobre os novos recursos, leia o blog e consulte a documentação.