Publicado: Feb 2, 2022
O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Com a ferramenta de seleção de dados do SageMaker Data Wrangler, é possível selecionar rapidamente os dados de várias origens de dados, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store e Snowflake.
Estamos anunciando hoje a disponibilidade geral para compatibilidade com formatos de arquivo JSON, JSONL e ORC no Data Wrangler. É possível visualizar, visualizar previamente e importar os dados nesses formatos de arquivo utilizando o Data Wrangler. O formato de arquivo ORC oferece uma maneira altamente eficiente de armazenar os dados Hive, porém pode ser difícil visualizar previamente esses dados utilizando o editor de texto. Com a compatibilidade para o formato de arquivo OCR no Data Wrangler, agora é possível navegar facilmente em um arquivo OCR como em um arquivo csv. Para saber mais sobre a importação de arquivos ORC e a preparação de dados JSON com o Data Wrangler, leia este blog.
Além disso, estamos anunciando a disponibilidade geral de várias novas transformações, incluindo: transformações para lidar com desequilíbrio de classe em seus conjuntos de dados, transformações para processar colunas com matrizes e strings formatadas em JSON e uma transformação de codificação de similaridade para codificar dados categóricos com alta cardinalidade de forma eficiente. Essas transformações se somam à coleção de mais de 300 transformações do Data Wrangler, que inclui muitas transformações para processar dados de séries temporais. Veja abaixo uma descrição detalhada dos recursos:
- Balanceamento de dados. Os conjuntos de dados muitas vezes são balanceados ao favorecer uma classe de destino em detrimento da outra. A nova transformação de balanceamento pode ajudá-lo a sobrepor uma classe minoritária esparsa, dependendo de seus requisitos. Além disso, agora é possível gerar novas amostras da classe minoritária utilizando uma técnica de superdimensionamento minoritária sintética (SMOTE) normalmente disponível no Data Wrangler. O SMOTE gera automaticamente novas observações da classe minoritária a partir de grupos de linhas semelhantes no conjunto de dados. Para saber mais sobre o como tratar os conjuntos de dados desequilibrados com o Data Wrangler, leia este blog.
- Colunas de tratamento estruturado. Para colunas que contêm matrizes, uma nova transformação de explosão de matriz gera uma nova linha para cada valor na matriz. Para strings formatadas em JSON, uma nova transformação decoluna estruturada plana cria novas colunas para cada par de valor de chave na string formatada pelo JSON. Para saber mais sobre o tratamento de colunas estruturadas com o Data Wrangler, leia este blog.
- Codificação de variáveis categóricas. Utilizando uma nova transformação de codificação por similaridade, agora é possível codificar de forma eficiente as variáveis categóricas com alta cardinalidade. Muitos cientistas de dados aplicam com frequência uma codificação one-hot para as variáveis categóricas que converte cada valor categórico em uma coluna separada. O processo de codificação one-hot pode transformar uma única coluna com os estados dos EUA em 50 novas variáveis de valores binários (uma para cada estado). Agora, com a disponibilidade de codificação por similaridade no Data Wrangler, é possível codificar uma variável categórica em um número de colunas muito menor ao mesmo tempo em que é retida ou possivelmente aumentada a performance do modelo.
Finalmente, estamos anunciando a disponibilidade geral da experiência por um clique “Criar trabalho” para iniciar os trabalhos de processamento de dados. Iniciando hoje, é possível clicar em um botão “Iniciar trabalho” que permite iniciar o trabalho de processamento de dados utilizando as etapas especificadas no fluxo do Data Wrangler. Ainda é possível utilizar os notebooks de processamento de dados no Data Wrangler para iniciar os trabalhos de processamento de dados e integrar o Data Wrangler nos pipelines MLOps. Para saber mais sobre o como iniciar o trabalho de processamento de dados com o Data Wrangler, leia este blog.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, é possível abrir o Amazon SageMaker Studio depois de fazer upgrade para a versão mais recente e clicar em File > New > Flow (Arquivo > Novo > Fluxo) no menu ou em “New Data Flow” (Novo Fluxo de Dados) no inicializador do SageMaker Studio. Para saber mais sobre os novos recursos, consulte a documentação.