Publicado: Nov 30, 2022
O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para ML. Com o Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, visualização, limpeza e preparação de dados, em uma interface visual com pouco uso de código. Muitos profissionais de ML querem explorar conjuntos de dados diretamente nos notebooks para detectar possíveis problemas de qualidade de dados, como informações faltantes, valores extremos, conjuntos de dados distorcidos ou vieses para poder corrigir esses problemas, agilizando a preparação de dados para treinamento de modelos de ML. Eles podem gastar semanas escrevendo código padrão para visualizar e examinar partes diferentes dos conjuntos de dados para identificar e corrigir possíveis problemas.
A partir de hoje, o Data Wrangler oferece um recurso de preparação de dados integrada em notebooks do Amazon SageMaker Studio que permite aos profissionais de ML revisar visualmente características de dados, identificar problemas e remediar problemas de qualidade de dados diretamente nos notebooks com apenas alguns cliques. Quando os usuários exibem um quadro de dados (uma representação tabular de dados) em notebooks, os notebooks do SageMaker Studio geram automaticamente tabelas para ajudar os usuários a compreender os padrões de distribuição de dados; identificar possíveis problemas, como dados incorretos, faltantes ou discrepantes; e sugere transformações de dados para corrigir esses problemas. Além disso, o novo recurso habilita os usuários a identificar problemas de qualidade de dados de colunas de destino que afetarão a performance do modelo de ML, como dados desequilibrados ou tipos de dados misturados, e sugere transformações de dados para corrigir esses problemas. Quando o profissional de ML seleciona uma transformação de dados, os notebooks do SageMaker Studio geram os códigos correspondentes nos notebooks para que a transformação de dados possa ser aplicada repetidamente sempre que os notebooks são executados.
Esse recurso está disponível sem custo adicional em todas as regiões com suporte dos notebooks do SageMaker Studio.
Para começar a usar, consulte os seguintes recursos: