Publicado: May 1, 2023
O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, exploração, limpeza e processamento em uma única interface visual.
A partir de hoje, é possível usar os novos recursos do Amazon SageMaker Data Wrangler para preparar dados de imagem para rotulagem, treinamento ou inferência. É possível fazer a visualização prévia e importar imagens do Amazon S3, além de usar uma variedade de transformações de imagem integradas para limpar, padronizar e melhorar a qualidade dos seus dados de imagem. Essas transformações integradas incluem redimensionar, eliminar duplicatas, girar, inverter, escala de cinza, aprimorar o contraste, desfocar e adicionar ruído etc. O Data Wrangler também oferece suporte a casos de uso avançado, como detectar valores discrepantes ou extrair textos de imagens usando código personalizado e snippets de código integrados. Esses snippets incluem exemplos de como utilizar um modelo pré-treinado usando o Amazon Sagemaker Jumpstart para realizar análises ou transformações avançadas chamando um endpoint modelo pré-implantado. Depois de criar uma fórmula com os dados da imagem de amostrada no modo interativo, você pode criar uma tarefa PySpark por meio da interface visual para dimensionar o processamento de todas as imagens de seu conjunto de dados.
O Data Wrangler oferece suporte à preparação de dados de imagem em todas as regiões atualmente atendidas pelo Data Wrangler. Para saber mais, consulte este artigo no blog e a documentação técnica da AWS.