Publicado: May 6, 2022
O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio, o primeiro ambiente de desenvolvimento totalmente integrado (IDE) para ML. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. O SageMaker Data Wrangler é executado em ml.m5.4xlarge por padrão. O SageMaker Data Wrangler inclui transformações e análises de dados integradas escritas no PySpark para que você possa processar grandes conjuntos de dados (até centenas de gigabytes (GB) de dados) com eficiência na instância padrão.
A partir de hoje, você pode usar tipos de instância M5 ou R5 adicionais com mais CPU ou memória no SageMaker Data Wrangler para melhorar o performance de suas workloads de preparação de dados. As instâncias M5 do Amazon EC2 oferecem um equilíbrio de recursos de computação, memória e redes para uma grande variedade de workloads. As instâncias R5 do Amazon EC2 são as instâncias otimizadas para memória. Os tipos de instância M5 e R5 são adequados para aplicações com uso intensivo de CPU e memória, como executar transformações internas para conjuntos de dados muito grandes (até terabytes (TB) de dados) ou aplicar transformações personalizadas gravadas no Panda em conjuntos de dados médios (até a dezenas de GB).
Para saber mais sobre as instâncias recentemente compatíveis com o Amazon SageMaker Data Wrangler, visite o blog ou o documento da AWS e a página de preços. Para começar a usar o SageMaker Data Wrangler, acesse a documentação da AWS.