Publicado: May 7, 2021
O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma única interface visual. A partir de hoje, você pode usar novos recursos do Amazon SageMaker Data Wrangler que facilitam e agilizam a preparação de dados para machine learning, incluindo: acesso entre contas para o Amazon S3, suporte para até 1000 colunas de dados, trabalhos distribuídos e uma nova experiência de bloco de anotações do SageMaker Data Wrangler.
Com o lançamento do acesso entre contas do Amazon S3, você pode importar dados de qualquer bucket do S3 ao qual você tenha acesso e navegar facilmente dados dentro dos seus buckets do S3, independentemente da conta em que eles estejam. Depois de navegar até o bucket do S3, você poderá navegar interativamente o conteúdo do bucket do S3 e importá-los para o Amazon SageMaker Data Wrangler com um único clique. Além disso, muitas aplicações de machine learning exigem a preparação de conjuntos de dados com centenas de colunas. Com o lançamento do suporte para 1000 conjuntos de dados de colunas, você pode facilmente preparar dados para aplicações de machine learning. Com trabalhos distribuídos, agora você pode dimensionar suas workloads de processamento de dados em várias instâncias para processar dados de praticamente qualquer tamanho. Atualmente, é possível especificar uma contagem de instâncias de mais de 1 para os tipos de instância ml.m5.4xlarge, ml.m5.12xlarge e ml.m5.24xlarge, para facilitar o dimensionamento horizontal das suas workloads de processamento de dados. Finalmente, a nova experiência de blocos de anotações do SageMaker Data Wrangler torna os blocos de anotações de Trabalhos mais fáceis de usar. Os blocos de anotações foram reorganizados para facilitar a configuração e fornecer documentação para que você possa começar mais rápido.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, você pode abrir o Amazon SageMaker Studio e clicar em Arquivo > Novo > Fluxo no menu ou em “novo fluxo de dados” no launcher do SageMaker Studio. Para saber mais, acesse a página de recursos ou a documentação.