Publicado: Oct 14, 2021

O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma única interface visual.

A partir de hoje, você pode consultar dados no Amazon Athena usando grupos de trabalho, habilitar junções de várias chaves para conjuntos de dados, visualizar correlação e linhas duplicadas, além de fornecer chaves gerenciadas pelo cliente ao exportar seus fluxos de dados, o que torna mais fácil e rápido preparar dados para ML. Veja abaixo uma descrição detalhada desses recursos:

  • Suporte para Athena Workgroups. O Amazon Athena Workgroups é um tipo de recurso que pode ser usado para separar a execução de consultas e o histórico de consultas entre usuários, equipes ou aplicativos que usam a mesma conta da AWS. A partir de hoje, você pode consultar dados com o Athena do SageMaker Data Wrangler usando o grupo de trabalho de sua escolha.
  • Duas novas visualizações para ajudar na preparação de dados:
    • Com a visualização de correlação de recursos do SageMaker Data Wrangler, você pode calcular facilmente a correlação de recursos em seu conjunto de dados e visualizá-los como uma matriz de correlação.
    • Com a nova visualização de detecção de linha duplicada, você pode detectar rapidamente se seu conjunto de dados tem linhas duplicadas.
  • Junções de várias chaves. Agora você pode especificar várias colunas ao unir dois conjuntos de dados no SageMaker Data Wrangler e excluir etapas intermediárias dentro dos fluxos do SageMaker Data Wrangler.
  • Suporte para chaves gerenciadas pelo cliente (CMKs) usando Amazon Key Management Service (KMS). A partir de hoje, você pode especificar a chave KMS ao usar o recurso “Exportar para S3”, além dos notebooks exportados do SageMaker Data Wrangler.

Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, você pode abrir o Amazon SageMaker Studio depois de fazer upgrade para a versão mais recente e clicar em File > New > Flow (Arquivo > Novo > Fluxo) no menu ou em “New Data Flow” (Novo Fluxo de Dados) no inicializador do SageMaker Studio. Para saber mais sobre os novos recursos, consulte a documentação