Publicado: Sep 22, 2022
O Amazon SageMaker Data Wrangler reduz o tempo de agregação e preparação de dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio, o primeiro ambiente de desenvolvimento totalmente integrado (IDE) para ML. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Você pode importar dados de várias fontes de dados, como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Snowflake e 26 fontes de dados de consultas federadas com o Amazon Athena. A partir de hoje, os clientes que importam dados de fontes de dados do Athena podem configurar o local de saída das consultas no S3 e o período de retenção desses dados para controlar onde e por quanto tempo os dados intermediários são armazenados pelo Athena.
O Amazon Athena é um serviço de consultas interativas que facilita a navegação no Catálogo de Dados do Glue e a análise de dados diretamente no Amazon S3 e 26 fontes de dados de consultas federadas usando SQL padrão. O Data Wrangler aceita que o grupo de trabalho do Athena informe um local de saída padrão para as consultas no S3. A partir de hoje, você pode especificar um local padrão do S3 para saídas de consultas do Athena ou continuar a usar o bucket padrão existente no Data Wrangler. Para controlar o custo do armazenamento, as saídas das consultas do Athena têm um período padrão de retenção de dados de cinco dias. Esse período de retenção de dados pode ser alterado de acordo com as suas necessidades e as diretrizes de segurança de dados da organização. Depois de importar os dados com o Athena, você pode usar a interface visual do Data Wrangler para associar dados de várias fontes, explorar e analisar dados com o Relatório de qualidade e insights de dados e outras visualizações integradas para identificar possíveis erros e valores extremos. Você pode limpar rapidamente os dados e criar recursos com mais de 300 transformações de dados incorporadas. É possível criar um trabalho para processar um conjunto de dados maior ou iniciar um trabalho de treinamento do SageMaker Autopilot diretamente do Data Wrangler para encontrar automaticamente o melhor modelo para o problema de negócios usando os dados preparados.
Esses recursos estão disponíveis sem custo adicional em todas as regiões da AWS em que o Data Wrangler é oferecido. Para começar a usar o SageMaker Data Wrangler, acesse o blog e a documentação da AWS.