Publicado: Dec 8, 2022
O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. A partir de hoje, você pode se conectar ao Amazon EMR Presto como um grande mecanismo de consulta para trazer um conjunto de dados muito grande e preparar dados para o ML em poucos minutos no interativo visual do Data Wrangler.
Analisar, transformar e preparar grandes quantidades de dados é uma parte essencial e também a parte mais demorada do fluxo de trabalho de ML. Cientistas de dados e engenheiros de dados utilizam o Apache Spark, o Apache Hive e o Presto executados no Amazon EMR para a preparação de dados em grande escala. A partir de hoje, os clientes agora podem usar uma interface visual para descobrir e se conectar aos clusters do EMR existentes que executam o endpoint Presto a partir do Data Wrangler. Eles podem navegar pelo banco de dados, tabelas e esquemas, criar consultas do Presto para selecionar, visualizar e criar um conjunto de dados para ML. Em seguida, eles podem usar a interface visual do Data Wrangler para analisar dados usando o relatório de insights e qualidade de dados, limpar dados e criar recursos para ML usando mais de 300 transformações integradas apoiadas pelo Spark sem a necessidade de criar código do Spark. Eles podem treinar e implantar automaticamente modelos de ML usando a integração com o SageMaker Autopilot. Finalmente, eles podem escalar para processar conjuntos de dados muito grandes com tarefas de processamento distribuído, automatizar a preparação de dados usando o recurso de agendamento integrado e executar a preparação de dados em fluxos de trabalho de produção para treinamento ou inferência com o SageMaker Pipeline.
O Data Wrangler é compatível com o EMR Presto em todas as regiões atualmente com suporte pelo Data Wrangler, sem custo adicional. Para saber mais, consulte esta publicação no blog e a documentação técnica da AWS.