Publicado: Nov 2, 2023

Agora, você pode iniciar o Amazon SageMaker Data Wrangler a partir do Amazon EMR Studio com pouco código para preparar dados para machine learning (ML). O Amazon EMR é a solução de big data na nuvem para processamento de dados, análises interativas e machine learning na escala de petabytes usando estruturas de código aberto, como Apache Spark, Apache Hive e Presto. O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). A nova integração fornece uma experiência simplificada para iniciar o SageMaker Data Wrangler do EMR Studio a fim de preparar dados para ML sem escrever código.

Analisar, transformar e preparar grandes quantidades de dados é uma parte essencial e também a parte mais demorada do fluxo de trabalho de ML. A partir de hoje, os clientes já podem iniciar o SageMaker Data Wrangler do EMR Studio para descobrir clusters do EMR e conectar-se a eles. Após a conexão, eles podem usar a interface visual do Data Wrangler para analisar dados usando o relatório Qualidade e insights de dados, limpar dados e criar recursos para ML usando as mais de 300 transformações com suporte do Spark. É possível escalar para processar conjuntos de dados muito grandes com trabalhos de processamento distribuído, automatizar a preparação de dados usando o recurso de agendamento integrado ou integrar-se ao SageMaker Pipeline para fins de treinamento ou fluxos de trabalho de inferência completos. Também é possível treinar e implantar automaticamente modelos de ML usando a interface visual com a integração do SageMaker Autopilot do SageMaker Data Wrangler. 

A nova integração está disponível em todas as regiões comerciais que oferecem o EMR e o SageMaker Data Wrangler. Para obter mais informações, consulte a documentação técnica da AWS.