Publicado: Aug 22, 2023

O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML) com o Amazon SageMaker Studio. O SageMaker Data Wrangler permite que você acesse dados de uma grande variedade de fontes populares (Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR e Snowflake) e mais de 50 outras fontes de terceiros. A partir de hoje, você pode usar o controle de acesso baseado em funções com o AWS Lake Formation nas conexões com EMR Hive e Presto para criar conjuntos de dados para ML no SageMaker Data Wrangler. 

Depois que os administradores configuram o acesso baseado em funções do EMR com o Lake Formation e concedem acesso aos dados para o perfil do IAM usado no SageMaker Studio, você pode se conectar do SageMaker Data Wrangler ao EMR usando o mesmo perfil do IAM para autenticação e autorização pelo Lake Formation. Você pode usar as conexões com EMR Hive e Presto para pesquisar dados em data lakes do S3 gerenciados pelo Lake Formation e criar um conjunto de dados para ML. Em seguida, você pode avaliar rapidamente a qualidade dos dados, limpá-los e criar recursos usando a interface visual e mais de 300 análises e transformações de dados do SageMaker Data Wrangler, baseadas no Spark, sem precisar escrever código. Você também pode treinar e implantar modelos com o SageMaker Autopilot e operacionalizar o processo de preparação de dados em pipelines de engenharia de atributos, treinamento ou inferência com o SageMaker Pipeline, tudo isso sem sair do SageMaker Data Wrangler. 

O SageMaker Data Wrangler oferece suporte ao EMR e Lake Formation em todas as regiões em que o Data Wrangler está disponível. Para saber mais, consulte esta publicação de blog e a documentação técnica da AWS.