Publicado: Nov 30, 2022

Hoje, a AWS anuncia a disponibilidade geral do suporte do Amazon SageMaker Data Wrangler para mais de 40 aplicações de terceiros como fontes de dados para machine learning (ML) por meio da integração ao Amazon AppFlow. O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos. A preparação de dados de alta qualidade para ML geralmente é complexa e demorada, pois requer a agregação de dados em várias fontes e formatos usando ferramentas diferentes. Com o SageMaker Data Wrangler, você pode explorar e importar dados de várias fontes populares, como Amazon S3, Amazon Athena, Amazon Redshift, Snowflake, Databricks e Salesforce Customer Data Platform. A partir de hoje, estamos tornando mais fácil para os clientes agregar dados para ML de mais de 40 fontes de dados de aplicações de terceiros, incluindo Salesforce Marketing, SAP, Google Analytics, LinkedIn, entre outros, por meio do Amazon AppFlow. 

O Amazon AppFlow é um serviço totalmente gerenciado que permite aos clientes transferir com segurança dados de aplicações de terceiros para serviços da AWS, como Amazon S3, e catalogar os dados no Catálogo de Dados do AWS Glue com apenas alguns cliques. Depois que as fontes de dados são configuradas no AppFlow, você pode procurar tabelas e esquemas dessas fontes de dados usando o explorador de SQL do Data Wrangler. Você pode escrever consultas do Athena para visualizar dados para garantir que sejam relevantes para seus casos de uso e importar dados para se preparar para o treinamento do modelo de machine learning. Você também pode unir dados de várias fontes após a importação para criar o conjunto de dados correto para machine learning. Depois que os dados são importados, você pode entender rapidamente a qualidade dos dados, limpá-los e criar recursos com mais de 300 transformações de dados e análises integradas. Você também pode treinar e implantar o modelo com o SageMaker Autopilot e operacionalizar o processo de preparação de dados em uma engenharia de recursos, treinamento ou pipeline de implantação usando a integração ao SageMaker Pipeline do Data Wrangler.

O Data Wrangler oferece suporte a mais de 40 fontes de dados de terceiros em todas as regiões atualmente disponíveis pelo AppFlow. Esse recurso está disponível sem custo adicional além do custo do Data Wrangler e do AppFlow.

Para começar a usar, consulte os seguintes recursos: