Publicado: Apr 1, 2022

O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio, o primeiro ambiente de desenvolvimento totalmente integrado (IDE) para ML. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Você pode importar dados de várias fontes de dados, como Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift e Snowflake. A partir de hoje, você pode usar o Databricks como fonte de dados no SageMaker Data Wrangler para preparar facilmente dados no Databricks para machine learning. A Databricks, um Parceiro da AWS, ajuda as organizações a preparar seus dados para análises, capacitar a ciência de dados e decisões orientadas por dados em toda a organização e adotar rapidamente o ML.

Com o Databricks como fonte de dados para o SageMaker Data Wrangler, agora você pode se conectar ao Databricks de maneira rápida e fácil, consultar dados armazenados no Databricks usando SQL e visualizar dados antes da importação. Além disso, você pode unir seus dados no Databricks com dados armazenados no Amazon S3 e dados consultados por meio do Amazon Athena, Amazon Redshift e Snowflake para criar o conjunto de dados certo para o seu caso de uso de ML. Depois de importar os dados, você pode explorar e analisar seus dados com visualizações integradas do SageMaker Data Wrangler para identificar possíveis erros e valores extremos. Você pode limpar rapidamente seus dados e recursos de engenharia com mais de 300 transformações de dados integradas, incluindo transformações específicas de ML, como codificação e balanceamento de dados em um único momento, sem escrever uma única linha de código. Você também pode detectar tendenciosidades com o Amazon SageMaker Clarify, encontrar vazamento de destinos, fazer análises hipotéticas com um modelo rápido para entender a importância de recursos e outros problemas de qualidade de dados que afetarão o modelo de ML antes mesmo de treinar e implantar modelos de ML em produção. Por fim, você pode exportar os dados processados diretamente no Amazon SageMaker Feature Store ou no Amazon S3 com apenas alguns cliques para treinar modelos de ML com o SageMaker Autopilot ou o SageMaker Training. Você também pode exportar seu fluxo de trabalho de preparação de dados para ser executado em conjuntos de dados maiores no trabalho de processamento do SageMaker ou como uma etapa no Amazon SageMaker Pipelines.

Para saber mais sobre a integração do Databricks com o SageMaker Data Wrangler, consulte nosso blog ou a documentação da AWS. Para começar a usar o SageMaker Data Wrangler, acesse nossa documentação da AWS e a página de preços.