Amazon SageMaker Data Wrangler

A maneira mais rápida e fácil de preparar dados tabulares e de imagem para machine learning

Por que usar o SageMaker Data Wrangler?

O Amazon SageMaker Data Wrangler reduz o tempo necessário para agregar e preparar dados tabulares e de imagem para ML de semanas para minutos. Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de atributos, além de executar cada etapa do fluxo de trabalho de preparação de dados (incluindo seleção, limpeza, exploração, visualização e processamento de dados em grande escala) em uma única interface visual. Você pode usar SQL para selecionar os dados que deseja de várias fontes de dados e importá-los rapidamente. Em seguida, é possível usar o relatório de insights e de qualidade de dados para verificar automaticamente a qualidade dos dados e detectar anomalias, como linhas duplicadas e vazamento no destino. O SageMaker Data Wrangler contém mais de 300 transformações de dados integradas para que você possa transformar dados rapidamente sem a necessidade de escrever códigos.

Visão geral do Amazon SageMaker Data Wrangler

Benefícios do SageMaker Data Wrangler

Selecione dados, compreenda insights de dados e transforme dados para prepará-los para machine learning (ML) em minutos.
Estime rapidamente a precisão do modelo de ML e diagnostique problemas antes que os modelos sejam implantados na produção.
Leve a preparação de dados para a produção com mais rapidez, sem a necessidade de criar código PySpark, instalar o Apache Spark ou ativar clusters.

Como funciona

Como funciona o Amazon SageMaker Data Wrangler

Acesse, selecione e consulte dados com mais rapidez

Com a ferramenta de seleção de dados SageMaker Data Wrangler, é possível acessar e selecionar com rapidez os dados tabulares e de imagem de várias fontes conhecidas (como o Amazon Simple Storage Service [Amazon S3], o Amazon Athena, o Amazon Redshift, o AWS Lake Formation, o Snowflake e o Databricks) e de mais de 50 outras fontes de terceiros (como Salesforce, SAP, Facebook Ads e Google Analytics). Você também pode gravar consultas para fontes de dados usando SQL e importar dados diretamente para o SageMaker de vários formatos de arquivos, como CSV, Parquet, JSON e tabelas de banco de dados.

Gere insights de dados e compreenda a qualidade dos dados

O SageMaker Data Wrangler fornece um relatório de insights e da qualidade dos dados que verifica automaticamente a qualidade dos dados (como valores ausentes, linhas duplicadas e tipos de dados) e ajuda a detectar anomalias (como discrepâncias, desbalanceamento de classe e vazamentos de dados) em seus dados. Após verificar a qualidade dos dados com eficiência, é possível aplicar rapidamente o conhecimento do domínio para processar conjuntos de dados para o treinamento do modelo de ML.

Entenda seus dados com visualizações

O SageMaker Data Wrangler ajuda você a compreender seus dados e identificar possíveis erros e valores extremos com um conjunto de modelos de visualização robustos e configurados previamente. Você terá acesso a histogramas, gráficos de dispersão, gráficos de caixa, gráficos de linhas e de barras integrados para serem aplicados em seus dados. Visualizações específicas de ML mais avançadas (como relatório de viés, correlação de atributos, multicolinearidade, vazamento no destino e séries temporais) também estão disponíveis, mostrando a importância e as correlações de atributos. Essas ferramentas podem ser acessadas na guia Análise.

Transforme os dados com mais eficiência

O SageMaker Data Wrangler oferece uma seleção de mais de 300 transformações de dados desenvolvidas previamente e baseadas em PySpark para que você possa transformar os dados e escalar o fluxo de trabalho de preparação de dados sem a necessidade de escrever uma única linha de código. As transformações configuradas previamente abrangem casos de uso comuns, como nivelamento de arquivos JSON, exclusão de linhas duplicadas, inserção de dados ausentes com média ou mediana, uma codificação ativa e transformadores específicos de séries temporais para acelerar a preparação de dados de séries temporais para ML. Para seus dados de imagem, o SageMaker Data Wrangler oferece aprimoramentos de imagem comuns (como Desfoque, Aprimoramento e Redimensionamento) e operações de limpeza (como descartar imagens corrompidas e duplicatas). Também é possível criar transformações personalizadas em PySpark, SQL e Pandas. O SageMaker Data Wrangler oferece bibliotecas de imagem (imgaug e OpenCV) para criar transformações personalizadas para casos de uso de CV e uma avançada biblioteca de trechos de código para simplificar a criação de transformações personalizadas.

Entender o poder preditivo de seus dados

O recurso SageMaker Data Wrangler Quick Model fornece uma estimativa do poder preditivo esperado de seus dados. O Quick Model divide automaticamente seus dados em conjuntos de dados de treinamento e teste e treina os dados em um modelo XGBoost com hiperparâmetros padrão. Com base na tarefa que você está resolvendo (por exemplo, classificação ou regressão), o SageMaker Data Wrangler fornece um resumo de modelos, um resumo de atributos e uma matriz de confusão, que ajudam você a iterar rapidamente em seus fluxos de preparação de dados.

Automatize e implante os fluxos de trabalho de preparação de dados para ML

Com a interface de usuário do SageMaker Data Wrangler, é possível escalar para grandes conjuntos de dados sem a necessidade de criar código PySpark, instalar o Apache Spark ou criar clusters. É possível iniciar ou programar um trabalho para processar rapidamente seus dados ou exportá-los para um caderno do SageMaker Studio. O SageMaker Data Wrangler oferece várias opções de exportação, incluindo trabalhos do SageMaker Data Wrangler, SageMaker Feature Store e SageMaker Pipelines, para que você possa integrar seu fluxo de preparação de dados ao seu fluxo de trabalho de ML. Como alternativa, você pode implantar o fluxo de trabalho de preparação de dados em um endpoint hospedado pelo SageMaker. Por fim, você pode exportar dados diretamente para treinar seus modelos de ML usando uma interface visual com o SageMaker Canvas

Clientes

Invista
“Na INVISTA, somos movidos pela transformação e buscamos desenvolver produtos e tecnologias que beneficiem os clientes em todo o mundo. Na nossa visão, ML é uma forma de aprimorar a experiência do cliente. Entretanto, com conjuntos de dados que abrangem centenas de milhões de linhas, precisávamos de uma solução que nos ajudasse a preparar dados e a desenvolver, implantar e gerenciar modelos de ML em grande escala. Com o Amazon SageMaker Data Wrangler, podemos selecionar, limpar, explorar e compreender nossos dados de forma interativa, capacitando nossa equipe de ciência de dados para criar pipelines de engenharia de atributos que podem ser escalados com facilidade para conjuntos de dados que abrangem centenas de milhões de linhas. Com o Amazon SageMaker Data Wrangler, podemos operacionalizar nossos fluxos de trabalho de ML com mais rapidez.”

Caleb Wilkinson, antigo líder do setor de ciência de dados da INVISTA

3M
“Ao usar ML, a 3M está aprimorando produtos testados e comprovados, como papéis abrasivos, e impulsionando a inovação em diversos outros espaços, incluindo o setor de saúde. À medida que planejamos escalar ML para mais áreas da 3M, percebemos a quantidade de dados e modelos em rápido crescimento, praticamente dobrando a cada ano. Estamos entusiasmados com os novos atributos do SageMaker porque eles nos ajudarão a realizar a escalabilidade. O Amazon SageMaker Data Wrangler facilita muito a preparação de dados para treinamento de modelos, e o Amazon SageMaker Feature Store eliminará a necessidade de criar os mesmos atributos de modelo repetidamente. Por fim, o Amazon SageMaker Pipelines nos ajudará a automatizar a preparação de dados, o desenvolvimento de modelos e a implantação de modelos em um fluxo de trabalho completo para que possamos acelerar o tempo de entrada no mercado para os nossos modelos. Nossos pesquisadores estão ansiosos para aproveitar a nova velocidade da ciência na 3M.”

David Frazee, antigo diretor técnico da 3M Corporate Systems Research Lab

Deloitte
“O Amazon SageMaker Data Wrangler nos possibilita começar a trabalhar para atender às nossas necessidades de preparação de dados com uma avançada coleção de ferramentas de transformação que aceleram o processo de preparação de dados de ML necessário para lançar novos produtos no mercado. Por sua vez, nossos clientes se beneficiam da taxa em que escalamos modelos implantados, permitindo-nos entregar resultados mensuráveis e sustentáveis ​​que atendem às necessidades de nossos clientes em questão de dias, em vez de meses.”

Frank Farrall, diretor e chefe de plataformas e ecossistemas de IA da Deloitte

NRI
“Como um parceiro de consultoria premier da AWS, nossas equipes de engenharia estão trabalhando em estreita colaboração com a AWS para desenvolver soluções inovadoras para ajudar nossos clientes a melhorar continuamente a eficiência de suas operações. O ML é o núcleo de nossas soluções inovadoras, mas nosso fluxo de trabalho de preparação de dados envolve técnicas sofisticadas de preparação de dados que, como resultado, demoram um tempo considerável para serem operacionalizadas em um ambiente de produção. Com o Amazon SageMaker Data Wrangler, nossos cientistas de dados podem concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados, o que nos ajuda a acelerar o processo de preparação de dados e prepará-los com facilidade para ML. Com o Amazon SageMaker Data Wrangler, podemos preparar dados para ML mais rapidamente.”

Shigekazu Ohmoto, diretor administrativo empresarial sênior da NRI Japan

equilibrium
“À medida que nossa presença no mercado de gerenciamento de saúde populacional continua a se expandir para mais pagadores da área de saúde, provedores, gerentes de benefícios farmacêuticos e outras organizações de saúde, precisávamos de uma solução para automatizar processos completos para fontes de dados que impulsionam nossos modelos de ML, incluindo dados de reclamações, de inscrições e de farmácia. Com o Amazon SageMaker Data Wrangler, podemos acelerar o tempo necessário para agregar e preparar dados para ML usando um conjunto de fluxos de trabalho mais fáceis de validar e reutilizar. Isso melhorou drasticamente o tempo de entrega e a qualidade de nossos modelos, aumentou a eficácia de nossos cientistas de dados e reduziu em quase 50% o tempo de preparação de dados. Além disso, o SageMaker Data Wrangler nos ajudou a economizar várias iterações de ML e níveis significativos de tempo de GPU, acelerando todo o processo de ponta a ponta para nossos clientes, pois podemos desenvolver data marts com milhares de atributos, incluindo farmácia, códigos de diagnóstico, consultas de emergência, internações, bem como dados demográficos e outros determinantes sociais. Com o SageMaker Data Wrangler, podemos transformar nossos dados com eficiência superior para criar conjuntos de dados de treinamento, gerar insights de dados em conjuntos de dados antes de executar modelos de ML e preparar dados reais para inferências e previsões em grande escala.”

Lucas Merrow, CEO da Equilibrium Point IoT

Comece a usar o SageMaker Data Wrangler

Blogs

BLOG

Accelerate data preparation with data quality and insights in Amazon SageMaker Data Wrangler (Acelerar a preparação de dados com qualidade e insights de dados no Amazon SageMaker Data Wrangler)

BLOG

Amazon SageMaker Data Wrangler supports SaaS applications as data sources (Amazon SageMaker Data Wrangler é compatível com aplicações SaaS como fonte de dados)

Blog

Prepare data from Databricks for machine learning using Amazon SageMaker Data Wrangler (Prepare dados de bancos de dados para machine learning usando o Amazon SageMaker Data Wrangler)

BLOG

Prepare data with PySpark and Altair code snippets in Amazon SageMaker Data Wrangler (Preparar dados com os snippets de código PySpark e Altair no Amazon SageMaker Data Wrangler)

BLOG

Import data from cross-account Amazon Redshift to Amazon SageMaker Data Wrangler (Importar dados entre contas do Amazon Redshift para o Amazon SageMaker Data Wrangler)

BLOG

Use o Amazon SageMaker Data Wrangler no Amazon SageMaker Studio com uma configuração de ciclo de vida padrão

Exercícios práticos

Tutorial

Tutorial passo a passo para começar a usar o SageMaker Data Wrangler

WORKSHOPS

Explore como usar o Sagemaker Data Wrangler para casos de uso

Vídeos de demonstração

Vídeo

re:Invent 2022: Accelerate data preparation with SageMaker Data Wrangler (Acelere a preparação de dados com o SageMaker Data Wrangler)

re:Invent 2022: Accelerate data preparation (Acelere a preparação dos dados) (56:45)
VÍDEO

Prepare rapidamente os dados para ML usando o desktop virtual do SageMaker Data Wrangler

Quickly prepare data for ML Virtual Workshop (Prepare rapidamente os dados para workshop virtual de ML) (1:18:08)
VÍDEO

AWS on Air 2020: AWS What’s Next ft. SageMaker Data Wrangler

AWS on Air 2020: AWS What’s Next ft. SageMaker Data Wrangler (27:51)
VÍDEO

SageMaker Data Wrangler Deep Dive Demo (Demonstração de aprofundamento do SageMaker Data Wrangler)

SageMaker Data Wrangler Deep Dive Demo (Demonstração de aprofundamento do SageMaker Data Wrangler) (28:13)

Novidades

  • Data (do mais recente ao mais antigo)
Nenhum resultado encontrado
1