Publicado: Mar 10, 2023
O Amazon SageMaker Data Wrangler reduz o tempo para agregação e preparação de dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio. O Data Wrangler permite que você acesse dados de uma grande variedade de fontes populares (Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR Presto, Snowflake) e mais de 40 outras fontes de terceiros. A partir de hoje, você pode se conectar ao Amazon EMR Hive como um mecanismo de consulta de big data para trazer conjuntos de dados muito grandes para o ML.
Agregar e preparar grandes quantidades de dados é uma parte essencial do fluxo de trabalho de ML. Cientistas de dados e engenheiros de dados utilizam o Apache Spark, o Apache Hive e o Presto executados no Amazon EMR para processamento de dados em grande escala. A partir de hoje, os clientes já podem usar a interface visual do Data Wrangler para descobrir e se conectar a clusters do EMR existentes que executam um endpoint do Hive. É possível navegar pelo banco de dados, tabelas e esquema, e desenvolver consultas do Hive para selecionar, visualizar e criar um conjunto de dados usando o SQL Explorer do Data Wrangler. Em seguida, os clientes podem analisar visualmente os dados e criar recursos de ML sem escrever nenhum código, usando mais de 300 análises e transformações integradas compatíveis com o Spark. Os clientes também podem treinar e implantar modelos com o SageMaker Autopilot, agendar tarefas ou operacionalizar a preparação de dados em um pipeline do SageMaker usando a interface visual do Data Wrangler.
Em todas as regiões em que está disponível, o Data Wrangler oferece suporte ao EMR Hive. Para saber mais, consulte esta publicação no blog e a documentação técnica da AWS.