Publicado: Sep 8, 2022
O Amazon SageMaker Canvas anuncia recursos adicionais de Exploratory Data Analysis (EDA – Análise exploratória de dados) com visualizações avançadas, o que permite explorar e analisar melhor os dados antes de criar modelos de machine learning (ML). O SageMaker Canvas é uma interface visual de apontar e clicar que permite que os analistas de negócios gerem sozinhos previsões precisas de ML, sem precisar ter experiência de machine learning e sem ter que escrever nenhuma linha de código.
A partir de hoje, o Amazon SageMaker Canvas oferece novas visualizações de EDA que permitem compreender melhor os dados antes da criação de modelos. Essas visualizações ampliam o conjunto de recursos de preparação e exploração de dados já oferecidos pelo Canvas, como tamanhos flexíveis de amostragem de dados; substituição de valores faltantes e discrepantes; filtragem, associação e modificação de conjuntos de dados; e formatos ampliados de carimbos de data e hora. As visualizações ajudam a analisar os relacionamentos entre recursos nos conjuntos de dados e compreender melhor os dados. Isso é feito usando um formato visual de fácil leitura, com capacidade de interação com os dados para descobrir insights que poderiam passar despercebidos em consultas ad-hoc. As visualizações podem ser criadas rapidamente no Data Visualizer do SageMaker Canvas antes de criar e treinar modelos de ML. As novas visualizações incluem:
- Gráficos de dispersão: usados para observar relacionamentos entre diferentes variáveis numéricas nos dados. Os pontos apresentam valores de duas variáveis numéricas diferentes. A posição de cada ponto indica o valor de um ponto de dados específico nos eixos horizontal e vertical.
- Gráficos de barras: usados para sumarizar um conjunto de dados de categorização, representados por barras para permitir a comparação imediata de dados. A altura de cada barra representa a proporção de uma agregação específica de dados.
- Diagramas de caixa: representam grupos de dados numéricos por meio de quartis. Os diagramas de caixa ajudam a determinar a distribuição dos valores dos dados. A visualização gráfica representa a distribuição de um ou mais grupos de dados numéricos.
Todos os recursos de EDA, incluindo as novas visualizações, estão disponíveis em todas as regiões da AWS em que o SageMaker Canvas é oferecido. Para saber mais sobre o Canvas, as regiões em que é oferecido e como começar a usar, consulte a documentação, a página de produto e as perguntas frequentes.