Publicado: Aug 9, 2022
Temos o prazer de anunciar recursos ampliados de preparação e análise de dados no Amazon SageMaker Canvas, incluindo substituição de valores faltantes, substituição de dados discrepantes e a flexibilidade de escolher diferentes tamanhos de amostra para os conjuntos de dados. O Amazon SageMaker Canvas é uma interface visual de apontar e clicar que permite que os analistas de negócios gerem sozinhos previsões precisas de machine learning (ML), sem precisar ter experiência de ML e sem ter que escrever nenhuma linha de código. Com o SageMaker Canvas, é mais fácil acessar e combinar dados de fontes variadas, limpar dados automaticamente e criar modelos de ML para gerar previsões precisas com poucos cliques.
A partir de hoje, o SageMaker Canvas permite substituir valores faltantes para agilizar a preparação de dados e substituir dados discrepantes para criar modelos de ML mais precisos, além de oferecer a flexibilidade de escolha do tamanho de amostras do conjunto de dados para acelerar as análises de dados.
Substitua valores faltantes: esses valores são uma ocorrência comum em conjuntos de dados e podem afetar a precisão de modelos de ML. Esse novo recurso do SageMaker Canvas ajuda a substituir (uma ação também conhecida como imputar) valores faltantes nos dados com valores personalizados e agilizar a preparação dos dados, sem precisar alterar o conjunto de dados. Por exemplo, você pode substituir valores faltantes em colunas numéricas pela média ou mediana dos dados, ou por um valor personalizado. Assim, você garante que os dados estejam prontos antes da criação de modelos de ML.
Substitua valores discrepantes: valores discrepantes ou raros no intervalo de dados podem causar grande variância ou viés na criação de modelos de ML. Agora, o SageMaker Canvas permite detectar valores discrepantes em colunas numéricas e ajuda a substituí-los por valores de um intervalo específico. Você pode escolher o desvio padrão ou um intervalo personalizado e substituir valores discrepantes por valores mínimos e máximos nesse intervalo especificado.
Escolha o tamanho de amostras dos conjuntos de dados: agora, o SageMaker Canvas permite escolher o tamanho de amostras do conjunto de dados para analisar melhor os dados. A amostragem é uma técnica estatística para identificar padrões e tendências em grandes conjuntos de dados, trabalhando com uma quantidade pequena e gerenciável de dados e possibilitando análises de dados precisas para criar modelos de ML. O SageMaker Canvas usa o método de amostragem aleatória, que permite acelerar a obtenção de insights sobre os dados. Por padrão, o Canvas usa um tamanho de amostra de 20.000 linhas do conjunto de dados. Agora, você pode optar entre 500 e 40.000 linhas de amostra de dados, dependendo do tamanho do conjunto de dados, para oferecer flexibilidade e controle.
Os novos recursos se juntam às funcionalidades de preparação de dados e transformações avançadas de dados oferecidas pelo SageMaker Canvas. Para saber mais e começar a usar, consulte a documentação e a página do produto.