Publicado: Jan 28, 2022
O Amazon SageMaker Autopilot desenvolve, treina e ajusta automaticamente os melhores modelos de machine learning com base em seus dados, permitindo que você mantenha controle e visibilidade totais. A partir de hoje, o SageMaker Autopilot oferece suporte para o formato de arquivo Apache Parquet. O Apache Parquet é um formato de armazenamento de dados orientado a colunas gratuito e de código aberto para o ecossistema Apache Hadoop. Ele fornece esquemas eficientes de compactação e codificação de dados com performance aprimorada. Esse novo recurso permite a criação de experimentos do SageMaker Autopilot com arquivos armazenados no formato de arquivo Apache Parquet.
Ao criar um experimento do Autopilot com esta versão, você pode especificar o local do Simple Storage Service (Amazon S3) para dados de parquet de entrada que apontam para um único arquivo de parquet ou um arquivo manifesto que contém metadados e faz referência a vários arquivos de parquet. O Autopilot pode aceitar até 2 GB de dados compactados para cada arquivo Parquet no local de entrada ou manifesto. Você pode aumentar o limite de serviço padrão de 2 GB para um arquivo compactado no formato parquet preenchendo uma solicitação de Aumento de limite de serviço no console do AWS Support Center. Quando você especifica uma pasta ou arquivo manifesto do Simple Storage Service (Amazon S3) com vários arquivos de parquet como entrada, o limite padrão de 2 GB é aplicado para cada arquivo de parquet separadamente. Esta versão também inclui suporte para processamento de grandes conjuntos de dados de parquet. O SageMaker Autopilot fará uma subamostragem automática dos dados não compactados armazenados no(s) arquivo(s) de parquet para ajustar o limite máximo suportado, enquanto contabiliza o desequilíbrio de classe e preserva os rótulos de classe raros.
O formato de arquivo Parquet é compatível com todas as regiões da AWS onde o SageMaker Autopilot está disponível. Para obter mais informações,consulte os tipos de Dados e Problema e os tópicos Cotas no Guia do desenvolvedor do Amazon SageMaker Autopilot, e no ContentType na API de referência do AutoMLChannel. Para se aprofundar ainda mais, confira nossa postagem no blog e amostra de cadernos que apresenta uma prévia do lançamento deste recurso. Para começar a usar o SageMaker Autopilot, acesse a página Comece a usar ou o Autopilot no SageMaker Studio.