Publicado en: Jan 28, 2022

Amazon SageMaker Autopilot crea, forma y ajusta de forma automática los mejores modelos de machine learning en función de los datos, a la vez que permite mantener un control y una visibilidad completos. A partir de hoy, SageMaker Autopilot es compatible con el formato de archivo Apache Parquet. Apache Parquet es un formato de almacenamiento de datos orientado a columnas, gratuito y de código abierto para el ecosistema Apache Hadoop. El formato brinda una compresión de datos eficiente y esquemas de codificación con rendimiento mejorado. Esta nueva característica permite la creación de experimentos de SageMaker Autopilot con archivos almacenados en el formato de archivos Apache Parquet. 

Cuando cree un experimento de Autopilot con este lanzamiento, podrá especificar una ubicación de Simple Storage Service (Amazon S3) para los datos Parquet de entrada que apuntan a un único archivo Parquet o un archivo de manifiesto que contiene metadatos y hace referencia a varios archivos Parquet. Autopilot puede aceptar hasta 2 GB de datos comprimidos para cada archivo Parquet en la ubicación de entrada o manifiesto. Puede aumentar el límite de servicio predeterminado de 2 GB para un archivo con formato Parquet comprimido si cumplimenta una solicitud de aumento del límite de servicio en la consola de AWS Support Center. Cuando especifica una carpeta de Simple Storage Service (Amazon S3) o un archivo de manifiesto con varios archivos Parquet como entrada, el límite de 2 GB predeterminado se aplica a cada archivo Parquet de manera individual. Esta versión también incluye compatibilidad con el procesamiento de conjuntos de datos Parquet de gran tamaño. SageMaker Autopilot submuestreará de manera automática los datos sin comprimir almacenados en el archivo o archivos Parquet para adaptarlos al límite máximo admitido, a la vez que tiene en cuenta el desequilibrio de clase y preserva las etiquetas de clase rara.

El formato de archivo Parquet es compatible en todas las regiones de AWS en las que SageMaker Autopilot está disponible. Para obtener más información, consulte los temas Tipos de datos y problemas y Cuotas en la guía para desarrolladores de Amazon SageMaker Autopilot y ContentType en la referencia de la API AutoMLChannel. Si desea información exhaustiva, consulte nuestra publicación de blog y el bloc de notas de muestra, los cuales muestran una vista previa del lanzamiento de esta característica. Para comenzar a utilizar SageMaker Autopilot, consulte la sección Introducción o acceda a Autopilot dentro de SageMaker Studio.