Publicado en: Apr 13, 2023
Hoy, Amazon Redshift introdujo mejoras de rendimiento adicionales que aceleran el procesamiento de datos basado en cadenas entre 5 y 63 veces en comparación con las codificaciones de compresión alternativas, como LZO o ZSTD. Amazon Redshift logra esto mediante escaneos vectorizados en columnas de cadenas codificadas en diccionario livianas y eficientes en la CPU, que permiten que el motor de base de datos funcione directamente sobre datos comprimidos. Estas técnicas son óptimas en columnas de cadenas de baja cardinalidad (CHAR o VARCHAR). Las columnas de cadenas de baja cardinalidad son columnas que tienen hasta unos cientos de valores de cadena únicos.
Puede beneficiarse automáticamente de esta nueva mejora de cadenas de alto rendimiento al habilitar la optimización automática de tablas (ATO) en su almacenamiento de datos de Amazon Redshift. Si no tiene activada la ATO en las tablas, puede recibir recomendaciones del asesor de Amazon Redshift en la consola de Amazon Redshift sobre la idoneidad de una columna de cadenas para la codificación BYTEDICT. También puede definir tablas nuevas que tengan columnas de cadenas de baja cardinalidad con codificación BYTEDICT. Las mejoras de cadenas en Amazon Redshift ya están disponibles en todas las regiones de Amazon Web Services (AWS) en las que Amazon Redshift está disponible.